論文の概要: Any Resolution Any Geometry: From Multi-View To Multi-Patch
- arxiv url: http://arxiv.org/abs/2603.03026v1
- Date: Tue, 03 Mar 2026 14:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.832566
- Title: Any Resolution Any Geometry: From Multi-View To Multi-Patch
- Title(参考訳): あらゆる解像度の幾何学:マルチビューからマルチパッチ
- Authors: Wenqing Cui, Zhenyu Li, Mykola Lavreniuk, Jian Shi, Ramzi Idoughi, Xiangjun Tang, Peter Wonka,
- Abstract要約: Ultra Resolution Geometry Transformer (URGT) は、VGGT (Visual Geometry Grounded Transformer) をモノクル高分解能深度正規推定のための統一マルチパッチトランスに適合させる。
1つの高解像度画像は、事前訓練されたモデルから粗い深さと通常の先行値で拡張されたパッチに分割され、1つの前方通過で共同処理され、洗練された幾何出力を予測する。
提案手法はUnrealStereo4Kの最先端化を実現し,AbsRelを0.0582から0.0291に,RMSEを2.17から1.3に削減する。
- 参考スコア(独自算出の注目度): 46.8276232687626
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Joint estimation of surface normals and depth is essential for holistic 3D scene understanding, yet high-resolution prediction remains difficult due to the trade-off between preserving fine local detail and maintaining global consistency. To address this challenge, we propose the Ultra Resolution Geometry Transformer (URGT), which adapts the Visual Geometry Grounded Transformer (VGGT) into a unified multi-patch transformer for monocular high-resolution depth--normal estimation. A single high-resolution image is partitioned into patches that are augmented with coarse depth and normal priors from pre-trained models, and jointly processed in a single forward pass to predict refined geometric outputs. Global coherence is enforced through cross-patch attention, which enables long-range geometric reasoning and seamless propagation of information across patches within a shared backbone. To further enhance spatial robustness, we introduce a GridMix patch sampling strategy that probabilistically samples grid configurations during training, improving inter-patch consistency and generalization. Our method achieves state-of-the-art results on UnrealStereo4K, jointly improving depth and normal estimation, reducing AbsRel from 0.0582 to 0.0291, RMSE from 2.17 to 1.31, and lowering mean angular error from 23.36 degrees to 18.51 degrees, while producing sharper and more stable geometry. The proposed multi-patch framework also demonstrates strong zero-shot and cross-domain generalization and scales effectively to very high resolutions, offering an efficient and extensible solution for high-quality geometry refinement.
- Abstract(参考訳): 局所的な局所的な細部保存と大域的な整合性維持のトレードオフにより,高解像度の予測は依然として困難である。
この課題に対処するために,視覚幾何接地変圧器(VGGT)を単眼高分解能深度正規推定のための統一マルチパッチ変圧器に適応させる超分解能幾何変圧器(URGT)を提案する。
1つの高解像度画像は、事前訓練されたモデルから粗い深さと通常の先行値で拡張されたパッチに分割され、1つの前方通過で共同処理され、洗練された幾何出力を予測する。
グローバルコヒーレンス(Global Coherence)は、長期の幾何学的推論と、共有バックボーン内のパッチ間の情報のシームレスな伝播を可能にするクロスパッチアテンションを通じて実施される。
空間的ロバスト性をさらに向上するため、トレーニング中にグリッド構成を確率的にサンプリングし、パッチ間の一貫性と一般化を改善するGridMixパッチサンプリング戦略を導入する。
提案手法は,UnrealStereo4Kの精度向上,深度と正規推定の併用,AbsRelの0.0582から0.0291,RMSEの2.17から1.31,平均角誤差を23.36度から18.51度に下げるとともに,より鋭く,より安定した幾何を生成する。
提案したマルチパッチフレームワークはまた、強力なゼロショットとクロスドメインの一般化を示し、非常に高解像度に効果的にスケールし、高品質な幾何改良のための効率的で拡張可能なソリューションを提供する。
関連論文リスト
- UrbanGS: A Scalable and Efficient Architecture for Geometrically Accurate Large-Scene Reconstruction [30.233380858586454]
UrbanGSは、都市規模のアプリケーションのためのスケーラブルな再構築フレームワークである。
幾何学的一貫性、メモリ効率、計算スケーラビリティの問題に対処する。
複数の都市データセットに対する実験により、UrbanGSはレンダリング品質、幾何精度、メモリ効率において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2026-02-02T13:35:16Z) - COMPOSE: Hypergraph Cover Optimization for Multi-view 3D Human Pose Estimation [58.47973015036709]
スパース多視点からの3次元ポーズ推定は、行動認識、スポーツ分析、人間とロボットの相互作用にとって重要な課題である。
ハイパーグラフ問題として多視点ポーズ対応マッチングを定式化する新しいフレームワークComposEを提案する。
COMPOSEは,従来の最適化手法よりも平均23%,自己教師付きエンドツーエンド学習手法より最大11%の精度向上を実現している。
論文 参考訳(メタデータ) (2026-01-14T18:50:17Z) - MeshMosaic: Scaling Artist Mesh Generation via Local-to-Global Assembly [62.48017648785026]
MeshMosaicは,100K以上の三角形にスケールするアーティストメッシュ生成のための,新たなローカル・グローバルなフレームワークである。
MeshMosaicは,幾何学的忠実度とユーザの好みの両方において,最先端の手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-09-24T11:02:03Z) - Dens3R: A Foundation Model for 3D Geometry Prediction [44.13431776180547]
Dens3Rは幾何学的密度予測のための3次元基礎モデルである。
画像対マッチング機能と本質的不変性モデリングを統合することにより、Dens3Rは複数の幾何学的量を正確に回帰する。
論文 参考訳(メタデータ) (2025-07-22T07:22:30Z) - DVP-MVS++: Synergize Depth-Normal-Edge and Harmonized Visibility Prior for Multi-View Stereo [7.544716770845737]
そこで我々は,DVP-MVS++を提案する。DVP-MVS++は,高度で可視性の高いパッチ変形に対して,奥行き正規のエッジアライメントと調和されたクロスビューの両方を相乗化する革新的な手法である。
ETH3D, Tanks & TemplesおよびStrechaデータセットの評価結果は,提案手法の最先端性能と堅牢な一般化能力を示す。
論文 参考訳(メタデータ) (2025-06-16T08:15:22Z) - SparseFlex: High-Resolution and Arbitrary-Topology 3D Shape Modeling [79.56581753856452]
SparseFlexは、新しいスパース構造のアイソサーフェス表現で、レンダリング損失から最大10243ドルの解像度で、差別化可能なメッシュ再構築を可能にする。
SparseFlexは、高解像度で差別化可能なメッシュ再構成とレンダリングロスによる生成を可能にすることで、3D形状の表現とモデリングの最先端性を著しく向上させる。
論文 参考訳(メタデータ) (2025-03-27T17:46:42Z) - MSP-MVS: Multi-Granularity Segmentation Prior Guided Multi-View Stereo [8.303396507129266]
MSP-MVSは,マルチグラニュラリティセグメンテーションを導入する手法である。
相関信頼画素の等価分布と分解クラスタリングを実装した。
また,グローバルな最小マッチングコストの特定を支援するために,差分サンプリングの相乗的3次元最適化も導入する。
論文 参考訳(メタデータ) (2024-07-27T19:00:44Z) - SGFormer: Spherical Geometry Transformer for 360 Depth Estimation [52.23806040289676]
パノラマ歪みは360度深度推定において大きな課題となる。
本稿では,SGFormer という球面形状変換器を提案し,上記の問題に対処する。
また、様々な解像度で空間構造を補うために、クエリベースの大域的条件位置埋め込みを提案する。
論文 参考訳(メタデータ) (2024-04-23T12:36:24Z) - 360 Layout Estimation via Orthogonal Planes Disentanglement and Multi-view Geometric Consistency Perception [56.84921040837699]
既存のパノラマ配置推定ソリューションは、垂直圧縮されたシーケンスから部屋の境界を復元し、不正確な結果をもたらす傾向にある。
そこで本稿では,直交平面不整合ネットワーク(DOPNet)を提案し,あいまいな意味論を識別する。
また,水平深度と比表現に適した教師なし適応手法を提案する。
本手法は,単分子配置推定と多視点レイアウト推定の両タスクにおいて,他のSoTAモデルよりも優れる。
論文 参考訳(メタデータ) (2023-12-26T12:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。