論文の概要: MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry
- arxiv url: http://arxiv.org/abs/2603.02351v1
- Date: Mon, 02 Mar 2026 19:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.526446
- Title: MERG3R: A Divide-and-Conquer Approach to Large-Scale Neural Visual Geometry
- Title(参考訳): MERG3R:大規模ニューラル・ヴィジュアル・ジオメトリーにおける分枝・コンカレントアプローチ
- Authors: Leo Kaixuan Cheng, Abdus Shaikh, Ruofan Liang, Zhijie Wu, Yushi Guan, Nandita Vijaykumar,
- Abstract要約: MERG3Rは、幾何学的基礎モデルのためのトレーニング不要な分母・分母フレームワークである。
MERG3Rは、無秩序な画像を、独立して再構成できる重なり合った幾何学的に多様なサブセットに分割する。
その後、効率的な大域的アライメントと信頼重み付きバンドル調整手順を通じて、得られた局所的な再構成をマージする。
7シーン、NRGBD、Tarms & Temples、Cambridge Landmarksを含む大規模なデータセット全体にわたって、MERG3Rは、再構築精度、メモリ効率、スケーラビリティを一貫して改善している。
- 参考スコア(独自算出の注目度): 6.060187129166582
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent advancements in neural visual geometry, including transformer-based models such as VGGT and Pi3, have achieved impressive accuracy on 3D reconstruction tasks. However, their reliance on full attention makes them fundamentally limited by GPU memory capacity, preventing them from scaling to large, unordered image collections. We introduce MERG3R, a training-free divide-and-conquer framework that enables geometric foundation models to operate far beyond their native memory limits. MERG3R first reorders and partitions unordered images into overlapping, geometrically diverse subsets that can be reconstructed independently. It then merges the resulting local reconstructions through an efficient global alignment and confidence-weighted bundle adjustment procedure, producing a globally consistent 3D model. Our framework is model-agnostic and can be paired with existing neural geometry models. Across large-scale datasets, including 7-Scenes, NRGBD, Tanks & Temples, and Cambridge Landmarks, MERG3R consistently improves reconstruction accuracy, memory efficiency, and scalability, enabling high-quality reconstruction when the dataset exceeds memory capacity limits.
- Abstract(参考訳): VGGTやPi3のようなトランスフォーマーベースのモデルを含む、最近の神経視覚幾何学の進歩は、3D再構成タスクにおいて顕著な精度を実現している。
しかしながら、フルアテンションに依存しているため、GPUメモリ容量によって基本的に制限されるため、大規模な未順序イメージコレクションへのスケーリングが不可能になる。
本稿では,MERG3Rについて紹介する。MERG3Rは,幾何学的基礎モデルがネイティブメモリ限界をはるかに越えて動作できるようにする,トレーニングフリーな分割・クエリフレームワークである。
MERG3Rは、順序のない画像を、独立して再構成できる重なり合った幾何学的に多様なサブセットに置き換え、分割する。
そして、効率的なグローバルアライメントと信頼度重み付きバンドル調整手順を通じて、得られた局所再構成をマージし、大域的に一貫した3Dモデルを生成する。
我々のフレームワークはモデルに依存しず、既存のニューラルジオメトリモデルと組み合わせることができる。
7つのシーン、NRGBD、Tarms & Temples、Cambridge Landmarksを含む大規模なデータセット全体にわたって、MERG3Rは、復元精度、メモリ効率、スケーラビリティを一貫して改善し、データセットがメモリ容量限界を超えた場合の高品質な再構築を可能にする。
関連論文リスト
- LoGeR: Long-Context Geometric Reconstruction with Hybrid Memory [97.14005794889134]
提案するLoGeRは,高密度な3次元再構成を,後最適化なしで極めて長いシーケンスに拡張する新しいアーキテクチャである。
LoGeRはビデオストリームをチャンクで処理し、高忠実度なチャンク内推論に強力な双方向の事前処理を活用する。
このメモリアーキテクチャにより、LoGeRは128フレームのシーケンスでトレーニングでき、推論中に数千フレームまで一般化できる。
論文 参考訳(メタデータ) (2026-03-03T18:55:37Z) - MGP-KAD: Multimodal Geometric Priors and Kolmogorov-Arnold Decoder for Single-View 3D Reconstruction in Complex Scenes [0.3823356975862005]
複雑な現実世界のシーンにおける単一ビューの3D再構成は、ノイズ、オブジェクトの多様性、データセットの可用性の制限によって困難である。
再構成精度を高めるためにRGBと幾何を統合した新しいマルチモーダル機能融合フレームワーク MGP-KAD を提案する。
論文 参考訳(メタデータ) (2026-02-05T19:54:30Z) - S-MUSt3R: Sliding Multi-view 3D Reconstruction [17.018626984951823]
本研究はS-MUSt3Rを提案する。S-MUSt3Rは単分子3次元再構成のための基礎モデルの限界を拡張するシンプルで効率的なパイプラインである。
我々は,S-MUSt3Rが長いRGBシーケンス上で正常に動作し,高精度で一貫した3D再構成を実現することを示す。
論文 参考訳(メタデータ) (2026-02-04T13:07:14Z) - SaLon3R: Structure-aware Long-term Generalizable 3D Reconstruction from Unposed Images [31.94503176488054]
SaLon3Rは構造対応の長期3DGS再構成のための新しいフレームワークである。
10 FPS以上で50以上のビューを再構築でき、50%から90%の冗長性除去が可能である。
提案手法は, 1回のフィードフォワードパスにおいて, アーティファクトを効果的に解決し, 冗長な3DGSを創出する。
論文 参考訳(メタデータ) (2025-10-16T18:37:10Z) - DiMeR: Disentangled Mesh Reconstruction Model [29.827345186012558]
DiMeRは、疎視メッシュ再構成のための3次元監視を備えた、幾何学的・テクスチュアなアンタングルフィードフォワードモデルである。
性能/コストの低いモジュールを排除し,正規化損失を再設計し,メッシュ抽出のアルゴリズムを効率化する。
大規模な実験により、DiMeRはスパースビュー、シングルイメージ、テキストから3Dタスクにまたがって一般化し、ベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-24T15:39:20Z) - MUSt3R: Multi-view Network for Stereo 3D Reconstruction [11.61182864709518]
本稿では,DUSt3Rのペアから複数のビューへの拡張を提案する。
計算複雑性を低減できる多層メモリ機構でモデルを拡張します。
このフレームワークは、オフラインとオンラインの両方で3D再構成を実行するように設計されているため、SfMとビジュアルSLAMシナリオにシームレスに適用できる。
論文 参考訳(メタデータ) (2025-03-03T15:36:07Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - GRM: Large Gaussian Reconstruction Model for Efficient 3D Reconstruction and Generation [85.15374487533643]
約0.1秒でスパースビュー画像から3Dアセットを復元できる大規模再構成機であるGRMを紹介する。
GRMは、マルチビュー情報を効率的に組み込んだフィードフォワードトランスフォーマーベースのモデルである。
また,既存の多視点拡散モデルと統合することにより,テキスト・ツー・3Dや画像・ツー・3Dといった生成タスクにおけるGRMの可能性を示す。
論文 参考訳(メタデータ) (2024-03-21T17:59:34Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and Scalability [118.26563926533517]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。