論文の概要: Reg3D: Reconstructive Geometry Instruction Tuning for 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2509.03635v1
- Date: Wed, 03 Sep 2025 18:36:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:09.94214
- Title: Reg3D: Reconstructive Geometry Instruction Tuning for 3D Scene Understanding
- Title(参考訳): Reg3D: 3Dシーン理解のための再構成幾何命令チューニング
- Authors: Hongpei Zheng, Lintao Xiang, Qijun Yang, Qian Lin, Hujun Yin,
- Abstract要約: Reg3DはReconstructive Geometry Instruction Tuningフレームワークである。
私たちの重要な洞察は、効果的な3D理解には、単に記述するのではなく、基礎となる幾何学的構造を再構築する必要があります。
ScanQA、Scan2Cap、ScanRefer、SQA3Dの実験は、Reg3Dが大幅なパフォーマンス改善を提供することを示した。
- 参考スコア(独自算出の注目度): 6.7958985137291235
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid development of Large Multimodal Models (LMMs) has led to remarkable progress in 2D visual understanding; however, extending these capabilities to 3D scene understanding remains a significant challenge. Existing approaches predominantly rely on text-only supervision, which fails to provide the geometric constraints required for learning robust 3D spatial representations. In this paper, we introduce Reg3D, a novel Reconstructive Geometry Instruction Tuning framework that addresses this limitation by incorporating geometry-aware supervision directly into the training process. Our key insight is that effective 3D understanding necessitates reconstructing underlying geometric structures rather than merely describing them. Unlike existing methods that inject 3D information solely at the input level, Reg3D adopts a dual-supervision paradigm that leverages 3D geometric information both as input and as explicit learning targets. Specifically, we design complementary object-level and frame-level reconstruction tasks within a dual-encoder architecture, enforcing geometric consistency to encourage the development of spatial reasoning capabilities. Extensive experiments on ScanQA, Scan2Cap, ScanRefer, and SQA3D demonstrate that Reg3D delivers substantial performance improvements, establishing a new training paradigm for spatially aware multimodal models.
- Abstract(参考訳): LMM(Large Multimodal Models)の急速な開発は、2次元視覚理解の著しい進歩をもたらしたが、これらの能力を3次元シーン理解に拡張することは依然として大きな課題である。
既存のアプローチは主にテキストのみの監視に依存しており、ロバストな3次元空間表現の学習に必要な幾何学的制約は提供できない。
本稿では,この制限に対処する新しい再構成幾何指導チューニングフレームワークであるReg3Dを紹介する。
我々の重要な洞察は、効果的な3D理解は、単にそれらを記述するのではなく、基礎となる幾何学的構造を再構築する必要があることである。
入力レベルのみに3D情報を注入する既存の方法とは異なり、Reg3Dは入力と明示的な学習ターゲットの両方として3Dの幾何学的情報を活用するデュアルスーパービジョンパラダイムを採用している。
具体的には、二重エンコーダアーキテクチャにおいて、空間的推論能力の発達を促進するために幾何学的整合性を持たせるために、補完的なオブジェクトレベルおよびフレームレベルの再構成タスクを設計する。
ScanQA、Scan2Cap、ScanRefer、SQA3Dの大規模な実験では、Reg3Dが大幅なパフォーマンス向上を実現し、空間的に認識されたマルチモーダルモデルのための新たなトレーニングパラダイムを確立している。
関連論文リスト
- Doctoral Thesis: Geometric Deep Learning For Camera Pose Prediction, Registration, Depth Estimation, and 3D Reconstruction [1.8782750537161614]
この論文は、3Dビジョンの基本的な課題に対する解決策を提供する。
カメラポーズ推定,点雲登録,深度予測,3次元再構成などの重要なタスクに適した幾何学的深層学習手法を開発する。
デジタル文化遺産保存や没入型VR/AR環境など、現実世界のアプリケーションで有効性を示すものだ。
論文 参考訳(メタデータ) (2025-09-02T01:35:44Z) - UniUGG: Unified 3D Understanding and Generation via Geometric-Semantic Encoding [57.86758122195093]
3Dモダリティのための最初の統一的理解・生成フレームワークUniUGGを紹介する。
本フレームワークでは,LLMを用いて文や3次元表現の理解とデコードを行う。
遅延拡散モデルを利用して高品質な3次元表現を生成する空間デコーダを提案する。
論文 参考訳(メタデータ) (2025-08-16T07:27:31Z) - SeqAffordSplat: Scene-level Sequential Affordance Reasoning on 3D Gaussian Splatting [85.87902260102652]
本稿では, 連続3次元ガウシアン・アフラマンス推論の課題について紹介する。
次に,SeqSplatNetを提案する。SqSplatNetは,命令を直接3Dアベイランスマスクのシーケンスにマッピングするエンドツーエンドフレームワークである。
本手法は,1段階のインタラクションから,シーンレベルでの複雑なシーケンシャルなタスクへの可利用性推論を効果的に向上させる。
論文 参考訳(メタデータ) (2025-07-31T17:56:55Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - Geometry-guided Feature Learning and Fusion for Indoor Scene Reconstruction [14.225228781008209]
本稿では3次元シーン再構成のための新しい幾何学的統合機構を提案する。
提案手法は,特徴学習,特徴融合,ネットワーク監視という3段階の3次元幾何学を取り入れている。
論文 参考訳(メタデータ) (2024-08-28T08:02:47Z) - GEOcc: Geometrically Enhanced 3D Occupancy Network with Implicit-Explicit Depth Fusion and Contextual Self-Supervision [49.839374549646884]
本稿では,視覚のみのサラウンドビュー知覚に適したジオメトリ強化OccupancyネットワークであるGEOccについて述べる。
提案手法は,Occ3D-nuScenesデータセット上で,画像解像度が最小で,画像バックボーンが最大である状態-Of-The-Art性能を実現する。
論文 参考訳(メタデータ) (2024-05-17T07:31:20Z) - CVRecon: Rethinking 3D Geometric Feature Learning For Neural
Reconstruction [12.53249207602695]
本稿では,エンドツーエンドの3Dニューラル再構成フレームワークCVReconを提案する。
コストボリュームにリッチな幾何学的埋め込みを利用して、3次元の幾何学的特徴学習を容易にする。
論文 参考訳(メタデータ) (2023-04-28T05:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。