論文の概要: Reasoning Matters for 3D Visual Grounding
- arxiv url: http://arxiv.org/abs/2601.08811v1
- Date: Tue, 13 Jan 2026 18:48:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.332649
- Title: Reasoning Matters for 3D Visual Grounding
- Title(参考訳): 3次元視覚接地における推論
- Authors: Hsiang-Wei Huang, Kuang-Ming Chen, Wenhao Chai, Cheng-Yen Yang, Jen-Hao Cheng, Jenq-Neng Hwang,
- Abstract要約: 本稿では,3次元視覚的グラウンドデータパイプラインを提案し,それに対応する推論プロセスとともに3次元視覚的グラウンドデータを自動的に合成する。
Reason3DVG-8Bは、従来の3D-GRAND法を1.6%のトレーニングデータで上回る、強力な3次元視覚接地LLMである。
- 参考スコア(独自算出の注目度): 39.725360883988515
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent development of Large Language Models (LLMs) with strong reasoning ability has driven research in various domains such as mathematics, coding, and scientific discovery. Meanwhile, 3D visual grounding, as a fundamental task in 3D understanding, still remains challenging due to the limited reasoning ability of recent 3D visual grounding models. Most of the current methods incorporate a text encoder and visual feature encoder to generate cross-modal fuse features and predict the referring object. These models often require supervised training on extensive 3D annotation data. On the other hand, recent research also focus on scaling synthetic data to train stronger 3D visual grounding LLM, however, the performance gain remains limited and non-proportional to the data collection cost. In this work, we propose a 3D visual grounding data pipeline, which is capable of automatically synthesizing 3D visual grounding data along with corresponding reasoning process. Additionally, we leverage the generated data for LLM fine-tuning and introduce Reason3DVG-8B, a strong 3D visual grounding LLM that outperforms previous LLM-based method 3D-GRAND using only 1.6% of their training data, demonstrating the effectiveness of our data and the importance of reasoning in 3D visual grounding.
- Abstract(参考訳): 近年,推論能力の強い大規模言語モデル (LLM) が開発され,数学,コーディング,科学的発見など様々な分野の研究が進められている。
一方、3D視覚的グラウンドティングは、最近の3D視覚的グラウンドリングモデルの限られた推論能力のため、基本的な3D理解の課題として依然として困難なままである。
現在の手法の多くは、テキストエンコーダと視覚的特徴エンコーダを組み込んで、モーダルなヒューズ機能を生成し、参照オブジェクトを予測する。
これらのモデルは、広範囲な3Dアノテーションデータに対する教師付きトレーニングを必要とすることが多い。
一方、最近の研究では、より強力な3次元視覚的接地LLMを訓練するための合成データのスケーリングにも焦点が当てられている。
本研究では、3次元の視覚的グラウンドデータパイプラインを提案し、それに対応する推論プロセスとともに3次元の視覚的グラウンドデータを自動的に合成する。
さらに,LLMの微調整のために生成されたデータを活用し,従来のLCMベースの3D-GRAND法を1.6%のトレーニングデータで上回る3次元視覚接地LLMであるReason3DVG-8Bを導入し,我々のデータの有効性と3次元視覚接地における推論の重要性を実証した。
関連論文リスト
- N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models [45.008146973701855]
N3D-VLMは、ネイティブな3Dオブジェクト認識と3D認識の視覚的推論をシームレスに統合する新しい統合フレームワークである。
RGB/RGB-D入力からの回答を直接予測する従来のエンドツーエンドモデルとは異なり、本手法はネイティブな3Dオブジェクト認識機能を備えたモデルである。
論文 参考訳(メタデータ) (2025-12-18T14:03:44Z) - Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - 3D-MoE: A Mixture-of-Experts Multi-modal LLM for 3D Vision and Pose Diffusion via Rectified Flow [69.94527569577295]
3次元の視覚と空間的推論は、長い間、我々の3次元の世界を正確に知覚するのに好ましいと認識されてきた。
高品質な3Dデータ収集の難しさから,近年,この領域の研究が勢いを増している。
我々は,既存の高密度活性化LDMをマルチモーダルデータ処理に有効であることが証明されたMix-of-experts(MoE)モデルに変換することを提案する。
論文 参考訳(メタデータ) (2025-01-28T04:31:19Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - Cross3DVG: Cross-Dataset 3D Visual Grounding on Different RGB-D Scans [6.936271803454143]
3Dシーンにおけるクロスデータセット視覚的グラウンド化のための新しいタスク(Cross3DVG)を提案する。
大規模な3DビジュアルグラウンドデータセットであるROOReferを作成しました。
3RScanの1,380の屋内RGB-Dスキャンで、63万以上の3Dオブジェクトが記述されている。
論文 参考訳(メタデータ) (2023-05-23T09:52:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。