論文の概要: 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
- arxiv url: http://arxiv.org/abs/2507.23478v1
- Date: Thu, 31 Jul 2025 11:59:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.722453
- Title: 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding
- Title(参考訳): 3D-R1:統一シーン理解のための3次元VLMにおける推論の強化
- Authors: Ting Huang, Zeyu Zhang, Hao Tang,
- Abstract要約: 大規模視覚言語モデル(VLM)は2次元視覚理解タスクにおいて大きな進歩を遂げている。
本稿では,3次元VLMの推論能力を高める基礎モデルである3D-R1を提案する。
大規模な実験によると、3D-R1は様々な3Dシーンベンチマークで平均10%改善されている。
- 参考スコア(独自算出の注目度): 11.069512983766783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large vision-language models (VLMs) have made significant strides in 2D visual understanding tasks, sparking interest in extending these capabilities to 3D scene understanding. However, current 3D VLMs often struggle with robust reasoning and generalization due to limitations in high-quality spatial data and the static nature of viewpoint assumptions. To address these challenges, we propose 3D-R1, a foundation model that enhances the reasoning capabilities of 3D VLMs. Specifically, we first construct a high-quality synthetic dataset with CoT, named Scene-30K, leveraging existing 3D-VL datasets and a data engine based on Gemini 2.5 Pro. It serves as cold-start initialization data for 3D-R1. Moreover, we leverage RLHF policy such as GRPO in the reinforcement learning training process to enhance reasoning capabilities and introduce three reward functions: a perception reward, a semantic similarity reward and a format reward to maintain detection accuracy and answer semantic precision. Furthermore, we introduce a dynamic view selection strategy that adaptively chooses the most informative perspectives for 3D scene understanding. Extensive experiments demonstrate that 3D-R1 delivers an average improvement of 10% across various 3D scene benchmarks, highlighting its effectiveness in enhancing reasoning and generalization in 3D scene understanding. Code: https://github.com/AIGeeksGroup/3D-R1. Website: https://aigeeksgroup.github.io/3D-R1.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は2次元視覚理解タスクにおいて大きな進歩を遂げ、これらの能力を3次元シーン理解に拡張することへの関心を喚起した。
しかしながら、現在の3次元VLMは、高品質な空間データの制限や視点仮定の静的な性質により、頑健な推論と一般化に苦慮することが多い。
これらの課題に対処するために,3次元VLMの推論能力を高める基礎モデルである3D-R1を提案する。
具体的には、まず、既存の3D-VLデータセットとGemini 2.5 Proに基づくデータエンジンを活用して、CoT(Scene-30K)という高品質な合成データセットを構築した。
3D-R1のコールドスタート初期化データとして機能する。
さらに、強化学習訓練プロセスにおけるGRPOなどのRLHFポリシを活用し、推論能力を高め、認識報酬、意味的類似性報酬、形式報酬という3つの報酬関数を導入し、検出精度と応答意味精度を維持する。
さらに,3次元シーン理解における最も情報性の高い視点を適応的に選択する動的視点選択戦略を提案する。
大規模な実験により、3D-R1は様々な3Dシーンベンチマークで平均10%の改善を実現し、3Dシーン理解における推論と一般化の強化の有効性を強調した。
コード:https://github.com/AIGeeksGroup/3D-R1。
ウェブサイト:https://aigeeksgroup.github.io/3D-R1。
関連論文リスト
- Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - SeeGround: See and Ground for Zero-Shot Open-Vocabulary 3D Visual Grounding [10.81711535075112]
3Dビジュアルグラウンド(3D Visual Grounding)は、拡張現実(AR)やロボティクス(ロボティクス)などの応用に欠かせない、テキストによる記述に基づく3Dシーンのオブジェクトを見つけることを目的としている。
大規模2次元データに基づいて訓練された2次元視覚言語モデル(VLM)を活用したゼロショット3DVGフレームワークであるSeeeGroundを紹介する。
SeeGroundは3Dのシーンを3Dデータと2D-VLMの入力フォーマットのギャップを埋め、クエリ整列された画像と空間的にリッチなテキスト記述のハイブリッドとして表現している。
論文 参考訳(メタデータ) (2024-12-05T17:58:43Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。