論文の概要: 3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding
- arxiv url: http://arxiv.org/abs/2603.04976v1
- Date: Thu, 05 Mar 2026 09:15:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.160293
- Title: 3D-RFT: Reinforcement Fine-Tuning for Video-based 3D Scene Understanding
- Title(参考訳): 3D-RFT:映像に基づく3Dシーン理解のための強化ファインチューニング
- Authors: Xiongkun Linghu, Jiangyong Huang, Baoxiong Jia, Siyuan Huang,
- Abstract要約: 映像に基づく3次元シーン理解のための強化ファインチューニング(3D-RFT)について
3D-RFTは、RLVRをビデオベースの3D知覚と推論に拡張する最初のフレームワークである。
3D-RFT-4Bは,様々な映像に基づく3Dシーン理解タスクにおいて,最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 21.70953326671503
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement Learning with Verifiable Rewards ( RLVR ) has emerged as a transformative paradigm for enhancing the reasoning capabilities of Large Language Models ( LLMs), yet its potential in 3D scene understanding remains under-explored. Existing approaches largely rely on Supervised Fine-Tuning ( SFT), where the token-level cross-entropy loss acts as an indirect proxy for optimization, leading to a misalignment between training objectives and task performances. To bridge this gap, we present Reinforcement Fine-Tuning for Video-based 3D Scene Understanding (3D-RFT ), the first framework to extend RLVR to video-based 3D perception and reasoning. 3D-RFT shifts the paradigm by directly optimizing the model towards evaluation metrics. 3D-RFT first activates 3D-aware Multi-modal Large Language Models ( MLLM s) via SFT, followed by reinforcement fine-tuning using Group Relative Policy Optimization ( GRPO) with strictly verifiable reward functions. We design task-specific reward functions directly from metrics like 3D IoU and F1-Score to provide more effective signals to guide model training. Extensive experiments demonstrate that 3D-RFT-4B achieves state-of-the-art performance on various video-based 3D scene understanding tasks. Notably, 3D-RFT-4B significantly outperforms larger models (e.g., VG LLM-8B) on 3D video detection, 3D visual grounding, and spatial reasoning benchmarks. We further reveal good properties of 3D-RFT such as robust efficacy, and valuable insights into training strategies and data impact. We hope 3D-RFT can serve as a robust and promising paradigm for future development of 3D scene understanding.
- Abstract(参考訳): RLVR(Reinforcement Learning with Verifiable Rewards)は、LLM(Large Language Models)の推論能力を高めるための変換パラダイムとして登場したが、その3Dシーン理解の可能性はまだ解明されていない。
既存のアプローチは、トークンレベルのクロスエントロピー損失が最適化の間接的プロキシとして機能するSupervised Fine-Tuning (SFT) に大きく依存しており、トレーニング目標とタスクパフォーマンスの相違につながっている。
このギャップを埋めるために、RLVRをビデオベースの3D知覚と推論に拡張する最初のフレームワークである3D-RFT(Reinforcement Fine-Tuning for Video-based 3D Scene Understanding)を提案する。
3D-RFTはモデルを直接評価指標に最適化することでパラダイムをシフトする。
3D-RFT はまず SFT を介して 3D 対応マルチモーダル言語モデル (MLLM s) を起動し,さらに厳密に検証可能な報酬関数を持つ Group Relative Policy Optimization (GRPO) を用いた強化微調整を行う。
我々は、3D IoUやF1-Scoreといったメトリクスから直接タスク固有の報酬関数を設計し、モデルトレーニングをガイドするためのより効果的な信号を提供する。
3D-RFT-4Bは、様々な映像に基づく3Dシーン理解タスクにおいて、最先端のパフォーマンスを達成することを実証した。
特に、3D-RFT-4Bは、3Dビデオ検出、3Dビジュアルグラウンド、空間推論ベンチマークにおいて、より大きなモデル(例えば、VG LLM-8B)を著しく上回っている。
さらに、ロバスト有効性などの3D-RFTの優れた性質と、トレーニング戦略やデータ影響に関する貴重な洞察を明らかにする。
3D-RFTが将来の3Dシーン理解のための堅牢で有望なパラダイムとして機能することを願っている。
関連論文リスト
- Reasoning Matters for 3D Visual Grounding [39.725360883988515]
本稿では,3次元視覚的グラウンドデータパイプラインを提案し,それに対応する推論プロセスとともに3次元視覚的グラウンドデータを自動的に合成する。
Reason3DVG-8Bは、従来の3D-GRAND法を1.6%のトレーニングデータで上回る、強力な3次元視覚接地LLMである。
論文 参考訳(メタデータ) (2026-01-13T18:48:41Z) - D3D-VLP: Dynamic 3D Vision-Language-Planning Model for Embodied Grounding and Navigation [66.7166217399105]
エージェントは、エンドツーエンドモデルには解釈可能性や明示的な3D推論が欠けているという、重要なジレンマに直面します。
1) 計画,グラウンド,ナビゲーション,質問応答を単一の3D-VLMパイプラインとCoTパイプラインで統一する動的3Dチェーン(3D CoT) ; 2) フラグメンテッド・スーパービジョン(SLFS)戦略からのシナジスティック学習 マスク付き自己回帰損失を用いて,大規模かつ部分的に注釈付けされたハイブリッドデータから学習する。
論文 参考訳(メタデータ) (2025-12-14T09:53:15Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Vid-LLM: A Compact Video-based 3D Multimodal LLM with Reconstruction-Reasoning Synergy [4.1703677379815565]
外部の3Dデータを必要としないビデオ入力を直接処理するビデオベースの3D-MLLMであるVid-LLMを提案する。
本手法では, 偏見の知覚性能を向上させるために, 幾何先行法を直接的に用いた。
各種ベンチマーク実験により,3次元質問応答,3次元キャプション,3次元視覚的接地作業において,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2025-09-29T07:34:18Z) - 3D-R1: Enhancing Reasoning in 3D VLMs for Unified Scene Understanding [11.069512983766783]
大規模視覚言語モデル(VLM)は2次元視覚理解タスクにおいて大きな進歩を遂げている。
本稿では,3次元VLMの推論能力を高める基礎モデルである3D-R1を提案する。
大規模な実験によると、3D-R1は様々な3Dシーンベンチマークで平均10%改善されている。
論文 参考訳(メタデータ) (2025-07-31T11:59:06Z) - TriCLIP-3D: A Unified Parameter-Efficient Framework for Tri-Modal 3D Visual Grounding based on CLIP [52.79100775328595]
3Dビジュアルグラウンドティングは、人間の指示に基づいて現実世界の3D環境における視覚情報を理解するための具体的エージェントである。
既存の3Dビジュアルグラウンド法は、異なるモダリティの異なるエンコーダに依存している。
本稿では,3つのモードすべてを処理するために,統合された2次元事前学習型マルチモーダルネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-20T10:28:06Z) - MLLMs Need 3D-Aware Representation Supervision for Scene Understanding [14.083262551714133]
3DRSは、事前訓練された3D基礎モデルから監督を導入することでMLLM 3D表現学習を強化するフレームワークである。
本手法は3次元モデルから抽出したリッチな3次元知識とMLLMの視覚的特徴を一致させ,シーン理解を効果的に改善する。
論文 参考訳(メタデータ) (2025-06-02T17:58:24Z) - LLMI3D: MLLM-based 3D Perception from a Single 2D Image [77.13869413871028]
マルチモーダルな大言語モデル(MLLM)は、一般的な能力では優れているが、3Dタスクでは性能が劣る。
本稿では,3次元局所空間物体認識の弱さ,テキストに基づく幾何学的数値出力の低さ,カメラ焦点変動の処理能力の低下に対する解決策を提案する。
我々は,事前学習したMLLMに対してパラメータ効率の良い微調整を採用し,強力な3次元知覚MLLMであるLLMI3Dを開発した。
論文 参考訳(メタデータ) (2024-08-14T10:00:16Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。