論文の概要: Video Spatial Reasoning with Object-Centric 3D Rollout
- arxiv url: http://arxiv.org/abs/2511.13190v1
- Date: Mon, 17 Nov 2025 09:53:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:25.109597
- Title: Video Spatial Reasoning with Object-Centric 3D Rollout
- Title(参考訳): オブジェクト中心の3次元ロールアウトによるビデオ空間推論
- Authors: Haoran Tang, Meng Cao, Ruyang Liu, Xiaoxi Liang, Linglong Li, Ge Li, Xiaodan Liang,
- Abstract要約: 我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
- 参考スコア(独自算出の注目度): 58.12446467377404
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in Multi-modal Large Language Models (MLLMs) have showcased remarkable capabilities in vision-language understanding. However, enabling robust video spatial reasoning-the ability to comprehend object locations, orientations, and inter-object relationships in dynamic 3D scenes-remains a key unsolved challenge. Existing approaches primarily rely on spatially grounded supervised fine-tuning or reinforcement learning, yet we observe that such models often exhibit query-locked reasoning, focusing narrowly on objects explicitly mentioned in the prompt while ignoring critical contextual cues. To address this limitation, we propose Object-Centric 3D Rollout (OCR), a novel strategy that introduces structured perturbations to the 3D geometry of selected objects during training. By degrading object-specific visual cues and projecting the altered geometry into 2D space, OCR compels the model to reason holistically across the entire scene. We further design a rollout-based training pipeline that jointly leverages vanilla and region-noisy videos to optimize spatial reasoning trajectories. Experiments demonstrate state-of-the-art performance: our 3B-parameter model achieves 47.5% accuracy on VSI-Bench, outperforming several 7B baselines. Ablations confirm OCR's superiority over prior rollout strategies (e.g., T-GRPO, NoisyRollout).
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の最近の進歩は、視覚言語理解において顕著な能力を示した。
しかし, 動的3次元シーンにおける物体の位置, 向き, オブジェクト間の関係を理解できるようなロバストなビデオ空間推論の実現は, 未解決の重要な課題である。
既存のアプローチは、主に空間的に制御された微調整や強化学習に依存しているが、これらのモデルは、しばしばクエリロックされた推論を示し、重要な文脈的手がかりを無視しながら、プロンプトで明示的に言及されたオブジェクトに焦点を絞っている。
この制限に対処するために,選択した物体の3次元形状に構造的摂動を導入する新しい戦略であるObject-Centric 3D Rollout (OCR)を提案する。
オブジェクト固有の視覚的手がかりを分解し、修正された幾何学を2次元空間に投影することで、OCRはモデルを補足し、シーン全体にわたって論理的に論理的に解釈する。
さらに、バニラと地域ノイズを併用して空間的推論軌道を最適化するロールアウトベースのトレーニングパイプラインを設計する。
我々の3Bパラメータモデルは、VSI-Bench上で47.5%の精度を達成し、いくつかの7Bベースラインを上回っている。
事前のロールアウト戦略(例えば、T-GRPO、NoisyRollout)よりもOCRの方が優れていることが確認されている。
関連論文リスト
- Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。
アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。
モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文 参考訳(メタデータ) (2025-07-05T14:15:52Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z) - ObjVariantEnsemble: Advancing Point Cloud LLM Evaluation in Challenging Scenes with Subtly Distinguished Objects [1.5408065585641535]
3Dシーンの理解は重要な課題であり、近年、エンボディドAIを強化するために、ポイントクラウドの3D表現とテキストとの整合性に関する研究の関心が高まっている。
総合的な3Dベンチマークが欠如しているため、現実世界のシーン、特に微妙に区別されたオブジェクトに挑戦するシーンにおける3Dモデルの能力はいまだに十分に調査されていない。
論文 参考訳(メタデータ) (2024-12-19T13:27:58Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。