論文の概要: Scene-R1: Video-Grounded Large Language Models for 3D Scene Reasoning without 3D Annotations
- arxiv url: http://arxiv.org/abs/2506.17545v1
- Date: Sat, 21 Jun 2025 02:29:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.467793
- Title: Scene-R1: Video-Grounded Large Language Models for 3D Scene Reasoning without 3D Annotations
- Title(参考訳): Scene-R1:3次元アノテーションのない3次元シーン推論のためのビデオグラウンド大言語モデル
- Authors: Zhihao Yuan, Shuyi Jiang, Chun-Mei Feng, Yaolun Zhang, Shuguang Cui, Zhen Li, Na Zhao,
- Abstract要約: ビデオグラウンドのフレームワークであるScene-R1は、ポイントワイドな3Dインスタンスの監視なしに、3Dシーンについて推論することを学ぶ。
Scene-R1は3D視覚的質問応答タスクに適応して、ビデオから直接自由形式の質問に答えることもできる。
- 参考スコア(独自算出の注目度): 37.209795186399326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, utilizing large language models to understand the 3D world is becoming popular. Yet existing 3D-aware LLMs act as black boxes: they output bounding boxes or textual answers without revealing how those decisions are made, and they still rely on pre-trained 3D detectors to supply object proposals. We introduce Scene-R1, a video-grounded framework that learns to reason about 3D scenes without any point-wise 3D instance supervision by pairing reinforcement-learning-driven reasoning with a two-stage grounding pipeline. In the temporal grounding stage, we explicitly reason about the video and select the video snippets most relevant to an open-ended query. In the subsequent image grounding stage, we analyze the image and predict the 2D bounding box. After that, we track the object using SAM2 to produce pixel-accurate masks in RGB frames, and project them back into 3D, thereby eliminating the need for 3D detector-based proposals while capturing fine geometry and material cues. Scene-R1 can also adapt to the 3D visual question answering task to answer free-form questions directly from video. Our training pipeline only needs task-level 2D boxes or textual labels without dense 3D point-wise labels. Scene-R1 surpasses existing open-vocabulary baselines on multiple datasets, while delivering transparent, step-by-step rationales. These results show that reinforcement-learning-based reasoning combined with RGB-D video alone offers a practical, annotation-efficient route to trustworthy 3D scene understanding.
- Abstract(参考訳): 現在,3次元世界を理解するために大規模な言語モデルが普及している。
しかし、既存の3D対応のLCMはブラックボックスとして機能し、それらの決定の仕方を明らかにすることなく、境界ボックスやテキストの回答を出力し、オブジェクトの提案を事前に訓練された3D検出器に頼っている。
Scene-R1は、強化学習駆動推論と2段階のグラウンドパイプラインを組み合わせることで、ポイントワイズな3Dインスタンス管理なしに3Dシーンを推論することを学ぶビデオグラウンドフレームワークである。
時間的グラウンド化の段階では、ビデオについて明示的に推論し、オープンエンドクエリに最も関係のあるビデオスニペットを選択する。
その後の画像グラウンドでは、画像を分析し、2D境界ボックスを予測する。
その後、SAM2を用いてRGBフレーム内の画素精度の高いマスクを生成し、それらを3Dに投影することで、3D検出器ベースの提案を不要にし、精密な幾何学と物質的手がかりをキャプチャする。
Scene-R1は3D視覚的質問応答タスクに適応して、ビデオから直接自由形式の質問に答えることもできる。
私たちのトレーニングパイプラインは、高密度な3Dポイントワイドラベルなしで、タスクレベルの2Dボックスやテキストラベルしか必要としません。
Scene-R1は、複数のデータセット上の既存のオープン語彙ベースラインを超え、透過的でステップバイステップの合理性を提供します。
これらの結果から,RGB-Dビデオと併用した強化学習に基づく推論は,信頼に値する3Dシーン理解への実践的かつアノテーション効率の高い経路を提供することが示された。
関連論文リスト
- Does Your 3D Encoder Really Work? When Pretrain-SFT from 2D VLMs Meets 3D VLMs [72.11701578308804]
本稿では,最近の3次元視覚言語モデルを3次元オブジェクト中心,2次元イメージベース,および3次元シーン中心のアプローチに分類する。
3Dシーン中心のVLMと2Dシーン中心のVLMのアーキテクチャ的類似性にもかかわらず、最新の3Dオブジェクト中心と2Dイメージベースアプローチと比較して比較的低い性能を示した。
本研究は,これらのモデルが多モードアライメント機能を有する一方で,言語的手がかりに過度に頼り,頻繁な回答に過度に適合する傾向があることを示唆している。
論文 参考訳(メタデータ) (2025-06-05T17:56:12Z) - Rethinking Open-Vocabulary Segmentation of Radiance Fields in 3D Space [10.49905491984899]
問題を再定義し、3次元のボリュームを分割し、以下の方法を提案する。
従来の2Dピクセルの監督を代行する手法とは異なり、言語埋め込みフィールドをトレーニングするための3Dポイントを直接監督する。
学習した言語フィールドを3DGSに転送し、トレーニング時間や精度を犠牲にすることなく、最初のリアルタイムレンダリング速度を達成する。
論文 参考訳(メタデータ) (2024-08-14T09:50:02Z) - SceneGPT: A Language Model for 3D Scene Understanding [0.9054540533394926]
SceneGPTは,3次元の空間的推論をトレーニングや明示的な3次元の監督なしに行うことができるLLMベースのシーン理解システムである。
本フレームワークの主な構成要素は,1)シーン表現として機能し,シーン内のオブジェクトとその空間関係を符号化する3次元シーングラフ,2)3次元空間推論のための文脈学習に適応可能な事前学習LLMである。
論文 参考訳(メタデータ) (2024-08-13T14:26:30Z) - General Geometry-aware Weakly Supervised 3D Object Detection [62.26729317523975]
RGB画像と関連する2Dボックスから3Dオブジェクト検出器を学習するための統合フレームワークを開発した。
KITTIとSUN-RGBDデータセットの実験により,本手法は驚くほど高品質な3次元境界ボックスを2次元アノテーションで生成することを示した。
論文 参考訳(メタデータ) (2024-07-18T17:52:08Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - Learning 3D Scene Priors with 2D Supervision [37.79852635415233]
本研究では,3次元の地平を必要とせず,レイアウトや形状の3次元シーンを学習するための新しい手法を提案する。
提案手法は, 3次元シーンを潜在ベクトルとして表現し, クラスカテゴリを特徴とするオブジェクト列に段階的に復号化することができる。
3D-FRONT と ScanNet による実験により,本手法は単一視点再構成における技術状況よりも優れていた。
論文 参考訳(メタデータ) (2022-11-25T15:03:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。