論文の概要: Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?
- arxiv url: http://arxiv.org/abs/2606.01247v1
- Date: Sun, 31 May 2026 14:00:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.473045
- Title: Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?
- Title(参考訳): ファウンデーションモデルは、アクティブな探索を通して目標視点を達成できるのか?
- Authors: Liyang Li, Muzhi Zhu, Zhiyue Zhao, Hengyu Zhao, Ke Liu, Linhao Zhong, Hao Chen, Chunhua Shen,
- Abstract要約: 本稿では,TVR(Target Viewpoint Reproduction)について紹介する。これは,エージェントが所定のターゲット画像に一致するまで,エージェントが3次元環境下で視点を調整する,アクティブなタスクである。
評価分割では、最強のオープンソースおよびクローズドソースモデルはわずか7.8%と12.0%の成功しか達成していない。
我々は、専門家軌道SFT、合理的教師付きCoT-SFT、オフラインシングルターンGRPO、オンラインマルチターンGRPOをカバーする統合TVRポストトレーニングフレームワークを構築した。
- 参考スコア(独自算出の注目度): 44.119113981225404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can reproduce the viewpoint specified by a target image through active head and body motion, yet spatial intelligence in foundation models has largely been studied as passive understanding of pre-collected observations. We introduce Target Viewpoint Reproduction (TVR) -- an active task where an agent adjusts its viewpoint in a 3D environment until its observation matches a given target image -- and TVRBench, an indoor-simulation benchmark spanning scene scale and target-view visual richness. TVR is far from solved: on the evaluation split, the strongest open-source and closed-source models reach only 7.8% and 12.0% success. Fine-grained analysis identifies two consistent bottlenecks: off-the-shelf models struggle with multi-turn visual history, and performance drops sharply when viewpoint reproduction requires body translation rather than in-place rotation, exposing a gap in mapping spatial discrepancies to embodied movement. To study reducing this gap, we build a unified TVR post-training framework covering expert-trajectory SFT, rationale-supervised CoT-SFT, offline Single-turn GRPO, and on-policy Multi-turn GRPO from live simulator rollouts. Visual-action SFT supplies the main gain, raising a 9B open-source model to 50.8% success; Multi-turn GRPO provides targeted multi-room refinement and reaches 51.4% overall, while CoT supervision and Single-turn GRPO degrade closed-loop performance. These results establish TVRBench as a testbed for measuring and training foundation models that actively perceive and act in 3D environments. Our code, data, and models are available at https://github.com/aim-uofa/TVRBench.
- Abstract(参考訳): 人間は、アクティブな頭部と身体の動きを通して、対象画像によって指定された視点を再現することができるが、基礎モデルにおける空間的知能は、事前に収集された観察の受動的理解として研究されている。
本稿では,ターゲット視点再現(TVR, Target Viewpoint Reproduction)について紹介する。これは,エージェントが所定のターゲット画像と一致するまで3次元環境下で視点を調整する,アクティブなタスクである。
評価分割では、最強のオープンソースおよびクローズドソースモデルはわずか7.8%と12.0%の成功しか達成していない。
細粒度分析では、オフザシェルフモデルがマルチターン視覚履歴に苦しむことと、視点再現がその場での回転よりも身体翻訳を必要とする場合のパフォーマンスが急激に低下し、空間的不一致のギャップが具体化される、という2つの一貫したボトルネックが明らかになった。
このギャップを減らすために、我々は、専門家軌道SFT、合理的教師付きCoT-SFT、オフラインシングルターンGRPO、およびライブシミュレータロールアウトからのオンラインマルチターンGRPOをカバーする統合TVRポストトレーニングフレームワークを構築した。
マルチターンGRPOはターゲットのマルチルームの改良を提供し、全体的な51.4%に達し、CoT監督とシングルターンGRPOはクローズドループ性能を低下させた。
これらの結果から,TVRBenchは3次元環境において積極的に知覚・作用する基礎モデルの測定・訓練の場として確立された。
私たちのコード、データ、モデルはhttps://github.com/aim-uofa/TVRBench.comで公開されています。
関連論文リスト
- ROVER: Routing Object-Centric Visual Evidence for Grounded Multi-Image Reasoning [8.61070160184202]
ROVERは、効率的なグローバルな視覚的エビデンスルーティングのための学習可能なプラグインである。
本手法は,MM-GCoT と VideoEspresso で最高の性能を実現する。
論文 参考訳(メタデータ) (2026-05-27T04:52:42Z) - 3D Segmentation Using Viewpoint-Dependent Spatial Relationships [55.198821645924234]
220kのベンチマークサンプルを含む視点対応3Dセグメンテーションデータセットを提案する。
このデータセットでは、対象オブジェクトはオブザーバー中心の空間関係によってのみ識別できる。
カメラのポーズをエンコードする視点表現を導入し、そのモデルに観察視点を条件づける。
論文 参考訳(メタデータ) (2026-05-15T07:58:44Z) - BOP-ASK: Object-Interaction Reasoning for Vision-Language Models [34.62272296627845]
視覚言語モデル (VLM) は空間推論ベンチマークにおいて顕著な性能を達成した。
現在のベンチマークでは、高レベルな関係をテストするが、現実世界のアプリケーションに必要な詳細な空間的理解は無視されている。
BOP-ASKは、トレーニングとベンチマークの両方のためのオブジェクトインタラクション推論のための、新しい大規模データセットである。
論文 参考訳(メタデータ) (2025-11-20T23:54:15Z) - Video Spatial Reasoning with Object-Centric 3D Rollout [58.12446467377404]
我々は,ロバストなビデオ空間推論を実現するために,OCR(Object-Centric 3D Rollout)を提案する。
OCRは、トレーニング中に選択した物体の3次元形状に構造的摂動を導入する。
OCRはモデルを補完し、全体にわたって論理的にソートする。
論文 参考訳(メタデータ) (2025-11-17T09:53:41Z) - VOGUE: Guiding Exploration with Visual Uncertainty Improves Multimodal Reasoning [62.09195763860549]
検証可能な報酬(RLVR)による強化学習は、大きな言語モデル(LLM)の推論を改善するが、探索に苦労する。
出力(テキスト)から入力(視覚)空間へ探索をシフトする新しい手法である$textbfVOGUE(Visual Uncertainty Guided Exploration)を紹介した。
本研究は,視覚入力の本質的不確実性における基盤探索が,マルチモーダル推論を改善するための効果的な戦略であることを示す。
論文 参考訳(メタデータ) (2025-10-01T20:32:08Z) - SAM3D: Zero-Shot 3D Object Detection via Segment Anything Model [59.04877271899894]
本稿では,SAMのゼロショット能力を3次元物体検出に適用することを検討する。
大規模オープンデータセット上でオブジェクトを検出し,有望な結果を得るために,SAMを用いたBEV処理パイプラインを提案する。
論文 参考訳(メタデータ) (2023-06-04T03:09:21Z) - SA-Det3D: Self-Attention Based Context-Aware 3D Object Detection [9.924083358178239]
本稿では,3次元物体検出におけるコンテキストモデリングのための2種類の自己注意法を提案する。
まず,現状のbev,voxel,ポイントベース検出器にペアワイズ自着機構を組み込む。
次に,ランダムにサンプリングされた位置の変形を学習することにより,最も代表的な特徴のサブセットをサンプリングするセルフアテンション変種を提案する。
論文 参考訳(メタデータ) (2021-01-07T18:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。