論文の概要: CoV: Chain-of-View Prompting for Spatial Reasoning
- arxiv url: http://arxiv.org/abs/2601.05172v1
- Date: Thu, 08 Jan 2026 17:59:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.320632
- Title: CoV: Chain-of-View Prompting for Spatial Reasoning
- Title(参考訳): CoV:空間推論のためのチェイン・オブ・ビュー・プロンプティング
- Authors: Haoyu Zhao, Akide Liu, Zeyu Zhang, Weijie Wang, Feng Chen, Ruihan Zhu, Gholamreza Haffari, Bohan Zhuang,
- Abstract要約: CoV(Chain-of-View)は、視覚言語モデルをアクティブな視点推論子に変換する。
我々はOpenEQA上でのCoVの評価を行い、Qwen3-VL-Flashで最大13.62%向上したLLM-Matchで平均+11.56%改善した。
CoVはテストタイムのスケーリングも行っており、最小アクション予算を増やすことで、Gemini-2.5-Flashで最大で+3.73%となる2.51%の平均的な改善がもたらされる。
- 参考スコア(独自算出の注目度): 64.77921266428824
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied question answering (EQA) in 3D environments often requires collecting context that is distributed across multiple viewpoints and partially occluded. However, most recent vision--language models (VLMs) are constrained to a fixed and finite set of input views, which limits their ability to acquire question-relevant context at inference time and hinders complex spatial reasoning. We propose Chain-of-View (CoV) prompting, a training-free, test-time reasoning framework that transforms a VLM into an active viewpoint reasoner through a coarse-to-fine exploration process. CoV first employs a View Selection agent to filter redundant frames and identify question-aligned anchor views. It then performs fine-grained view adjustment by interleaving iterative reasoning with discrete camera actions, obtaining new observations from the underlying 3D scene representation until sufficient context is gathered or a step budget is reached. We evaluate CoV on OpenEQA across four mainstream VLMs and obtain an average +11.56\% improvement in LLM-Match, with a maximum gain of +13.62\% on Qwen3-VL-Flash. CoV further exhibits test-time scaling: increasing the minimum action budget yields an additional +2.51\% average improvement, peaking at +3.73\% on Gemini-2.5-Flash. On ScanQA and SQA3D, CoV delivers strong performance (e.g., 116 CIDEr / 31.9 EM@1 on ScanQA and 51.1 EM@1 on SQA3D). Overall, these results suggest that question-aligned view selection coupled with open-view search is an effective, model-agnostic strategy for improving spatial reasoning in 3D EQA without additional training.
- Abstract(参考訳): 3D環境における身体的質問応答(EQA)は、複数の視点に分散し、部分的に無視されるコンテキストの収集を必要とすることが多い。
しかし、近年の視覚言語モデル(VLM)は、入力ビューの一定かつ有限なセットに制約されており、推論時に質問関連コンテキストを取得する能力が制限され、複雑な空間的推論を妨げている。
本稿では,VLMをアクティブな視点推論に変換する学習不要なテスト時間推論フレームワークであるChain-of-View(CoV)プロンプトを提案する。
CoVはまずView Selectionエージェントを使用して冗長フレームをフィルタリングし、質問整列型アンカービューを識別する。
そして、個別のカメラ動作と反復的推論を交わし、十分なコンテキストが収集されるか、ステップ予算に達するまで、基礎となる3Dシーン表現から新たな観察を得ることにより、きめ細かなビュー調整を行う。
我々は,4つの主流VLM上でのOpenEQA上のCoVを評価し,Qwen3-VL-Flash上での最大利得+13.62\%のLLM-Matchの平均+11.56\%の改善を得た。
CoVはさらに、テストタイムのスケーリングを示す: 最小アクション予算の増加は、Gemini-2.5-Flashで+3.73\%に、平均的な改善を+2.51\%増加させる。
ScanQAとSQA3Dでは、CoVは強力なパフォーマンスを提供する(例えば、ScanQAでは116 CIDEr / 31.9 EM@1、SQA3Dでは51.1 EM@1)。
以上の結果から,オープンビュー検索と組み合わせた問合せ型視点選択は,3次元EQAにおける空間的推論を改善するための効果的なモデルに依存しない戦略であることが示唆された。
関連論文リスト
- CoFFT: Chain of Foresight-Focus Thought for Visual Language Models [61.34272727005052]
フォレスト・フォーカス思考の連鎖(英語: Chain of Foresight-Focus Thought, CoFFT)は、人間の視覚的認知をエミュレートすることによって視覚的推論を強化する訓練のないアプローチである。
これらの段階は反復的に機能し、推論が視覚的焦点を導き、視覚的焦点がその後の推論を知らせる相互依存サイクルを生成する。
Qwen2.5-VL、InternVL-2.5、Llava-Nextを使った複数のベンチマークでの実証結果では、3.1-5.8%が一貫したパフォーマンス向上を示し、計算オーバーヘッドは増大した。
論文 参考訳(メタデータ) (2025-09-26T07:46:30Z) - FOCUS: Internal MLLM Representations for Efficient Fine-Grained Visual Question Answering [8.826505135681705]
我々は、最も関連性の高い画像領域の探索をガイドする、FOCUSと呼ばれる訓練不要な視覚的収穫法を提案する。
FOCUSは4つの細粒度VQAデータセットと3種類のMLLMに対して高いパフォーマンスを実現している。
精度と効率の両面で人気の高い3つのビジュアルトリミング法を上回り、最高のパフォーマンスのベースラインであるZoomEyeに匹敵する。
論文 参考訳(メタデータ) (2025-06-26T18:51:04Z) - Out of Sight, Not Out of Context? Egocentric Spatial Reasoning in VLMs Across Disjoint Frames [17.975173937253494]
エゴセントリックなビデオを操作するAIアシスタントは、時間をかけて空間的な手がかりを統合する必要がある。
Disjoint-3DQAは、VLMのこの能力を評価するためのQAベンチマークである。
論文 参考訳(メタデータ) (2025-05-30T06:32:26Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。