論文の概要: EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence
- arxiv url: http://arxiv.org/abs/2512.15160v1
- Date: Wed, 17 Dec 2025 07:51:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:26.891931
- Title: EagleVision: A Dual-Stage Framework with BEV-grounding-based Chain-of-Thought for Spatial Intelligence
- Title(参考訳): EagleVision:空間知のためのBEVグラウンドベースのチェーン・オブ・ソートを備えたデュアルステージフレームワーク
- Authors: Jiaxu Wan, Xu Wang, Mengwei Xie, Hang Zhang, Mu Xu, Yang Han, Hong Zhang, Ding Yuan, Yifan Yang,
- Abstract要約: 空間知能アプローチは通常、2D推論パイプラインやブラックボックス再構成モジュールを備えたMLLMに3Dキューを付加する。
本稿では,マクロ認識とマイクロ検証による進行的空間認知のためのフレームワークであるEagleVisionを提案する。
- 参考スコア(独自算出の注目度): 10.889641815961133
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent spatial intelligence approaches typically attach 3D cues to 2D reasoning pipelines or couple MLLMs with black-box reconstruction modules, leading to weak spatial consistency, limited viewpoint diversity, and evidence chains that cannot be traced back to supporting views. Frameworks for "thinking with images" (e.g., ChatGPT-o3 and DeepEyes) show that stepwise multimodal reasoning can emerge by interleaving hypothesis formation with active acquisition of visual evidence, but they do not address three key challenges in spatial Chain-of-Thought (CoT): building global space perception under strict token budgets, explicitly associating 3D hypotheses with video frames for verification, and designing spatially grounded rewards for reinforcement learning. To address these issues, we present EagleVision, a dual-stage framework for progressive spatial cognition through macro perception and micro verification. In the macro perception stage, EagleVision employs a semantics-perspective-fusion determinantal point process (SPF-DPP) to select a compact set of geometry- and semantics-aware keyframes from long videos under a fixed token budget. In the micro verification stage, we formalize spatial CoT as BEV-grounded pose querying: the agent iteratively predicts poses on a BEV plane, retrieves the nearest real frames, and is trained purely by reinforcement learning with a spatial grounding reward that scores the consistency between predicted poses and observed views. On VSI-Bench, EagleVision achieves state-of-the-art performance among open-source vision-language models, demonstrating strong and generalizable spatial understanding.
- Abstract(参考訳): 最近の空間インテリジェンスアプローチでは、一般的に2次元推論パイプラインやブラックボックス再構成モジュールを備えたMLLMに3Dキューを付加し、空間的一貫性の弱さ、視点の多様性の制限、そして支持された視点まで遡れないエビデンスチェーンを導出する。
画像で考える」フレームワーク(例えばChatGPT-o3やDeepEyes)は、仮説形成と視覚的証拠の活発な獲得によって段階的にマルチモーダル推論が生まれることを示しているが、空間的連鎖(CoT)における3つの重要な課題に対処していない。
これらの問題に対処するため,マクロ認識とマイクロ検証による進行的空間認識のための2段階フレームワークであるEagleVisionを提案する。
マクロ認識の段階では、EagleVisionは、固定トークン予算の下で長いビデオから幾何学的および意味論的キーフレームのコンパクトなセットを選択するために、セマンティックス・パースペクティブ・フュージョン・デフィナンタル・ポイント・プロセス(SPF-DPP)を採用している。
エージェントは、BEV平面上のポーズを反復的に予測し、最も近い実フレームを検索し、予測されたポーズと観測されたビューの整合性を評価する空間接地報酬を用いた強化学習により純粋に訓練する。
VSI-Benchでは、EagleVisionはオープンソースのビジョン言語モデルの間で最先端のパフォーマンスを達成し、強力で一般化可能な空間的理解を示す。
関連論文リスト
- CVP: Central-Peripheral Vision-Inspired Multimodal Model for Spatial Reasoning [48.36177110428022]
空間的推論のための中央周辺視覚誘発フレームワーク(CVP)を提案する。
CVPは、中心視と周辺視という2種類の人間の視野からインスピレーションを得ている。
実験の結果,CVPは様々な3Dシーン理解ベンチマークで最先端のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2025-12-09T00:21:13Z) - Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - Abstract 3D Perception for Spatial Intelligence in Vision-Language Models [100.13033631690114]
視覚言語モデル(VLM)は、空間認識や物理的理解といった3D関連課題に苦しむ。
我々は,VLMの幾何学的構造と物理力学を符号化するために,抽象的境界ボックスを利用するフレームワークであるSandboxVLMを紹介した。
提案手法は空間知能を常に向上させ,SAT Realの8.3%のゲインをベースライン法と比較して達成する。
論文 参考訳(メタデータ) (2025-11-14T04:16:09Z) - See&Trek: Training-Free Spatial Prompting for Multimodal Large Language Model [33.18304419115947]
SEE&TREKは、視覚のみの制約下でのマルチモーダル大言語モデル(MLLM)の空間的理解を強化する最初のトレーニングフリープロンプトフレームワークである。
視覚的多様性の向上と運動再建に注力する。
本手法はトレーニング・GPUフリーであり,1回のフォワードパスしか必要とせず,既存のMLLMSにシームレスに統合できる。
論文 参考訳(メタデータ) (2025-09-19T15:30:26Z) - Spatial-MLLM: Boosting MLLM Capabilities in Visual-based Spatial Intelligence [13.168559963356952]
純粋に2次元の観察から空間的推論を行う新しいフレームワークであるSpatial-MLLMを提案する。
我々の重要な洞察は、フィードフォワード視覚幾何学基礎モデルに先立って、強い構造を解き放つことである。
コネクタは、両方の機能を統合された視覚トークンに統合し、空間的理解を強化する。
論文 参考訳(メタデータ) (2025-05-29T17:59:04Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - VLM-3R: Vision-Language Models Augmented with Instruction-Aligned 3D Reconstruction [86.82819259860186]
本稿では,視覚言語モデル(VLM)のための統合フレームワークであるVLM-3Rについて紹介する。
VLM-3Rは、空間的理解を表す暗黙の3Dトークンを導出する幾何学エンコーダを用いて、モノクロビデオフレームを処理する。
論文 参考訳(メタデータ) (2025-05-26T17:56:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。