論文の概要: Embodied4C: Measuring What Matters for Embodied Vision-Language Navigation
- arxiv url: http://arxiv.org/abs/2512.18028v1
- Date: Fri, 19 Dec 2025 19:47:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.155946
- Title: Embodied4C: Measuring What Matters for Embodied Vision-Language Navigation
- Title(参考訳): Embodied4C:Embodied Vision-Language Navigationの意義を計測する
- Authors: Tin Stribor Sohn, Maximilian Dillitzer, Jason J. Corso, Eric Sax,
- Abstract要約: Embodied4C(エンボディード4C)は、チューリングテストとして設計されたクローズドループベンチマークである。
このベンチマークは、3つの異種エンボディメントにまたがる視覚言語モデルのコアエンボディド能力を評価する。
総合的な評価は、クロスモーダルアライメントとインストラクションチューニングがスケールよりも重要であることを示している。
- 参考スコア(独自算出の注目度): 11.93789125154006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language navigation requires agents to reason and act under constraints of embodiment. While vision-language models (VLMs) demonstrate strong generalization, current benchmarks provide limited understanding of how embodiment -- i.e., the choice of physical platform, sensor configuration, and modality alignment -- influences perception, reasoning, and control. We introduce Embodied4C, a closed-loop benchmark designed as a Turing test for embodied reasoning. The benchmark evaluates the core embodied capabilities of VLMs across three heterogeneous embodiments -- autonomous vehicles, aerial drones, and robotic manipulators -- through approximately 1.1K one-shot reasoning questions and 58 goal-directed navigation tasks. These tasks jointly assess four foundational dimensions: semantic, spatial, temporal, and physical reasoning. Each embodiment presents dynamic sensor configurations and environment variations to probe generalization beyond platform-specific adaptation. To prevent embodiment overfitting, Embodied4C integrates domain-far queries targeting abstract and cross-context reasoning. Comprehensive evaluation across ten state-of-the-art VLMs and four embodied control baselines shows that cross-modal alignment and instruction tuning matter more than scale, while spatial and temporal reasoning remains the primary bottleneck for reliable embodied competence.
- Abstract(参考訳): 視覚言語ナビゲーションでは、エージェントはエボディメントの制約の下で推論と行動を行う必要がある。
視覚言語モデル(VLM)は強力な一般化を示すが、現在のベンチマークでは、物理的なプラットフォーム、センサー構成、モダリティアライメントの選択が知覚、推論、制御にどのように影響するかを限定的に理解している。
具体的推論のためのチューリングテストとして設計されたクローズドループベンチマークであるEmbodied4Cを紹介する。
このベンチマークは、自動運転車、空中ドローン、ロボットマニピュレータの3つの異種エボディメントにまたがるVLMの中核的な実施能力を、約1.1Kのワンショット推論問題と58のゴール指向ナビゲーションタスクを通じて評価している。
これらのタスクは、意味、空間、時間、物理的推論の4つの基本的な次元を共同で評価する。
各実施形態は動的センサ構成と環境変動を示し、プラットフォーム固有の適応を超えて一般化を探索する。
Embodied4Cは、エボディメントオーバーフィッティングを防ぐために、抽象的およびクロスコンテキスト推論をターゲットとしたドメインファームクエリを統合する。
10の最先端のVLMと4つのエンボディドコントロールベースラインの総合的な評価は、クロスモーダルアライメントと命令チューニングがスケールよりも重要であることを示しているが、空間的および時間的推論は信頼性のあるエンボディドコンピテンスの主要なボトルネックである。
関連論文リスト
- CoT4AD: A Vision-Language-Action Model with Explicit Chain-of-Thought Reasoning for Autonomous Driving [10.836513600206118]
我々は、視覚言語モデル(VLM)における数値推論と因果推論の両方を強化するために、自律運転のためのチェーン・オブ・ソート(CoT)推論を提案する。
CoT4ADは視覚的な観察と言語命令を統合し、セマンティック推論、シーン理解、軌道計画を実行する。
nuScenesやBench2Driveなど、実世界のベンチマークとシミュレーションベンチマークの両方の実験は、CoT4ADがオープンループとクローズループの両方で最先端のパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2025-11-27T15:13:13Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Executable Analytic Concepts as the Missing Link Between VLM Insight and Precise Manipulation [70.8381970762877]
VLM(Vision-Language Models)は、セマンティック推論とタスク計画において顕著な能力を示す。
本稿では,VLMに基づく推論を実行可能な解析概念を通じて基礎づける新しいフレームワークであるGRACEを紹介する。
G GRACEは高レベル命令理解と低レベルロボット制御の統一的で解釈可能なインターフェースを提供する。
論文 参考訳(メタデータ) (2025-10-09T09:08:33Z) - VisualTrans: A Benchmark for Real-World Visual Transformation Reasoning [10.497961559068493]
ビジュアルトランスフォーメーション推論(VTR)は、知的エージェントが動的シーンを理解するための重要な認知能力である。
既存のベンチマークは、sim-to-realギャップ、タスクの複雑さの制限、不完全な推論カバレッジに悩まされている。
VisualTransは、現実世界の人間とオブジェクトのインタラクションシナリオにおいて、VTR用に特別に設計された最初の包括的なベンチマークである。
論文 参考訳(メタデータ) (2025-08-06T03:07:05Z) - ViewSpatial-Bench: Evaluating Multi-perspective Spatial Localization in Vision-Language Models [68.46716645478661]
視覚言語モデル (VLM) は視覚的内容の理解と推論において顕著な能力を示した。
現在のVLMは、主に自我中心の空間的推論(カメラの観点から)に優れるが、同中心の視点に一般化することができない。
マルチ視点空間位置認識評価に特化して設計された,初の総合的なベンチマークであるViewSpatial-Benchを紹介する。
論文 参考訳(メタデータ) (2025-05-27T17:59:26Z) - Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving [45.35559773691414]
$textbfVLADBenchは、トラフィック知識理解、一般要素認識、トラフィックグラフ生成、ターゲット属性、意思決定と計画の5つの主要なドメインにまたがる。
このベンチマークにおける一般およびドメイン固有(DS)VLMの徹底的な評価は、ADコンテキストにおけるその強みと臨界限界の両方を明らかにしている。
実験の結果,提案したベンチマークは,ADにおけるVLMのより包括的評価に向けた重要なステップであり,より認知的に洗練され,推論可能なADシステムの開発への道を開いた。
論文 参考訳(メタデータ) (2025-03-27T13:45:47Z) - NPHardEval4V: Dynamic Evaluation of Large Vision-Language Models with Effects of Vision [64.83085920775316]
NPHardEval4Vは4つの古典的NPハード問題に基づくマルチモーダルベンチマークスイートである。
各タスクは、構造化された視覚レイアウトとテキストプロンプトを組み合わせることで、視覚言語的制約の下で推論を行うLVLMの能力を評価するように設計されている。
以上の結果から,これらのモデルは知覚に基づく入力に対して合理的に優れているが,グローバルな最適化,抽象化,制約満足度に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2024-03-04T07:10:31Z) - Benchmarking Unsupervised Object Representations for Video Sequences [111.81492107649889]
ViMON, OP3, TBA, SCALORの4つのオブジェクト中心アプローチの知覚能力を比較した。
この結果から,制約のない潜在表現を持つアーキテクチャは,オブジェクト検出やセグメンテーション,トラッキングといった観点から,より強力な表現を学習できる可能性が示唆された。
我々のベンチマークは、より堅牢なオブジェクト中心のビデオ表現を学習するための実りあるガイダンスを提供するかもしれない。
論文 参考訳(メタデータ) (2020-06-12T09:37:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。