論文の概要: Extending Embodied Question Answering from Perception to Decision
- arxiv url: http://arxiv.org/abs/2605.25813v1
- Date: Mon, 25 May 2026 13:08:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.125441
- Title: Extending Embodied Question Answering from Perception to Decision
- Title(参考訳): 知覚から判断へ向けた身体的質問の延長
- Authors: Xicheng Gong, Qiwei Li, Peiran Xu, Yadong Mu,
- Abstract要約: EQA(Embodied Question Answering)は、エンボディ環境における知覚、推論、相互作用を結びつける。
EQA-決定(EQA-Decision)は,4つの相補的推論を体系的に網羅した大規模エンボディドQAデータセットである。
- 参考スコア(独自算出の注目度): 43.564086466241186
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Question Answering (EQA) connects perception, reasoning, and interaction within embodied environments. However, existing datasets and benchmarks remain fragmented, each focusing on a limited subset of reasoning skills such as spatial understanding or procedural reasoning, without offering a unified large-scale framework for comprehensive evaluation. We present EQA-Decision, a large-scale embodied QA dataset that systematically covers four complementary dimensions of embodied reasoning: static scene construction, spatial understanding, task dynamics reasoning, and instant decision. The dataset contains over four million question-answer pairs with hierarchical annotations across diverse embodied scenarios. In addition, we develop RoboDecision, a strong baseline model aligned with the EQA-Decision Benchmark, providing a unified framework that jointly evaluates perception, reasoning, and action-level decision-making in embodied environments. Results demonstrate that EQA-Decision effectively benchmarks and enhances VLM capabilities in spatial and interaction reasoning, providing a solid foundation for advancing embodied intelligence research.
- Abstract(参考訳): EQA(Embodied Question Answering)は、エンボディ環境における知覚、推論、相互作用を結びつける。
しかし、既存のデータセットとベンチマークは断片化され続けており、それぞれが包括的な評価のための大規模なフレームワークを提供することなく、空間的理解や手続き的推論のような推論スキルの限られたサブセットに焦点を当てている。
EQA-Decisionは,静的なシーン構築,空間的理解,タスクダイナミクス推論,即時決定の4つの相補的推論を体系的に網羅した大規模実施型QAデータセットである。
このデータセットには、さまざまな実施シナリオにまたがる階層的なアノテーションを備えた400万以上の質問応答ペアが含まれている。
さらに,EQA-Decision Benchmarkと整合した強力なベースラインモデルであるRoboDecisionを開発し,実施環境における知覚,推論,行動レベルの意思決定を共同で評価する統合フレームワークを提供する。
その結果、EQA-Decisionは、空間的および相互作用的推論におけるVLM能力を効果的にベンチマークし、強化し、エンボディドインテリジェンス研究を進めるための確かな基盤を提供することを示した。
関連論文リスト
- Event-Centric World Modeling with Memory-Augmented Retrieval for Embodied Decision-Making [0.0]
具体的意思決定のためのメモリ拡張検索を用いたイベント中心の世界モデリングフレームワークを提案する。
このフレームワークは、環境を構造化されたセマンティックイベントの集合として表現し、置換不変の潜在表現にエンコードされる。
意思決定は、各エントリがイベント表現と対応する操作を関連付けるような、事前経験の知識バンクを検索して行われる。
論文 参考訳(メタデータ) (2026-04-08T06:14:46Z) - SCORE: Specificity, Context Utilization, Robustness, and Relevance for Reference-Free LLM Evaluation [6.760582976667912]
大規模言語モデル (LLMs) は、ハイテイクなドメイン固有の設定において、質問応答と意思決定をサポートするために、ますます使われている。
本研究では,LLM出力を4つの相補次元に沿って評価する多次元参照フリー評価フレームワークを提案する。
我々は、40の専門職と7つの自然危険タイプにまたがる1,412のドメイン固有の質問応答ペアをキュレートしたデータセットを紹介した。
論文 参考訳(メタデータ) (2026-02-10T17:39:17Z) - Advancing Adaptive Multi-Stage Video Anomaly Reasoning: A Benchmark Dataset and Method [96.63801368613177]
本稿では,記述的理解から構造化多段階推論への映像異常解析を向上するタスクを提案する。
我々は8,641本のビデオからなる新しいデータセットを提示し、合計5万本以上のサンプルを作成し、ビデオ異常理解のための最大のデータセットの1つである。
提案したタスクとデータセットに基づいて,適応的階層的推論とリスク認識意思決定をサポートする,Vad-R1-Plusと呼ばれるエンドツーエンドのMLLMベースのVARモデルを開発する。
論文 参考訳(メタデータ) (2026-01-15T08:09:04Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Retrieval Augmented Decision-Making: A Requirements-Driven, Multi-Criteria Framework for Structured Decision Support [8.585671505840637]
本稿では,LLMのセマンティック理解機能とマルチクリトリア意思決定を統合したRAD手法を提案する。
本手法は,産業文書から重要な基準を自動的に抽出し,重み付けされた階層的決定モデルを構築し,モデルガイダンスに基づいて構造化されたレポートを生成する。
様々な意思決定タスクにおいて、RADによって生成された決定報告は、詳細、合理性、構造の観点から、既存の手法よりも著しく優れていた。
論文 参考訳(メタデータ) (2025-05-24T03:13:29Z) - MTR-Bench: A Comprehensive Benchmark for Multi-Turn Reasoning Evaluation [56.87891213797931]
大規模言語モデルに対するMTR-Benchの評価について述べる。
4つのクラス、40のタスク、3600のインスタンスを含むMTR-Benchは、様々な推論機能をカバーする。
MTR-Benchは、データセットの構築とモデル評価の両方にまたがる、完全に自動化されたフレームワークを備えている。
論文 参考訳(メタデータ) (2025-05-21T17:59:12Z) - "There Is No Such Thing as a Dumb Question," But There Are Good Ones [4.962252439662465]
本研究は,優れた質問を定義し,体系的な評価枠組みを提案する。
本稿では,適切性(文脈における社会言語的能力)と有効性という2つの重要な評価次元を提案する。
動的文脈変数を組み込むことにより、評価フレームワークは半適応的基準によって構造と柔軟性を達成する。
論文 参考訳(メタデータ) (2025-05-15T03:12:28Z) - Fine-Grained Evaluation of Large Vision-Language Models in Autonomous Driving [45.35559773691414]
$textbfVLADBenchは、トラフィック知識理解、一般要素認識、トラフィックグラフ生成、ターゲット属性、意思決定と計画の5つの主要なドメインにまたがる。
このベンチマークにおける一般およびドメイン固有(DS)VLMの徹底的な評価は、ADコンテキストにおけるその強みと臨界限界の両方を明らかにしている。
実験の結果,提案したベンチマークは,ADにおけるVLMのより包括的評価に向けた重要なステップであり,より認知的に洗練され,推論可能なADシステムの開発への道を開いた。
論文 参考訳(メタデータ) (2025-03-27T13:45:47Z) - Decision Making in Changing Environments: Robustness, Query-Based Learning, and Differential Privacy [59.64384863882473]
本研究では,環境が時間とともに変化する対話的意思決定の課題について考察する。
意思決定の複雑さと敵意的な設定の複雑さを提供するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-24T21:31:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。