論文の概要: How Good are Foundation Models in Step-by-Step Embodied Reasoning?
- arxiv url: http://arxiv.org/abs/2509.15293v2
- Date: Mon, 22 Sep 2025 17:44:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.652744
- Title: How Good are Foundation Models in Step-by-Step Embodied Reasoning?
- Title(参考訳): ステップ・バイ・ステップ・エボダイド推論における基礎モデルはどの程度優れているか?
- Authors: Dinura Dissanayake, Ahmed Heakl, Omkar Thawakar, Noor Ahsan, Ritesh Thawkar, Ketan More, Jean Lahoud, Rao Anwer, Hisham Cholakkal, Ivan Laptev, Fahad Shahbaz Khan, Salman Khan,
- Abstract要約: 身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
- 参考スコア(独自算出の注目度): 79.15268080287505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Embodied agents operating in the physical world must make decisions that are not only effective but also safe, spatially coherent, and grounded in context. While recent advances in large multimodal models (LMMs) have shown promising capabilities in visual understanding and language generation, their ability to perform structured reasoning for real-world embodied tasks remains underexplored. In this work, we aim to understand how well foundation models can perform step-by-step reasoning in embodied environments. To this end, we propose the Foundation Model Embodied Reasoning (FoMER) benchmark, designed to evaluate the reasoning capabilities of LMMs in complex embodied decision-making scenarios. Our benchmark spans a diverse set of tasks that require agents to interpret multimodal observations, reason about physical constraints and safety, and generate valid next actions in natural language. We present (i) a large-scale, curated suite of embodied reasoning tasks, (ii) a novel evaluation framework that disentangles perceptual grounding from action reasoning, and (iii) empirical analysis of several leading LMMs under this setting. Our benchmark includes over 1.1k samples with detailed step-by-step reasoning across 10 tasks and 8 embodiments, covering three different robot types. Our results highlight both the potential and current limitations of LMMs in embodied reasoning, pointing towards key challenges and opportunities for future research in robot intelligence. Our data and code will be made publicly available.
- Abstract(参考訳): 物理的世界で活動する身体的エージェントは、効果的であるだけでなく、安全であり、空間的に一貫性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデル(LMM)の最近の進歩は、視覚的理解と言語生成において有望な能力を示しているが、実世界の具体的タスクに対する構造化推論を行う能力は、まだ未定である。
本研究では, 基礎モデルが具体的環境において, ステップバイステップの推論をいかにうまく行うかを理解することを目的とする。
そこで我々は,複雑な具体的意思決定シナリオにおけるLMMの推論能力を評価するために,FoMER(Foundation Model Embodied Reasoning)ベンチマークを提案する。
我々のベンチマークは、エージェントがマルチモーダルな観察を解釈し、物理的制約と安全性を推論し、自然言語で有効な次のアクションを生成することを要求する様々なタスクにまたがっている。
特集にあたって
(i)具体的推論作業の大規模でキュレートされたスイート。
二 行動推論から知覚的根拠を乱す新たな評価枠組み
三 この条件下でのいくつかの主要なLMMの実証分析
私たちのベンチマークには、10のタスクと8つのエボディメントにわたる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれており、3つの異なるロボットタイプをカバーしています。
本研究は,ロボット・インテリジェンスにおけるLMMの可能性と現状の限界を両立させ,今後の研究の鍵となる課題と機会を指摘するものである。
私たちのデータとコードは公開されます。
関連論文リスト
- The Hierarchy of Agentic Capabilities: Evaluating Frontier Models on Realistic RL Environments [0.11586753333439907]
本稿では、SurgeのリアルeコマースRL環境における150の職場タスクにおけるフロンティアAIモデルの評価実験について述べる。
我々の分析によると、実世界の展開にはモデルがマスターしなければならないエージェント機能の経験的に派生した階層構造が明らかになっている。
ウィーカーモデルは基本的なツールの使用と計画に苦しむが、強いモデルは明示的な指示以上の文脈推論を必要とするタスクで失敗する。
論文 参考訳(メタデータ) (2026-01-13T23:49:06Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - VIVA+: Human-Centered Situational Decision-Making [9.67738226553979]
本研究では,人間中心の状況下でのMLLMの推論と意思決定のベンチマークであるVIVA+を紹介する。
Vila+は1,317の現実世界の状況と6,373の複数の質問を組み合わせ、意思決定のコアとなる3つの能力をターゲットにしている。
最新の商用およびオープンソースモデルをVIVA+で評価し、異なるパフォーマンスパターンを明らかにし、重要な課題を浮き彫りにする。
論文 参考訳(メタデータ) (2025-09-28T07:13:11Z) - mSCoRe: a $M$ultilingual and Scalable Benchmark for $S$kill-based $Co$mmonsense $Re$asoning [74.97363626515236]
textbfSkill ベースの textbfCommonsense textbfReasoning (textbfmSCoRe) のための textbfMultilingual と Scalable Benchmark を提案する。
本ベンチマークでは,LLMの推論能力を体系的に評価するための3つの重要な要素を取り入れた。
本研究は,多言語多言語一般と文化的共通点に直面する場合,そのような推論強化モデルの限界を明らかにするものである。
論文 参考訳(メタデータ) (2025-08-13T18:59:02Z) - On the Eligibility of LLMs for Counterfactual Reasoning: A Decompositional Study [15.617243755155686]
対物推論は、大規模言語モデルの推論能力を一般化するための重要な手法として現れてきた。
本稿では, 因果関係の構築から, 逆因果関係の介入に対する推論まで, 逆因果関係の生成を分解する分解戦略を提案する。
論文 参考訳(メタデータ) (2025-05-17T04:59:32Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - MARS: Benchmarking the Metaphysical Reasoning Abilities of Language Models with a Multi-task Evaluation Dataset [50.36095192314595]
大きな言語モデル(LLM)は、一般化可能な推論能力を持つ意識的なエージェントとして機能する。
この能力は、イベントにおける無限の可能な変更をモデル化する複雑さのために、まだ探索されていない。
我々は,各ステップに対応する3つのタスクからなる最初のベンチマークMARSを紹介する。
論文 参考訳(メタデータ) (2024-06-04T08:35:04Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z) - Exploring Self-supervised Logic-enhanced Training for Large Language Models [59.227222647741094]
本稿では,自己指導型ポストトレーニングによる論理的知識の活用の可能性について検討する。
我々はMERItの自己回帰的目的変数を考案し、パラメータサイズが30億から13億の2つのLLM系列、すなわちFLAN-T5とLLaMAと統合する。
2つの挑戦的な論理的推論ベンチマークの結果は、LogicLLMの有効性を示している。
論文 参考訳(メタデータ) (2023-05-23T06:13:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。