論文の概要: PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments
- arxiv url: http://arxiv.org/abs/2605.11534v1
- Date: Tue, 12 May 2026 04:59:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.593601
- Title: PRISM: : Planning and Reasoning with Intent in Simulated Embodied Environments
- Title(参考訳): PRISM: : 模擬身体環境におけるインテントの計画と推論
- Authors: Yunn Kang Lim, Pengzhan Sun, Ziyi Bai, Xun Xu, Angela Yao, Xulei Yang, Shijie Li,
- Abstract要約: 5つの集合住宅の上に建設され、PRISMは300の人間認証タスクを3つの能力レベルに構成する。
PRISMはエージェントに依存しない実行可能なアクションAPIを公開し、任意のエージェントをエンドツーエンドで評価できるようにする。
- 参考スコア(独自算出の注目度): 59.07829883257003
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When an LLM-based embodied agent fails at a household task, the culprit could be misidentified objects, forgotten sub-goals, or poor action sequencing -- yet existing benchmarks report only a single success rate, making it impossible to tell which cognitive module is responsible. We present PRISM, a diagnostic benchmark that reframes this problem: rather than asking only \textit{did the agent succeed?}, PRISM asks \textit{which capability is most likely responsible for failure?} Built on five photorealistic multi-room apartments (4--8 rooms each), PRISM structures 300 human-verified tasks into three capability tiers -- \textit{Basic Ability}, \textit{Reasoning Ability}, and \textit{Long-horizon Ability} -- that isolate perception-to-action grounding, implicit intent resolution, and sustained multi-step coordination respectively. PRISM exposes an agent-agnostic executable action API that allows arbitrary agents: LLM agents, VLM agents, symbolic planners, RL policies, and hybrid systems, to be evaluated end-to-end under the same benchmark protocol. To support deeper diagnosis, optional probes for perception, memory, and planning can be adopted, replaced, or bypassed entirely, enabling controlled component-level analysis when desired. Experiments on seven contemporary LLMs establish a clear hierarchy: explicit spatial grounding is not the dominant failure source under oracle perception, implicit intent resolution is a significant bottleneck for all model families, and long-horizon coordination exposes a stark capability cliff -- lightweight models collapse to as low as 20.0\% success while simultaneously consuming more tokens than their frontier counterparts, a signature of compensatory over-reasoning rather than genuine planning capability. Project page: \href{https://sj-li.com/PROJ/PRISM}{link}.
- Abstract(参考訳): LLMベースのエンボディエージェントが家庭のタスクで失敗した場合、犯人は誤って特定されたオブジェクト、忘れられたサブゴール、あるいはアクションシークエンシングが不足している可能性がある。
PRISMは、この問題を再設計する診断ベンチマークである。
PRISM は \textit{ which capabilities is likely responsible to failure?
フォトリアリスティックな5つの集合住宅(それぞれ4~8室)上に構築され、PRISM構造体300個の人間検証されたタスクを3つの能力レベル - \textit{Basic Ability}, \textit{Reasoning Ability}, \textit{Long-Horizon Ability} - に分割し、それぞれ認識から行動への接地、暗黙の意図解決、持続的な多段階調整を行う。
PRISMはエージェントに依存しない実行可能なアクションAPIを公開しており、任意のエージェント(LLMエージェント、VLMエージェント、シンボリックプランナー、RLポリシー、ハイブリッドシステム)を同じベンチマークプロトコルでエンドツーエンドに評価することができる。
より深い診断を支援するために、知覚、記憶、計画のためのオプションプローブを採用、置き換え、あるいは完全にバイパスすることができ、必要に応じて制御されたコンポーネントレベルの分析を可能にする。
7つの現代のLCMの実験は明確な階層を確立している: 明示的な空間的接地は、オラクルの知覚の下では主要な失敗源ではない 暗黙の意図の解決は、すべてのモデルファミリーにとって重要なボトルネックであり、長い水平方向の調整は、スターク能力の崖を露呈する -- 軽量モデルが20.0\%の成功まで崩壊すると同時に、フロンティアよりも多くのトークンを消費すると同時に、真の計画能力よりも補償過剰な推論のサインである。
プロジェクトページ: \href{https://sj-li.com/PROJ/PRISM}{link}。
関連論文リスト
- MAS-FIRE: Fault Injection and Reliability Evaluation for LLM-Based Multi-Agent Systems [38.44649280816596]
マルチエージェントシステムの障害注入と信頼性評価のための体系的フレームワークMAS-FIREを提案する。
エージェント内認知障害とエージェント間協調障害を対象とする15種類の障害分類を定義した。
MAS-FIREを3つの代表的なMASアーキテクチャに適用することにより、フォールトトレラントな動作の豊富なセットを明らかにする。
論文 参考訳(メタデータ) (2026-02-23T13:47:43Z) - FormalJudge: A Neuro-Symbolic Paradigm for Agentic Oversight [21.731032636844237]
本稿では,双方向のフォーマル・オブ・サートアーキテクチャを用いたニューロシンボリック・フレームワークを提案する。
行動安全,マルチドメイン制約順守,エージェントによる上向き偽装検出の3つのベンチマークにまたがって検証を行った。
論文 参考訳(メタデータ) (2026-02-11T18:48:11Z) - Topology Matters: Measuring Memory Leakage in Multi-Agent LLMs [26.288357188171265]
MAMA(Multi-Agent Memory Attack)は、ネットワーク構造がどのように漏洩を形作るかを測定するフレームワークである。
我々は,攻撃剤出力から回収した地絡PIIの割合として漏洩を定量化する。
結果は、アーキテクチャ上の選択から測定可能なプライバシリスクへの最初の体系的なマッピングを提供する。
論文 参考訳(メタデータ) (2025-12-04T11:00:49Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - DRIFT: Dynamic Rule-Based Defense with Injection Isolation for Securing LLM Agents [52.92354372596197]
大規模言語モデル(LLM)は、強力な推論と計画能力のため、エージェントシステムの中心となってきています。
この相互作用は、外部ソースからの悪意のある入力がエージェントの振る舞いを誤解させる可能性がある、インジェクション攻撃のリスクも引き起こす。
本稿では,信頼に値するエージェントシステムのための動的ルールベースの分離フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-13T05:01:09Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。