論文の概要: What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding
- arxiv url: http://arxiv.org/abs/2601.09503v1
- Date: Wed, 14 Jan 2026 14:09:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.423743
- Title: What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding
- Title(参考訳): LLMエージェントは自分の世界について何を知っているか : Task2Quiz:環境理解のパラダイム
- Authors: Siyuan Liu, Hongbang Yuan, Xinze Li, Ziyue Zhu, Yixin Cao, Yu-Gang Jiang,
- Abstract要約: 大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
- 参考スコア(独自算出の注目度): 50.35012849818872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language model (LLM) agents have demonstrated remarkable capabilities in complex decision-making and tool-use tasks, yet their ability to generalize across varying environments remains a under-examined concern. Current evaluation paradigms predominantly rely on trajectory-based metrics that measure task success, while failing to assess whether agents possess a grounded, transferable model of the environment. To address this gap, we propose Task-to-Quiz (T2Q), a deterministic and automated evaluation paradigm designed to decouple task execution from world-state understanding. We instantiate this paradigm in T2QBench, a suite comprising 30 environments and 1,967 grounded QA pairs across multiple difficulty levels. Our extensive experiments reveal that task success is often a poor proxy for environment understanding, and that current memory machanism can not effectively help agents acquire a grounded model of the environment. These findings identify proactive exploration and fine-grained state representation as primary bottlenecks, offering a robust foundation for developing more generalizable autonomous agents.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示してきたが、様々な環境にまたがって一般化する能力は、未検討の関心事である。
現在の評価パラダイムは、主にタスクの成功を計測する軌跡に基づくメトリクスに依存し、エージェントが環境の基底的で移動可能なモデルを持っているかどうかを評価できない。
このギャップに対処するために,タスク実行を世界的理解から切り離すために設計された決定論的かつ自動化された評価パラダイムであるTask-to-Quiz (T2Q)を提案する。
このパラダイムを、30の環境と1,967の接地されたQAペアからなるスイートであるT2QBenchでインスタンス化する。
我々の広範な実験により、タスク成功は環境理解の指標として不十分であることがしばしば明らかとなり、現在の記憶機構は、エージェントが環境の基底モデルを取得するのに効果的に役に立たないことが判明した。
これらの知見は、より一般化可能な自律エージェントを開発するための堅牢な基盤を提供する主要なボトルネックとして、積極的な探索ときめ細かい状態表現を特定できる。
関連論文リスト
- The Hierarchy of Agentic Capabilities: Evaluating Frontier Models on Realistic RL Environments [0.11586753333439907]
本稿では、SurgeのリアルeコマースRL環境における150の職場タスクにおけるフロンティアAIモデルの評価実験について述べる。
我々の分析によると、実世界の展開にはモデルがマスターしなければならないエージェント機能の経験的に派生した階層構造が明らかになっている。
ウィーカーモデルは基本的なツールの使用と計画に苦しむが、強いモデルは明示的な指示以上の文脈推論を必要とするタスクで失敗する。
論文 参考訳(メタデータ) (2026-01-13T23:49:06Z) - CuES: A Curiosity-driven and Environment-grounded Synthesis Framework for Agentic RL [35.086788669916594]
大規模言語モデルベースのエージェントは、複雑なツール拡張環境にますますデプロイされている。
既存のアプローチは通常、新しい環境で失敗する前提である事前定義されたタスクコレクションを仮定する。
そこで我々はCuESを提案する。CuESはキュリオシティ駆動環境基盤合成フレームワークで、多様で実行可能で有意義なタスクを自律的に生成する。
論文 参考訳(メタデータ) (2025-12-01T06:11:37Z) - Scaling Environments for LLM Agents in the Era of Learning from Interaction: A Survey [30.673419015614233]
エージェントは環境と直接対話し、強化学習を通じて経験から学ぶべきだという意見が高まりつつある。
本稿では,この反復処理をGEFループとして定式化し,環境がエージェントに挑戦するためのタスクを生成し,タスク実行中のエージェントの動作に応答して観察を返却し,その後の学習のためのロールアウトに対する評価フィードバックを提供する。
このパラダイムの下では、環境は経験的データの必須生産元として機能し、より複雑な、現実主義、対話性へのスケールの必要性を強調している。
論文 参考訳(メタデータ) (2025-11-12T12:56:25Z) - Grounded Test-Time Adaptation for LLM Agents [75.62784644919803]
大規模言語モデル(LLM)ベースのエージェントは、新規で複雑な環境への一般化に苦慮している。
環境特化情報を活用することで, LLMエージェントを適応するための2つの戦略を提案する。
論文 参考訳(メタデータ) (2025-11-06T22:24:35Z) - Agent Learning via Early Experience [93.83579011718858]
言語エージェントの長期的な目標は、彼ら自身の経験から学び、改善することであり、最終的には複雑な現実世界のタスクにおいて人間より優れています。
現在のエージェントのほとんどは、専門家データによる教師付き微調整に依存しており、スケールと一般化が不十分である。
本研究では,(1)環境力学における政策の基盤として収集された状態を利用するインプリシット・ワールド・モデリング,(2)エージェントが最適な行動から学習し,推論と意思決定を改善するための自己回帰という2つの手法について検討する。
論文 参考訳(メタデータ) (2025-10-09T17:59:17Z) - Towards General Agentic Intelligence via Environment Scaling [78.66355092082253]
高度なエージェントインテリジェンスは、現実世界のアプリケーションに大規模言語モデルをデプロイするための前提条件である。
完全にシミュレートされた異種環境を自動的に構築するスケーラブルなフレームワークを設計する。
エージェントベンチマーク, tau-bench, tau2-Bench, ACEBenchの実験により, トレーニングモデルである AgentScaler が, モデルの関数呼び出し能力を大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-09-16T17:57:20Z) - Meta Reinforcement Learning with Autonomous Inference of Subtask
Dependencies [57.27944046925876]
本稿では,タスクがサブタスクグラフによって特徴づけられるような,新しい数発のRL問題を提案し,対処する。
メタ政治を直接学習する代わりに、Subtask Graph Inferenceを使ったメタラーナーを開発した。
実験の結果,2つのグリッドワールド領域とStarCraft II環境において,提案手法が潜在タスクパラメータを正確に推定できることが確認された。
論文 参考訳(メタデータ) (2020-01-01T17:34:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。