論文の概要: The Hierarchy of Agentic Capabilities: Evaluating Frontier Models on Realistic RL Environments
- arxiv url: http://arxiv.org/abs/2601.09032v1
- Date: Tue, 13 Jan 2026 23:49:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.197593
- Title: The Hierarchy of Agentic Capabilities: Evaluating Frontier Models on Realistic RL Environments
- Title(参考訳): エージェント能力の階層性:リアリスティックRL環境におけるフロンティアモデルの評価
- Authors: Logan Ritchie, Sushant Mehta, Nick Heiner, Mason Yu, Edwin Chen,
- Abstract要約: 本稿では、SurgeのリアルeコマースRL環境における150の職場タスクにおけるフロンティアAIモデルの評価実験について述べる。
我々の分析によると、実世界の展開にはモデルがマスターしなければならないエージェント機能の経験的に派生した階層構造が明らかになっている。
ウィーカーモデルは基本的なツールの使用と計画に苦しむが、強いモデルは明示的な指示以上の文脈推論を必要とするタスクで失敗する。
- 参考スコア(独自算出の注目度): 0.11586753333439907
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The advancement of large language model (LLM) based agents has shifted AI evaluation from single-turn response assessment to multi-step task completion in interactive environments. We present an empirical study evaluating frontier AI models on 150 workplace tasks within a realistic e-commerce RL environment from Surge. Our analysis reveals an empirically-derived \emph{hierarchy of agentic capabilities} that models must master for real-world deployment: (1) tool use, (2) planning and goal formation, (3) adaptability, (4) groundedness, and (5) common-sense reasoning. Even the best-performing models fail approximately 40\% of the tasks, with failures clustering predictably along this hierarchy. Weaker models struggle with fundamental tool use and planning, whereas stronger models primarily fail on tasks requiring contextual inference beyond explicit instructions. We introduce a task-centric design methodology for RL environments that emphasizes diversity and domain expert contributions, provide detailed failure analysis, and discuss implications for agent development. Our findings suggest that while current frontier models can demonstrate coherent multi-step behavior, substantial capability gaps remain before achieving human-level task completion in realistic workplace settings.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づくエージェントの進歩により、対話型環境における一ターン応答評価から多ステップタスク完了へのAI評価がシフトした。
本稿では、SurgeのリアルeコマースRL環境における150の職場タスクにおけるフロンティアAIモデルの評価実験について述べる。
実世界の展開には,(1)ツールの使用,(2)計画と目標形成,(3)適応性,(4)接地性,(5)常識的推論といったモデルが必要である。
最高のパフォーマンスのモデルでさえ、タスクの約40倍の確率で失敗する。
ウィーカーモデルは基本的なツールの使用と計画に苦しむが、強いモデルは明示的な指示以上の文脈推論を必要とするタスクで失敗する。
本稿では,多様性とドメインエキスパートの貢献を重視したRL環境のためのタスク中心設計手法を提案する。
現状のフロンティアモデルでは, 協調的なマルチステップ動作を示すことができるが, 現実的な職場環境下での人間レベルのタスク完了までには, かなりの能力ギャップが残っていることが示唆された。
関連論文リスト
- What Do LLM Agents Know About Their World? Task2Quiz: A Paradigm for Studying Environment Understanding [50.35012849818872]
大規模言語モデル(LLM)エージェントは、複雑な意思決定やツール使用タスクにおいて顕著な能力を示した。
本研究では,タスク実行と世界状態理解の分離を目的とした決定論的かつ自動評価パラダイムであるTask-to-Quiz(T2Q)を提案する。
実験の結果,タスク成功は環境理解の指標として不十分な場合が多く,現在の記憶機構はエージェントが環境の基底モデルを取得するのに有効ではないことが明らかとなった。
論文 参考訳(メタデータ) (2026-01-14T14:09:11Z) - Large Language Model enabled Mathematical Modeling [2.132096006921049]
本研究では,Large Language Models (LLMs) の自然言語理解とコード生成による定式化ギャップを埋める可能性について検討する。
DeepSeek-R1は、強化学習で訓練された費用効率で高性能なモデルである。
本手法は,基礎的評価,幻覚分類の発達,緩和戦略の適用を含む。
論文 参考訳(メタデータ) (2025-10-22T17:41:42Z) - VAGEN: Reinforcing World Model Reasoning for Multi-Turn VLM Agents [130.70999337445468]
言語モデル(LLM)エージェントと比較して、視覚言語モデル(VLM)エージェントを訓練する際の重要な課題は、テキスト状態から複雑な視覚観察に移行することである。
VLMエージェントは、明示的な視覚状態推論によって内部世界モデルを構築することができるか?
我々は、強化学習(RL)を通して、エージェントの推論プロセスを建築的に実施し、報奨する。
エージェントの状態推定と遷移モデリングへの推論が成功に不可欠であることが分かりました。
論文 参考訳(メタデータ) (2025-10-19T16:05:07Z) - How Good are Foundation Models in Step-by-Step Embodied Reasoning? [79.15268080287505]
身体的エージェントは、安全で空間的に整合性があり、文脈に根ざした決定をしなければならない。
大規模マルチモーダルモデルの最近の進歩は、視覚的理解と言語生成において有望な能力を示している。
私たちのベンチマークには、10のタスクと8のエボディメントにまたがる詳細なステップバイステップ推論を備えた1.1k以上のサンプルが含まれています。
論文 参考訳(メタデータ) (2025-09-18T17:56:30Z) - AI in a vat: Fundamental limits of efficient world modelling for agent sandboxing and interpretability [84.52205243353761]
最近の研究は、世界モデルを使用して、AIエージェントをデプロイ前にテストできる制御された仮想環境を生成することを提案する。
評価対象のAIエージェントに非依存な世界モデルを簡単にする方法を検討する。
論文 参考訳(メタデータ) (2025-04-06T20:35:44Z) - Meta-Models: An Architecture for Decoding LLM Behaviors Through Interpreted Embeddings and Natural Language [0.0]
我々は「入力モデル」からアクティベーションを取り、入力モデルの振る舞いに関する自然言語質問に答える「メタモデル」を用いる。
選択したタスクタイプをトレーニングし,そのアウト・オブ・ディストリビューション性能を評価することによって,メタモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-10-03T13:25:15Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。