論文の概要: Agentick: A Unified Benchmark for General Sequential Decision-Making Agents
- arxiv url: http://arxiv.org/abs/2605.06869v2
- Date: Tue, 12 May 2026 18:33:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-14 17:13:58.783644
- Title: Agentick: A Unified Benchmark for General Sequential Decision-Making Agents
- Title(参考訳): Agentick: 汎用シークエンシャル意思決定エージェントのための統一ベンチマーク
- Authors: Roger Creus Castanyer, Pablo Samuel Castro, Glen Berseth,
- Abstract要約: Agentickはシーケンシャルな意思決定エージェントのベンチマークである。
プロシージャで生成されたタスクは6つの機能カテゴリ、難易度レベル4、観察モード5で37になる。
27のコンフィグレーションと90,000以上のエピソードにまたがる評価では、単一のアプローチが支配的でないことが示されている。
- 参考スコア(独自算出の注目度): 30.028388632526745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agent research spans a wide spectrum: from RL agents that learn from scratch to foundation model agents that leverage pre-trained knowledge, yet no unified benchmark enables fair comparison across these approaches. We present Agentick, a benchmark for sequential decision-making agents designed to evaluate RL, LLM, VLM, hybrid, and human agents on common ground and to power research on the fundamental challenges of sequential decision-making. Agentick provides 37 procedurally generated tasks across six capability categories, four difficulty levels, and five observation modalities, all exposed through a single Gymnasium-compatible interface. The benchmark ships with a Coding API, oracle reference policies for all tasks, pre-built SFT datasets, a composable agent harness, and a live leaderboard. An evaluation spanning 27 configurations and over 90,000 episodes reveals that no single approach dominates: GPT-5 mini leads overall at 0.309 oracle-normalized score while PPO dominates planning and multi-agent tasks; the reasoning harness multiplies LLM performance by 3-10x; and ASCII observations consistently outperform natural language. These findings highlight the substantial room for improvement that remains across all agent paradigms. Agentick's capability-decomposed, multi-modal design provides the empirical infrastructure needed to drive progress toward general autonomous agents, both as an evaluation framework and as a training ground for RL post-training of foundation models in truly sequential environments.
- Abstract(参考訳): AIエージェントの研究は、スクラッチから学習するRLエージェントから、事前訓練された知識を活用する基礎モデルエージェントまで、幅広い範囲にまたがっている。
本稿では, RL, LLM, VLM, ハイブリッド, 人為的エージェントを共通基盤上で評価し, シーケンシャル意思決定の根本的な課題について研究を行うための, シーケンシャル意思決定エージェントのベンチマークであるAgentickを提案する。
Agentickは6つの機能カテゴリに37の手続き的に生成されたタスク、難易度レベル4つ、観察モード5つを提供し、いずれも単一のGymnasium互換インターフェースを通じて公開されている。
ベンチマークには、Coding API、すべてのタスクのためのオラクル参照ポリシ、ビルド済みのSFTデータセット、構成可能なエージェントハーネス、ライブのリーダボードが付属している。
GPT-5 miniは全体の0.309オラクレ正規化スコアでリードし、PPOは計画とマルチエージェントタスクをリードし、推論ハーネスはLLMのパフォーマンスを3~10倍、ASCII観測は一貫して自然言語を上回ります。
これらの知見は、すべてのエージェントパラダイムに残る改善の余地を浮き彫りにしている。
Agentickの能力分割型マルチモーダルデザインは、評価フレームワークと、真にシーケンシャルな環境における基礎モデルのRL後トレーニングのためのトレーニンググラウンドの両方として、一般的な自律エージェントへの進捗を促進するために必要な経験的なインフラを提供する。
関連論文リスト
- AgentIF-OneDay: A Task-level Instruction-Following Benchmark for General AI Agents in Daily Scenarios [49.90735676070039]
持続時間と複雑さが増大するタスクを効果的に処理するAIエージェントの能力は、成長を続けている。
エージェントタスクの多様性に十分対処することなく,タスクの難易度の向上を優先している。
本稿では,自然言語命令とAIエージェントを多種多様な日常タスクに活用できるかどうかを判定するエージェントIF-OneDayを提案する。
論文 参考訳(メタデータ) (2026-01-28T13:49:18Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - AgentPRM: Process Reward Models for LLM Agents via Step-Wise Promise and Progress [71.02263260394261]
大規模言語モデル(LLM)は、マルチターン意思決定タスクにおいて依然として課題に直面している。
プロセス報酬モデル(PRM)を構築し、各意思決定を評価し、エージェントの意思決定プロセスを導く。
AgentPRMは、シーケンシャルな決定と最終的な目標への貢献の間の相互依存の両方をキャプチャする。
論文 参考訳(メタデータ) (2025-11-11T14:57:54Z) - Towards Outcome-Oriented, Task-Agnostic Evaluation of AI Agents [1.0305173936249623]
白書では、AIエージェントの成果に基づくタスク非依存のパフォーマンス指標11の新たなフレームワークを提案する。
本稿では、ゴール完了率(GCR)、自律度指数(AIx)、マルチステップタスクレジリエンス(MTR)、ビジネスインパクト効率(BIE)などの指標を紹介する。
この結果から, エージェント設計の相違が顕著であり, ハイブリットエージェントを一貫した高性能モデルとして強調した。
論文 参考訳(メタデータ) (2025-11-11T13:40:46Z) - APTBench: Benchmarking Agentic Potential of Base LLMs During Pre-Training [48.20667772172573]
APTBenchは、現実世界のエージェントタスクと成功した軌道を多重選択やテキスト補完の質問に変換するフレームワークである。
中心となるエージェント能力、例えば計画と行動に焦点を当て、主要なエージェントシナリオ、ソフトウェア工学、深層研究をカバーしている。
既存の汎用ベンチマークと比較すると、APTBenchはモデル下流のパフォーマンスをエージェントとしてより予測的な信号を提供する。
論文 参考訳(メタデータ) (2025-10-28T13:11:22Z) - Scaling Agents via Continual Pre-training [80.97989245493326]
我々は,エージェント連続事前学習(Agentic CPT)を深層研究エージェント訓練パイプラインに組み込んで,強力なエージェント基礎モデルを構築することを提案する。
我々は,AgentFounder-30Bを10のベンチマークで評価し,強力なツール使用能力を保ちながら最先端のパフォーマンスを実現した。
論文 参考訳(メタデータ) (2025-09-16T17:57:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。