論文の概要: A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks
- arxiv url: http://arxiv.org/abs/2605.28556v2
- Date: Tue, 02 Jun 2026 10:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.155154
- Title: A Matter of TASTE: Improving Coverage and Difficulty of Agent Benchmarks
- Title(参考訳): TASTEの課題:エージェントベンチマークのカバレッジと難易度の改善
- Authors: Tomer Keren, Nitay Calderon, Asaf Yehudai, Yotam Perlitz, Michal Shmueli-Scheuer, Roi Reichart,
- Abstract要約: ツール・シークエンス・エボリューションによるタスク・シンセサイザー(TASTE: Task Synthesis from Tool Sequence Evolution)を提案する。
TASTEはクラスタリングを通じてプールから代表シーケンスを選択し、それらを完全なベンチマークタスクにインスタンス化し、難易度進化を通じてそれらを洗練する。
以上の結果から,既存のベンチマークにおける高いスコアは,頑健なタスク解決能力よりも飽和度を反映していることが示唆された。
- 参考スコア(独自算出の注目度): 25.713629634281077
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agent capabilities advance, existing benchmarks, such as $τ^2$-Bench, are becoming increasingly saturated. Yet constructing new benchmark tasks remains complex, costly, and labor-intensive. Moreover, the standard approach, in which scenarios are first written in natural language and then mapped to tool sequences, captures only a narrow subset of the tool-use patterns agents exercise. In this paper, we address these problems by reversing the task construction process. We propose TASTE: Task Synthesis from Tool Sequence Evolution, an automatic method that generates challenging tasks with broader tool-use coverage. TASTE utilizes an Adaptive Contrastive $n$-gram model trained on LLM-judged validity signals. This enables sampling valid tool sequences that cover a vast range of tool combinations. TASTE then selects representative sequences from the pool via clustering, instantiates them into complete benchmark tasks, and refines them through iterative difficulty evolution. Using TASTE, we construct $τ^c$-Bench, a challenging extension of the three domains of $τ^2$-Bench. We evaluate $11$ agent/user LLM pairs and find that models nearly saturating $τ^2$-Bench suffer severe performance drops on our tasks (e.g., Gemini-3-Flash falls from $0.82\!-\!0.94$ to $0.28\!-\!0.61$). Beyond increasing difficulty, our generated tasks more than double the number of unique tool combinations agents must execute. Our results suggest high scores on existing benchmarks often reflect saturation rather than robust task-solving ability. By automating the generation of difficult, high-coverage benchmarks, TASTE enables continuous, scalable evaluation of future agents.
- Abstract(参考訳): エージェント能力の進歩に伴い、$τ^2$-Benchのような既存のベンチマークは飽和してきている。
しかし、新しいベンチマークタスクの構築は、複雑でコストがかかり、労働集約的です。
さらに、シナリオを自然言語で記述し、ツールシーケンスにマッピングする標準的なアプローチでは、ツール使用パターンエージェントの実行の狭いサブセットのみをキャプチャする。
本稿では,タスク構築過程を逆転することで,これらの問題に対処する。
ツール・シークエンス・エボリューションによるタスク・シンセサイザー(TASTE: Task Synthesis from Tool Sequence Evolution)を提案する。
TASTEは、LLM-judged妥当性信号に基づいて訓練されたAdaptive Contrastive $n$-gramモデルを利用する。
これにより、さまざまなツールの組み合わせをカバーする有効なツールシーケンスのサンプリングが可能になる。
その後、TASTEはクラスタリングを通じてプールから代表シーケンスを選択し、それらを完全なベンチマークタスクにインスタンス化し、反復的な難易度進化を通じて洗練する。
TASTEを用いて、$τ^c$-Benchという3つの領域を挑戦的に拡張する$τ^c$-Benchを構築する。
エージェント/ユーザ LLM ペアを 11 ドル評価して,τ^2$-Bench の飽和に近いモデルでは,タスクのパフォーマンスが著しく低下する (例: Gemini-3-Flash が 0.2 から !
-\!
0.94$から0.28\!
-\!
0.61ドル)。
困難が増すだけでなく、生成したタスクは、エージェントが実行しなければならないユニークなツールの組み合わせの数を2倍以上にします。
以上の結果から,既存のベンチマークにおける高いスコアは,頑健なタスク解決能力よりも飽和度を反映していることが示唆された。
難しい高カバレッジベンチマークの自動生成によって、TASTEは、将来のエージェントの継続的かつスケーラブルな評価を可能にします。
関連論文リスト
- ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - Complete Cyclic Subtask Graphs for Tool-Using LLM Agents: Flexibility, Cost, and Bottlenecks in Multi-Agent Workflows [0.0]
実行可能なサブタスクノードが完全に接続された完全巡回サブタスクグラフについて検討する。
タスク固有(Spec-Cyc)およびベンチマーク固有(Gen-Cyc)グラフをTextCraft, ALFWorld, Finance-Agent上で評価する。
論文 参考訳(メタデータ) (2026-04-17T15:31:20Z) - Agent psychometrics: Task-level performance prediction in agentic coding benchmarks [24.348135523715815]
本稿では,エージェントプログラミング体制に合わせて,個々のタスクにおける成功や失敗を予測する枠組みを提案する。
我々のアプローチは、イシューステートメント、リポジトリコンテキスト、ソリューション、テストケースなど、タスクから抽出された豊富な機能を備えたアイテム応答理論(IRT)を拡張します。
論文 参考訳(メタデータ) (2026-04-01T07:59:59Z) - MagicAgent: Towards Generalized Agent Planning [73.21129030631421]
汎用エージェント計画に特化して設計された基盤モデルである textbfMagicAgent について述べる。
多様な計画タスクにまたがる高品質なトラジェクトリを生成する軽量でスケーラブルな合成データフレームワークを提案する。
MagicAgent-32B と MagicAgent-30B-A3B は様々なオープンソースベンチマークにおいて優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2026-02-22T01:39:16Z) - ADAPT: Learning Task Mixtures for Budget-Constrained Instruction Tuning [1.0039548765955955]
ADAPTは、命令チューニングのための明示的なトークン予算の下でタスクサンプリング比率を学習するメタ学習アルゴリズムである。
我々は、推論、読解、コード生成、命令追従にまたがる11のドメイン外のベンチマークの評価を行う。
論文 参考訳(メタデータ) (2025-12-04T08:17:05Z) - ML-Tool-Bench: Tool-Augmented Planning for ML Tasks [23.54937738755734]
ツール強化機械学習エージェントの評価のためのベンチマークを導入する。
私たちのベンチマークは、インメモリ名のオブジェクト管理を組み込むことで、従来のツール使用の評価を超えています。
我々のアプローチはReActよりも16.2%向上し、すべてのKaggle課題の中央値を取ります。
論文 参考訳(メタデータ) (2025-11-29T23:59:40Z) - AgentSynth: Scalable Task Generation for Generalist Computer-Use Agents [60.881609323604685]
Agent Synthはスケーラブルで費用効率のよいパイプラインで、高品質なタスクとトラジェクトリデータセットを自動的に合成する。
我々のパイプラインは1軌道あたりの平均コストが0.60ドルで、人間のアノテーションよりも桁違いに安い。
論文 参考訳(メタデータ) (2025-06-17T05:46:52Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。