論文の概要: ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments
- arxiv url: http://arxiv.org/abs/2604.06111v1
- Date: Tue, 07 Apr 2026 17:21:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.963216
- Title: ACE-Bench: Agent Configurable Evaluation with Scalable Horizons and Controllable Difficulty under Lightweight Environments
- Title(参考訳): ACE-Bench: 軽量環境下でのスケーラブルなホライズンと制御困難性によるエージェント構成可能評価
- Authors: Wang Yang, Chaoda Song, Xinpeng Li, Debargha Ganguly, Chuang Ma, Shouren Wang, Zhihao Dou, Yuli Zhou, Vipin Chaudhary, Xiaotian Han,
- Abstract要約: 既存のベンチマークは、高い環境相互作用のオーバーヘッドと不均衡なタスク水平線と、集計スコアの信頼性を損なう難易度分布に悩まされている。
そこで我々は,ローカルスロット制約とグローバル制約の両方を条件に,エージェントが部分的に完了したスケジュールで隠れスロットを埋めなければならない,統一グリッドベースの計画タスクを中心に構築されたACE-Benchを提案する。
- 参考スコア(独自算出の注目度): 16.54998750873037
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Agent benchmarks suffer from two critical limitations: high environment interaction overhead (up to 41\% of total evaluation time) and imbalanced task horizon and difficulty distributions that make aggregate scores unreliable. To address these issues, we propose ACE-Bench built around a unified grid-based planning task, where agents must fill hidden slots in a partially completed schedule subject to both local slot constraints and global constraints. Our benchmark offers fine-grained control through two orthogonal axes: Scalable Horizons, controlled by the number of hidden slots $H$, and Controllable Difficulty, governed by a decoy budget $B$ that determines the number of globally misleading decoy candidates. Crucially, all tool calls are resolved via static JSON files under a Lightweight Environment design, eliminating setup overhead and enabling fast, reproducible evaluation suitable for training-time validation. We first validate that H and B provide reliable control over task horizon and difficulty, and that ACE-Bench exhibits strong domain consistency and model discriminability. We then conduct comprehensive experiments across 13 models of diverse sizes and families over 6 domains, revealing significant cross-model performance variation and confirming that ACE-Bench provides interpretable and controllable evaluation of agent reasoning.
- Abstract(参考訳): 既存のエージェントベンチマークには、高い環境相互作用のオーバーヘッド(全体の評価時間の最大41%)と、不均衡なタスク水平線と、集計スコアの信頼性を損なう難易度分布の2つの重要な制限がある。
これらの問題に対処するために,エージェントはローカルスロット制約とグローバル制約の両方を条件として,隠れスロットを部分的に完了したスケジュールで満たさなければならない,統一グリッドベースの計画タスクを中心に構築されたACE-Benchを提案する。
我々のベンチマークは2つの直交軸を通じてきめ細かな制御を提供する: 隠されたスロット数によって制御されるスケーラブル・ホライズンと、グローバルに誤解を招くデコイ候補の数を決定するデコイ予算$B$で制御される制御可能なディフューティである。
重要なのは、すべてのツールコールは、軽量環境設計の下で静的なJSONファイルを通じて解決され、セットアップのオーバーヘッドをなくし、トレーニング時間検証に適した高速で再現可能な評価を可能にすることだ。
我々はまず,HとBがタスクの水平と難易度に対する信頼性の高い制御を提供し,ACE-Benchが強いドメイン整合性とモデルの識別可能性を示すことを検証した。
次に、6つのドメインにまたがる多様なサイズと家族の13モデルにわたる総合的な実験を行い、重要なクロスモデル性能の変動を明らかにし、ACE-Benchがエージェント推論の解釈可能かつ制御可能な評価を提供することを確認した。
関連論文リスト
- Certificate-Driven Closed-Loop Multi-Agent Path Finding with Inheritable Factorization [9.832339001385828]
クローズループMAPFアルゴリズムは、次の動きのみを計画し、オンラインを再計画することでスケーラビリティを向上させる。
この問題は、特にAnytime Closed-Loop Conflict-Based Search (ACCBS)で見ることができる。
クローズドループ更新をフィルタリングするための一般的なメカニズムとして,認証トラジェクトリとその関連するフリート予算を導入する。
論文 参考訳(メタデータ) (2026-04-01T03:14:16Z) - BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing? [61.247730037229815]
BeyondSWEは2つの軸 – 解像度スコープと知識スコープ – に沿って既存の評価を拡張する包括的なベンチマークです。
外部知識の役割を解明するために,ディープ検索とコーディング能力を統合するフレームワークであるSearchSWEを開発した。
この作業は、現実的で挑戦的な評価ベンチマークと、より有能なコードエージェントに向けた研究を進めるための柔軟なフレームワークの両方を提供する。
論文 参考訳(メタデータ) (2026-03-03T17:52:01Z) - OmniVL-Guard: Towards Unified Vision-Language Forgery Detection and Grounding via Balanced RL [63.388513841293616]
既存の偽造検出手法は、現実世界の誤報に多いインターリーブされたテキスト、画像、ビデオを扱うのに失敗する。
このギャップを埋めるため,本論文では,オムニバス・ビジョン言語による偽造検出と接地のための統一フレームワークの開発を目標としている。
我々は、OmniVL-Guardという、オムニバス視覚言語による偽造検出と接地のためのバランスの取れた強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-11T09:41:36Z) - Robust Verification of Concurrent Stochastic Games [3.2964666213105587]
我々は *robust CSGs* とそのサブクラス *interval CSGs* (ICSGs) を紹介する。
本稿では、遷移の不確実性に関する最悪の仮定の下で、これらのモデルの *robust* 検証のための新しいフレームワークを提案する。
我々はPRISMgamesモデルチェッカーの実装を構築し、大規模なベンチマークからICSGの堅牢な検証が可能であることを実証する。
論文 参考訳(メタデータ) (2026-01-17T10:42:44Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - AstroReason-Bench: Evaluating Unified Agentic Planning across Heterogeneous Space Planning Problems [71.89040853616602]
宇宙計画問題(SPP)におけるエージェント計画評価ベンチマークAstroReason-Benchを紹介する。
AstroReason-Benchは地上局通信やアジャイル地球観測を含む複数のスケジューリングシステムを統合し、統合されたエージェント指向のインタラクションプロトコルを提供する。
現在のエージェントは、現実的な制約下でのジェネラリスト計画の鍵となる制約を強調して、かなり性能が劣っていることが判明した。
論文 参考訳(メタデータ) (2026-01-16T15:02:41Z) - A Dual-Branch Local-Global Framework for Cross-Resolution Land Cover Mapping [16.429154404656412]
クロスレゾリューション・ランドカバーマッピングは、粗いまたは低解像度の監視から高解像度なセマンティック・予測を生成することを目的としている。
既存の弱教師付きアプローチは、細粒度空間構造を粗いラベルで整列させるのにしばしば苦労する。
本稿では,グローバルな文脈的推論から局所的な意味的洗練を明示的に分離する,二分岐弱教師付きフレームワークDDTMを提案する。
論文 参考訳(メタデータ) (2025-12-23T02:32:02Z) - Meta-Black-Box Optimization with Bi-Space Landscape Analysis and Dual-Control Mechanism for SAEA [8.45452791601094]
この研究は、SAEAを二重レベルに制御する最初のMetaBBOフレームワークと、代理モデル情報をキャプチャするバイスペースERAを紹介する。
DB-SAEAは、様々なベンチマークで最先端のベースラインを上回るだけでなく、高次元設定で見えないタスクに強力なゼロショット転送を示す。
論文 参考訳(メタデータ) (2025-11-19T15:43:19Z) - UltraHorizon: Benchmarking Agent Capabilities in Ultra Long-Horizon Scenarios [63.67884284105684]
textbfUltraHorizonは、複雑な現実世界の課題に不可欠な基礎的能力を測定する新しいベンチマークである。
エージェントは、隠されたルールを反復的に発見しなければならない、長期にわたる発見タスクで設計されている。
実験の結果, LLM-agents はこれらの設定において常に不利な成績を示し, ヒトは高いスコアを得ることができた。
論文 参考訳(メタデータ) (2025-09-26T02:04:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。