論文の概要: Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
- arxiv url: http://arxiv.org/abs/2605.26321v1
- Date: Mon, 25 May 2026 20:44:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.462093
- Title: Anchor: Mitigating Artifact Drift in Agent Benchmark Generation
- Title(参考訳): Anchor: エージェントベンチマーク生成におけるアーティファクトドリフトの緩和
- Authors: Maksim Ivanov, Abhijay Rana,
- Abstract要約: ドメインエキスパートの仕様を制約最適化プログラムに形式化するタスク生成パイプラインであるAnchorを紹介する。
Anchorでは、パラメータを変更することで、制御の困難さと既知の最適解を持つ新しいタスクが生成される。
本研究では,ERP-Benchの生産にAnchorを適用し,生産レベルのERPシステムにおける調達と製造にまたがる300の長期タスクのベンチマークを行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI agents are beginning to complete valuable, long-horizon business operations tasks, but training and evaluation environments for enterprise work still struggle to balance realism, verifiability, and scale. Environment and task creation frequently suffers from a failure mode we call artifact drift: when instructions, environments, oracles, and verifiers are created by loosely coupled processes, they frequently disagree on what a task requires, producing environments that are unsolvable, reward-hackable, or inconsistent. We introduce Anchor, a task-generation pipeline that formalizes domain experts' specifications of business workflows into constraint optimization programs. From a single parametric specification, the pipeline jointly produces a natural-language instruction, environment configuration, solver-certified ground-truth solution, and state-based verifier. With Anchor, altering parameters yields new tasks with controlled difficulty and known optimal solutions, producing harness-agnostic environments whose rewards depend solely on end-state business correctness. We apply Anchor to produce ERP-Bench: a benchmark of 300 long-horizon tasks spanning procurement and manufacturing workflows in a production-grade ERP system. We find that generation parameters predict realized difficulty, and that frontier models satisfy explicit task constraints in 26.1% of trials but reach a fully optimal solution in only 17.4% of trials. Overall, we show that Anchor and ERP-Bench offer a concrete recipe for building auditable evaluation environments for economically valuable agent work. We release the task generator and ERP-Bench dataset at erpbench.ai
- Abstract(参考訳): AIエージェントは、価値ある長期的なビジネスオペレーションタスクを完了し始めているが、企業作業のためのトレーニングと評価環境は、現実主義、検証可能性、スケールのバランスを取るのに苦戦している。
指示、環境、オラクル、検証者が疎結合なプロセスによって生成される場合、彼らはタスクに何が必要なのか、解決不可能で、報奨可能で、一貫性のない環境を生成することに対して、しばしば意見が一致します。
ドメインの専門家によるビジネスワークフローの仕様を制約最適化プログラムに形式化するタスク生成パイプラインであるAnchorを紹介します。
1つのパラメトリック仕様から、パイプラインは自然言語の命令、環境構成、ソルバ認証された基底構造解、状態ベースの検証器を共同で生成する。
Anchorでは、パラメータを変更することで、制御された困難と既知の最適解を持つ新しいタスクが得られ、エンドステートビジネスの正しさにのみ依存するハーネスに依存しない環境が生成される。
生産レベルのERPシステムにおいて、調達と製造のワークフローにまたがる300の長距離タスクのベンチマークであるERP-Benchを生成するためにAnchorを適用した。
生成パラメータは現実的な困難を予測し、フロンティアモデルは26.1%の試験では明示的なタスク制約を満たすが、17.4%の試験では完全な最適解に達する。
全体として、AnchorとERP-Benchは、経済的に価値のあるエージェントワークのための監査可能な評価環境を構築するための具体的なレシピを提供する。
erpbench.aiでタスクジェネレータとERP-Benchデータセットをリリースします。
関連論文リスト
- TAPE: Tool-Guided Adaptive Planning and Constrained Execution in Language Model Agents [16.59223734824801]
制約付き実行(TAPE)を用いたツール誘導適応計画を提案する。
TAPE計画能力は、複数のプランをグラフに集約し、実行可能なパスを特定するために外部ソルバを使用する。
実行中、TAPEは制約付きデコードを使用してサンプリングノイズを低減し、環境フィードバックが意図された状態から逸脱するたびに適応的に再計画する。
論文 参考訳(メタデータ) (2026-02-23T09:19:56Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - AutoForge: Automated Environment Synthesis for Agentic Reinforcement Learning [71.4322853508083]
シミュレーション環境における強化学習の実施は、言語ベースのエージェントを強化するためのコスト効率が高く、スケーラブルな方法を提供する。
これまでの作業は、半自動化された環境合成や、十分な困難を欠いたタスクに限られており、幅や深さがほとんどない。
本稿では,高難易度かつ容易に検証可能なタスクに関連付けられたシミュレーション環境の,自動化されたスケーラブルな合成のための統一パイプラインを提案する。
論文 参考訳(メタデータ) (2025-12-28T09:43:11Z) - DAComp: Benchmarking Data Agents across the Full Data Intelligence Lifecycle [41.576417987200074]
実世界のエンタープライズデータインテリジェンスには、ソースを分析可能なテーブルに変換するデータエンジニアリングや、これらのテーブルを意思決定指向の洞察に変換するデータ分析が含まれる。
複雑な機能を反映した210タスクのベンチマークであるDACompを紹介します。
論文 参考訳(メタデータ) (2025-12-03T23:21:28Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - SetupBench: Assessing Software Engineering Agents' Ability to Bootstrap Development Environments [2.184775414778289]
環境ブートストラップスキルを分離するベンチマークである setupbench を導入する。
私たちのタスクは7つの言語エコシステム、5つのデータベースエンジン、マルチサービスオーケストレーションシナリオにまたがっています。
特にリポジトリのセットアップ(38.9-57.4%)とローカルデータベースの設定(20.0-53.3%)に課題がある。
論文 参考訳(メタデータ) (2025-07-11T22:45:07Z) - Uncovering Systemic and Environment Errors in Autonomous Systems Using Differential Testing [9.625308787676286]
本稿では,非好ましくないエージェントの挙動に差分試験を適用する新しいブラックボックステスト手法であるAIProbeを紹介する。
AIProbeは、エージェントのモデルやポリシーのエラーによるものなのか、あるいは解決不可能なタスク条件によるものなのかを識別する。
評価の結果,AIProbeは,総誤差と一意誤差の両方を検出する上で,最先端技術よりも優れていた。
論文 参考訳(メタデータ) (2025-07-05T02:50:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。