論文の概要: Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows
- arxiv url: http://arxiv.org/abs/2605.27922v1
- Date: Wed, 27 May 2026 03:47:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.732667
- Title: Harness-Bench: Measuring Harness Effects across Models in Realistic Agent Workflows
- Title(参考訳): Harness-Bench: 現実的なエージェントワークフローにおけるモデル間のハーネス効果の測定
- Authors: Yilun Yao, Xinyu Tan, Chao-Hsuan Liu, Yaoming Li, Zhengyang Wang, Wenhan Yu, Zhewen Tan, Yuxuan Tian, Guangxiang Zhao, Lin Sun, Xiangzheng Zhang, Tong Yang,
- Abstract要約: 本稿では,リアルエージェントシステムにおける構成レベルのハーネス効果を評価するための診断ベンチマークであるHarness-Benchを紹介する。
ベンチマークには、実用的なエージェント使用パターンから構築された106のサンドボックス化されたオフラインタスクが含まれている。
5,194個の実行軌道にまたがって、完了、プロセス品質、効率、障害挙動のかなりの変化を観察する。
- 参考スコア(独自算出の注目度): 18.6534256358905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents are increasingly deployed as executable systems that use tools, modify workspaces, and produce concrete artifacts. In such workflows, performance depends not only on the base model, but also on the harness: the system layer that manages context, tools, state, constraints, permissions, tracing, and recovery. However, existing benchmarks typically abstract away execution, compare complete agent systems, or hold the harness fixed, making execution-layer variation difficult to study. We introduce Harness-Bench, a diagnostic benchmark for evaluating configuration-level harness effects in realistic agent workflows. Harness-Bench evaluates representative harness configurations across multiple model backends under shared task environments, budgets, and evaluation protocols, while preserving each harness's native execution behavior. The benchmark contains 106 sandboxed offline tasks constructed from practical agent-use patterns and manually reviewed for realism, solvability, oracle-checkability, and integrity. Each run records final artifacts, execution traces, usage statistics, and validator outputs, enabling analysis beyond final completion. Across 5,194 execution trajectories, we observe substantial variation in completion, process quality, efficiency, and failure behavior across model-harness pairings. These results suggest that agent capability should be reported at the model-harness configuration level rather than attributed to the base model alone. Our analysis further identifies recurring execution-alignment failures, where plausible reasoning becomes decoupled from tool feedback, workspace state, evidence, or verifiable output contracts. Harness-Bench provides a reproducible foundation for diagnosing and improving reliable, efficient, and auditable agent execution stacks.
- Abstract(参考訳): LLMエージェントは、ツールを使用し、ワークスペースを変更し、具体的なアーティファクトを生成する実行可能なシステムとして、ますます多くデプロイされている。
このようなワークフローでは、パフォーマンスはベースモデルだけでなく、コンテキスト、ツール、状態、制約、パーミッション、トレース、リカバリを管理するシステム層にも依存します。
しかし、既存のベンチマークは通常、実行を抽象化したり、完全なエージェントシステムを比較したり、ハーネスを固定したりすることで、実行層の違いを研究するのが難しくなる。
本稿では,現実的なエージェントワークフローにおける構成レベルのハーネス効果を評価するための診断ベンチマークであるHarness-Benchを紹介する。
Harness-Benchは、複数のモデルバックエンドにまたがる代表的ハーネス構成を、共通のタスク環境、予算、評価プロトコルの下で評価すると同時に、各ハーネスのネイティブな実行動作を保存する。
ベンチマークには、実用的なエージェント使用パターンから構築された106のサンドボックスのオフラインタスクが含まれており、リアリズム、可解性、オラクルチェック可能性、整合性について手作業でレビューされている。
各実行は最終アーティファクト、実行トレース、使用統計、バリデータ出力を記録し、最終完了以上の分析を可能にする。
5,194個の実行軌道にまたがって, モデルハーネスペアリングにおける完了, プロセス品質, 効率, 障害挙動のかなりの変化を観測する。
これらの結果から,エージェント能力は基本モデルのみによるものではなく,モデルハーネス設定レベルで報告されるべきであることが示唆された。
そこでは,ツールフィードバックやワークスペースの状態,エビデンス,検証可能な出力契約から,妥当な推論が切り離される。
Harness-Benchは信頼性、効率的、監査可能なエージェント実行スタックを診断し改善するための再現可能な基盤を提供する。
関連論文リスト
- Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems [2.9725171307292544]
ソフトウェアエンジニアリングエージェントを評価するための実運用基盤となるRAMPについて紹介する。
RAMPは、標準化されたオーケストレーションと実行インターフェースを通じて、統一されたランタイムアセスメントアーキテクチャを提供する。
論文 参考訳(メタデータ) (2026-05-26T16:28:10Z) - CausalFlow: Causal Attribution and Counterfactual Repair for LLM Agent Failures [4.061481215870679]
フェールエージェントトレースを最小限の偽物修復と再利用可能な監視に変換する介入フレームワークであるCausalFlowを紹介した。
CaulFlowは、最小限の振る舞いドリフトで障害から回復するターゲットテスト時修復と、オフラインの優先度最適化や報酬モデリングに適したトレーニング時間監視の2つの補完的な使用をサポートする。
論文 参考訳(メタデータ) (2026-05-25T01:47:01Z) - ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - Constraint Decay: The Fragility of LLM Agents in Backend Code Generation [9.659020624935687]
大きな言語モデル(LLM)エージェントは、緩やかな仕様の下で、自律的なコード生成において強力なパフォーマンスを示す。
プロダクショングレードのソフトウェアは、アーキテクチャパターンやデータベース、オブジェクト-リレーショナルマッピングといった構造的制約に厳格に固執する必要がある。
本稿では,バックエンド生成における構造的制約を適切に扱えるかを評価する。
論文 参考訳(メタデータ) (2026-05-07T15:44:40Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows [67.92316850084575]
ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介する。
各リリースは、公開ワークフロー要求信号から構築される。
Claw-Eval-Liveは実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録する。
論文 参考訳(メタデータ) (2026-04-30T17:23:19Z) - GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows [90.35728421223673]
GTA-2はジェネラル・ツール・エージェント(GTA)の階層的なベンチマークである
現実世界の認証に基づいて構築され、実際のユーザクエリ、デプロイツール、マルチモーダルコンテキストを活用する。
実験では、フロンティアモデルは既に原子タスクに苦戦しているが、トップモデルは14.39%の成功しか達成していない。
論文 参考訳(メタデータ) (2026-04-17T05:36:00Z) - TopoPilot: Reliable Conversational Workflow Automation for Topological Data Analysis and Visualization [4.62716665682001]
TopoPilotは、複雑な科学的視覚化を自動化するための信頼性が高くエージェント的なフレームワークである。
TopoPilotは、信頼性の高い運用を保証するために、系統的なガードレールと検証メカニズムを組み込んでいる。
評価では、TopoPilotは99%以上の成功率を達成したが、ベースラインでは50%以下で、包括的なガードレールやチェックがない。
論文 参考訳(メタデータ) (2026-03-26T05:56:53Z) - Automatic Building Code Review: A Case Study [6.530899637501737]
建設担当者は、プロジェクトのサイズと複雑さが増大するにつれて、労働集約的で、エラーを起こし、コストがかかる設計文書のレビューに直面します。
本研究では,BIMに基づくデータ抽出と自動検証を統合したエージェント駆動型フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-03T00:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。