論文の概要: ContractBench: Can LLM Agents Preserve Observation Contracts?
- arxiv url: http://arxiv.org/abs/2605.17281v1
- Date: Sun, 17 May 2026 06:37:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.826266
- Title: ContractBench: Can LLM Agents Preserve Observation Contracts?
- Title(参考訳): ContractBench: LLMエージェントは監視契約を守れるか?
- Authors: Jicheng Wang, Yifeng He, Zili Wang, Hanwen Xing, Arkaprava De, Hao Chen,
- Abstract要約: 観察契約の遵守は、緊急かつ回帰的な能力であることを示す。
ContractBenchは、2つの障害モードを探索する33の二重軸タスクのベンチマークである。
i)評価モデルが80%,Claude-Opus-4.6が77.8%, (ii)Qwen 3.5で4B (0%) から9B (56.6%) の急激な家庭内能力崖が397B-A17Bで70.7%, (iii) GPT-5ファミリーでの非単調性スケーリングが消失した。
- 参考スコア(独自算出の注目度): 9.057486468322933
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-augmented LLM agents call APIs whose intermediate outputs, such as presigned URLs, session tokens, and OAuth state parameters, are observation contracts: artifacts whose later use is constrained by the external system that produced them. We show that observation contract compliance (preserving the temporal validity and byte-level integrity) is an emergent, regression-prone capability: it is neither guaranteed by general tool-use ability nor consistently improved by larger or newer models. To measure this, we introduce ContractBench, a benchmark of 33 dual-axis tasks that probe two orthogonal failure modes no existing benchmark evaluates: validity failures (using an artifact after expiry) and integrity failures (corrupting an artifact's bytes through the observation-to-action pipeline). Our evaluation is deterministic and programmatic, with a virtual clock controlling time and SHA-256 hashes verifying byte integrity. We assign each outcome a failure label drawn from real-world API specifications. We evaluate 38 models and report four findings: (i) no evaluated model clears 80%, with Claude-Opus-4.6 leading at 77.8%, revealing that current frontier models still fail to comply with observation contracts; (ii) a sharp within-family capability cliff in Qwen 3.5 between 4B (0%) and 9B (56.6%), smoothing to 70.7% at 397B-A17B: what emerges across the cliff is mid-trajectory restraint, not tool-call competence; (iii) non-monotonic scaling across the GPT-5 family: agentic post-training can erode compliance through sycophancy-driven regression; (iv) our failure taxonomy works as an actionable in-context reward signal, yielding +7.1 pp on 42 paired GPT-5.1 failures.
- Abstract(参考訳): ツール拡張LDMエージェントは、事前署名されたURL、セッショントークン、OAuth状態パラメータなどの中間出力が観測コントラクトであるAPIを呼び出します。
監視契約の遵守(時間的妥当性とバイトレベルの整合性を維持すること)は突発的かつレグレッションに起因する能力であり,汎用的なツール使用能力によって保証されることも,より大規模なモデルや新しいモデルによって一貫して改善されることもない。
これを測定するために、33のデュアル軸タスクのベンチマークであるContractBenchを紹介します。これは、既存のベンチマークで評価されていない2つの直交障害モードを調査するものです。
我々の評価は決定的かつプログラム的であり、仮想クロック制御時間とSHA-256ハッシュがバイト整合性を検証する。
それぞれの結果に,実世界のAPI仕様から引き出された障害ラベルを割り当てます。
38モデルを評価し,4つの知見を報告する。
(i)評価モデルが80%をクリアせず、クロード・オプス4.6が77.8%でリードし、現在のフロンティアモデルが観測契約に従わないことが明らかとなった。
(二)Qwen3.5の急激な内科能力崖(4B(0%)から9B(56.6%)の間)は、397B-A17Bにおいて70.7%に滑らかで、崖の向こう側で発生するものは、ツールコール能力ではなく、中軌道抑制である。
3) GPT-5ファミリーの非単調なスケーリング: エージェントによるポストトレーニングは、サイコファンシーによる回帰を通じてコンプライアンスを損なう。
(iv)我々の故障分類は、42対のGPT-5.1の故障に対して+7.1ppという、実用的なインコンテキスト報酬信号として機能する。
関連論文リスト
- ClawForge: Generating Executable Interactive Benchmarks for Command-Line Agents [59.626170560327274]
textbfClawForgeは、ステートコンフリクト下で実行可能なコマンドラインカテゴリのためのジェネレータベースのベンチマークフレームワークである。
私たちはこのフレームワークをClawForge-Bench(17のシナリオ、6の能力カテゴリ)としてインスタンス化します。
論文 参考訳(メタデータ) (2026-05-13T21:34:08Z) - AgentCollabBench: Diagnosing When Good Agents Make Bad Collaborators [0.0]
AgentCollabBenchは、ソフトウェアエンジニアリング、DevOps、データエンジニアリングにまたがる900の人為的なタスクの診断ベンチマークです。
各タスクは、4つの行動リスクのうちの1つを分離する。
GPT 4.1 mini, Gemini 2.5 Flash Lite, Qwen-3.5-35B-A3B, Llama 3.1 8B の4つの近代LCMの評価を行った。
通信トポロジは、マルチホップ情報サバイバルにおけるばらつきの7-40%を説明する主要なリスクファクターとして現れる。
論文 参考訳(メタデータ) (2026-05-09T03:35:09Z) - MOSAIC-Bench: Measuring Compositional Vulnerability Induction in Coding Agents [2.1942030377331245]
コーディングエージェントは、しばしばプロンプト毎の安全性レビューをパスするが、それらのタスクが通常のエンジニアリングチケットに分解されると、悪用可能なコードを出荷する。
199個の3段階攻撃チェーンのベンチマークであるMOSAIC-Benchを紹介する。
9つのプロダクションコーディングエージェントが53~86%の終末ASRで無害なチケットを構成しており、全ステージで2回しか拒否しないことを示す。
論文 参考訳(メタデータ) (2026-05-05T16:38:23Z) - LiveFMBench: Unveiling the Power and Limits of Agentic Workflows in Specification Generation [75.05397479715576]
大規模言語モデル(LLM)とエージェントは有望な進歩を示しているが、その真の能力と失敗モードは未だ不明である。
CプログラムのためのLCMおよびエージェントベースの形式仕様生成に関する、最初の体系的および汚染に配慮した研究を提案する。
論文 参考訳(メタデータ) (2026-05-02T11:31:33Z) - Evaluating Tool-Using Language Agents: Judge Reliability, Propagation Cascades, and Runtime Mitigation in AgentProp-Bench [0.0]
AgentProp-Benchは4つのドメインに2300のトレースを持つ2,000タスクのベンチマークである。
我々は、判断信頼性を定量化し、エラーの伝播を特徴づけ、実行時の緩和を評価する。
すべてのコード、データ、トレース、および人間のラベルはhttps://github.com/bhaskargurram-ai/agenthallu-bench.orgで公開されている。
論文 参考訳(メタデータ) (2026-04-17T21:15:35Z) - LatentAudit: Real-Time White-Box Faithfulness Monitoring for Retrieval-Augmented Generation with Verifiable Deployment [19.317475241300397]
オープン・ウェイト・ジェネレータから中~後期の残ストリームアクティベーションをプールするホワイトボックス監査機であるLatentAuditを紹介する。
残差ストリーム幾何は、使用可能な忠実度信号を持ち、この信号がアーキテクチャの変化を生き延び、同じ規則が公衆の検証にも適用可能であることを示す。
論文 参考訳(メタデータ) (2026-04-07T02:55:32Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Replayable Financial Agents: A Determinism-Faithfulness Assurance Harness for Tool-Using LLM Agents [0.7699235580548228]
LLMエージェントは、規制監査のリプレイに苦労する: トランザクションフラグ付き決定を同じ入力で再現するように要求された場合、ほとんどのデプロイメントは一貫性のある結果を返すことができません。
本稿では,金融サービスに展開するツール利用エージェントにおけるトラジェクティブ決定性およびエビデンス条件の忠実度を測定するためのフレームワークであるDFAHを紹介する。
論文 参考訳(メタデータ) (2026-01-17T19:47:55Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。