論文の概要: Counterfactual Trace Auditing of LLM Agent Skills
- arxiv url: http://arxiv.org/abs/2605.11946v1
- Date: Tue, 12 May 2026 10:56:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.808668
- Title: Counterfactual Trace Auditing of LLM Agent Skills
- Title(参考訳): LLMエージェントスキルの非現実的トレース監査
- Authors: Xiaolin Zhou, Jinbo Liu, Li Li, Ryan A. Rossi, Xiyang Hu,
- Abstract要約: スキルがエージェントの振る舞いをどのように変化させるかを測定するためのフレームワークを紹介します。
SWE-Skills-Bench上のCTAを49のソフトウェアエンジニアリングタスクでClaudeでインスタンス化する。
パスレートは平均で0.3ポイントしか変化せず、集合効果はほとんどなかった。
- 参考スコア(独自算出の注目度): 38.396785087675774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model agents are increasingly augmented with agent skills. Current evaluation methods for skills remain limited. Most deployed benchmarks report only pass rate before and after a skill is attached, treating the skill as a black box change to agent behavior. We introduce Counterfactual Trace Auditing (CTA), a framework for measuring how a skill changes agent behavior. CTA pairs each with skill agent trace with a without skill counterpart on the same task, segments both traces into goal directed phases, aligns the phases, and emits structured Skill Influence Pattern (SIP) annotations. These annotations describe the behavioral effect of a skill rather than only its task outcome. We instantiate CTA on SWE-Skills-Bench with Claude across 49 software engineering tasks. The resulting audit reveals a clear evaluation gap. Pass rate changes by only +0.3 percentage points on average, suggesting little aggregate effect. Yet CTA identifies 522 SIP instances across the same paired traces, showing that the skills substantially reshape agent behavior even when pass rate is nearly unchanged. The audit also separates several recurring effects that pass rate cannot detect, including literal template copying, off task artifact creation, excess planning, and task recovery. Three findings emerge. First, high baseline tasks contain most of the observed skill effects, although their pass rate is already saturated and therefore cannot reflect those effects. Second, tasks with moderate baseline performance show the most recoverable gain, but often at substantially higher token cost. Third, the dominant SIP type can be identified by baseline bucket: surface anchoring is most common on ceiling tasks and edge-case prompting is most common on mid-range and floor tasks. These regularities turn informal failure mode observations into reproducible behavioral measurements.
- Abstract(参考訳): 大規模言語モデルエージェントは、エージェントスキルでますます強化されている。
現在の技術評価方法はまだ限られている。
ほとんどのベンチマークでは、スキルがアタッチされた前後でのみパスレートを報告しており、エージェントの動作に対するブラックボックスの変更として扱う。
本稿では,エージェントの動作がどう変化するかを測定するためのフレームワークとして,CTA(Courerfactual Trace Auditing)を紹介する。
CTAは、それぞれがスキルエージェントトレースと、同じタスクでスキルエージェントトレースをペアリングし、両方のトレースを目標指向のフェーズに分割し、フェーズを調整し、構造化されたスキル影響パターン(SIP)アノテーションを出力する。
これらのアノテーションは、タスクの結果だけでなく、スキルの行動効果を記述する。
SWE-Skills-Bench上のCTAを49のソフトウェアエンジニアリングタスクでClaudeでインスタンス化する。
その結果,明確な評価ギャップが明らかになった。
パスレートは平均で0.3ポイントしか変化せず、集合効果はほとんどなかった。
しかし、CTAは同一のトレースにまたがる522のSIPインスタンスを特定し、パスレートがほとんど変化していない場合でも、エージェントの振る舞いを実質的に再現する技術を示している。
監査はまた、リテラルテンプレートのコピー、タスクアーチファクトの生成、過剰な計画、タスクリカバリなど、パスレートが検出できないいくつかの繰り返し効果を分離する。
3つの発見がある。
第一に、高いベースラインタスクは観察されたスキル効果のほとんどを含むが、そのパスレートは既に飽和しており、そのためこれらの効果を反映できない。
第二に、適度なベースライン性能を持つタスクは、最も回復可能なゲインを示すが、トークンコストがかなり高い場合が多い。
第3に、支配的なSIPタイプはベースラインバケットによって識別できる: 表面のアンカーは天井のタスクで、エッジケースのプロンプトはミッドレンジとフロアのタスクで、最も一般的である。
これらの規則性は、非公式な障害モードの観察を再現可能な行動測定に変換する。
関連論文リスト
- SkillGen: Verified Inference-Time Agent Skill Synthesis [60.927977774369516]
SkillGenは、ベースエージェントによって生成されたトラジェクトリから単一の監査可能なスキルを合成するフレームワークである。
再利用可能な成功パターン、繰り返し発生する障害モード、そして近くの成功に現れるが失敗に欠ける行動を特定する。
SkillGenの重要な特徴は、エージェントスキルを、全体的なパフォーマンスに対するスキルのネット効果を実証的に検証するための介入としてモデル化することです。
論文 参考訳(メタデータ) (2026-05-09T19:24:11Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Trace2Skill: Distill Trajectory-Local Lessons into Transferable Agent Skills [21.971456179996093]
Trace2Skillは、人間の専門家がいかにスキルを作成できるかを反映するフレームワークです。
個々のトラジェクトリにシーケンシャルに反応する代わりに、Trace2Skillは並列なサブエージェント群を派遣して、さまざまな実行プールを分析する。
トラジェクトリ固有のレッスンを抽出し、階層的にそれらをインダクティブ推論を通じて統合され、コンフリクトフリーなスキルディレクトリに集約する。
論文 参考訳(メタデータ) (2026-03-26T08:26:38Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - RewardHackingAgents: Benchmarking Evaluation Integrity for LLM ML-Engineering Agents [0.9821874476902969]
LLMエージェントは、単一のスカラーテストメトリクスで成功を判断するエンドツーエンドのMLエンジニアリングタスクをますます実行します。
エージェントは、モデルを改善するのではなく、評価パイプラインを妥協することで、報告されたスコアを増やすことができる。
ワークスペースベースのベンチマークであるRewardHackingAgentsを導入する。
論文 参考訳(メタデータ) (2026-03-11T22:06:44Z) - TRACE: Trajectory-Aware Comprehensive Evaluation for Deep Research Agents [51.30998248590416]
Trajectory-Aware Comprehensive Evaluation (TRACE) は、問題解決の軌道全体を評価するフレームワークである。
私たちのコントリビューションには、TRACEフレームワーク、その新しいメトリクス、および制御可能な複雑さを伴うDeepResearch-Benchが含まれています。
論文 参考訳(メタデータ) (2026-02-05T13:28:57Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。