論文の概要: ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation
- arxiv url: http://arxiv.org/abs/2604.23853v1
- Date: Sun, 26 Apr 2026 19:44:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.592935
- Title: ClawTrace: Cost-Aware Tracing for LLM Agent Skill Distillation
- Title(参考訳): ClawTrace: LLMエージェントスキル蒸留のコスト対応トレーシング
- Authors: Boqin Yuan, Renchu Song, Yue Su, Sen Yang, Jing Qin,
- Abstract要約: ClawTraceは、エージェントセッション中にすべてのLCMコール、ツール使用、サブエージェントスレーブを記録するエージェントトレースプラットフォームである。
CostCraftは、TraceCardsを読み出し、3種類のスキルパッチを生成する蒸留パイプラインである。
コスト属性とプルーパッチの両方が独立に品質の低下を減少させることを示す。
- 参考スコア(独自算出の注目度): 9.992155237142306
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Skill-distillation pipelines learn reusable rules from LLM agent trajectories, but they lack a key signal: how much each step costs. Without per-step cost, a pipeline cannot distinguish adding a missing step to fix a bug from removing an expensive step that never affected the outcome. We introduce ClawTrace, an agent tracing platform that records every LLM call, tool use, and sub-agent spawn during an agent session and compiles each session into a TraceCard: a compact YAML summary with per-step USD cost, token counts, and redundancy flags. Built on ClawTrace, CostCraft is a distillation pipeline that reads TraceCards and produces three types of skill patches. Preserve patches keep behaviors that led to success. Prune patches remove expensive steps that did not matter, each backed by a counterfactual argument against a named high-cost step. Repair patches fix failures grounded in oracle evidence. Ablations on 30 held-out SpreadsheetBench tasks show that both cost attribution and prune patches independently reduce quality regressions. When the same skill is applied to 30 unrelated SkillsBench tasks, an unexpected asymmetry emerges: prune rules transferred across benchmarks and cut median cost by 32%, while preserve rules, trained on benchmark-specific conventions, caused regressions on new task types. We release ClawTrace and TraceCards as open infrastructure for cost-aware agent research.
- Abstract(参考訳): スキル蒸留パイプラインはLLMエージェントの軌道から再利用可能なルールを学習するが、重要なシグナルが欠けている。
ステップ単位のコストがなければ、バグを修正するための欠落したステップの追加と、結果に影響を与えない高価なステップの削除を区別することはできない。
我々はエージェントトレースプラットフォームであるClawTraceを紹介した。エージェントセッション中にすべてのLCMコール、ツール使用、サブエージェントの生成を記録し、各セッションをTraceCardにコンパイルする。
ClawTrace上に構築されたCostCraftは、TraceCardsを読み出し、3種類のスキルパッチを生成する蒸留パイプラインである。
パッチの保存は成功につながる振る舞いを保持します。
Pruneのパッチは、重要でない高価なステップを削除し、それぞれが、名前のついた高コストステップに対する反ファクトの議論に裏付けられている。
修理パッチは、オラクルの証拠に埋もれた失敗を修正します。
30の保留されたSpreadsheetBenchタスクのアブレーションは、コスト属性とプルーのパッチの両方が独立に品質の低下を減少させることを示している。
同じスキルが30の非関連SkillsBenchタスクに適用されると、予期せぬ非対称性が出現する: ベンチマーク間で転送されたプルールールと中央値のコストを32%削減する一方で、ベンチマーク固有の規則に基づいてトレーニングされたルールを保存することで、新しいタスクタイプに対する回帰が引き起こされる。
ClawTraceとTraceCardsを,コスト対応エージェント研究のためのオープンインフラストラクチャとしてリリースする。
関連論文リスト
- Correction and Corruption: A Two-Rate View of Error Flow in LLM Protocols [51.56484100374058]
そこで本研究では,単一プロトコルステップを正確なマッチングタスクで監査するためのペアアウトカム計測インタフェースを提案する。
各インスタンスについて、インターフェースはベースラインの正当性ビットと後ステップの正当性ビットを記録する。
これらのレートは精度の変化を予測し、種、混合物、パイプライン間でテスト可能な再利用可能な経験的インターフェースを定義する。
論文 参考訳(メタデータ) (2026-04-20T13:25:40Z) - Unleashing Implicit Rewards: Prefix-Value Learning for Distribution-Level Optimization [74.91418266859297]
インプシットプロセス報酬モデル(PRM)は、推論プロセスに沿ってきめ細かな報酬信号を提供する。
トレーニングはシーケンスレベルの集約のみを制限しますが、推論はローカルステップの品質を反映するためにトークンレベルのスコアが必要です。
本稿では,予測精度を推定するプレフィックス条件付き値関数を直接学習する新しいインプリシット・プレフィックス・バリュー・リワード・モデル(IPVRM)を提案する。
また,サンプルトークンと高確率候補トークンの両方に対してTDの利点を演算する分散レベルRL(DistRL)を提案する。
論文 参考訳(メタデータ) (2026-04-14T18:19:54Z) - Runtime Execution Traces Guided Automated Program Repair with Multi-Agent Debate [8.424102114588559]
自動プログラム修復(APR)は複雑なロジックエラーとサイレント障害に悩まされる。
現在のLLMベースのAPRメソッドは主に静的であり、ソースコードと基本的なテスト出力に依存している。
我々は、パッチ検証のための共有制約としてランタイム事実を活用するマルチエージェントフレームワークであるTraceRepairを提案する。
論文 参考訳(メタデータ) (2026-04-03T02:23:25Z) - EcoScratch: Cost-Effective Multimodal Repair for Scratch Using Execution Feedback [3.6908036186618314]
EcoScratchは、ライトウェイトなランタイム信号を使用して、次の試みがテキストのみであり続けるか、マルチモーダルプロンプトにエスカレートするかを判断する修復パイプラインである。
我々は,100個のScratch補修プロジェクトを4つのコントローラ設定で評価し,4800個の補修軌道を得た。
最高世代(30.3%)に到達し、同じ有界軌道予算の下での2つの非適応的マルチモーダルベースライン(テキストのみの最低コストフロア)よりも平均コストと局所実行エネルギーを削減した。
論文 参考訳(メタデータ) (2026-03-31T11:45:36Z) - Large Language Models as Optimization Controllers: Adaptive Continuation for SIMP Topology Optimization [4.365822392824561]
本稿では,SIMP最適化のためのオンラインコントローラとして,大規模言語モデルが機能するフレームワークを提案する。
ハードグレーネスゲートは未熟なバイナライゼーションを防止し、メタ最適化ループは第2パスを使用してエージェントの呼び出し周波数を調整する。
エージェントはすべてのベンチマークの最終的なコンプライアンスを達成する:$5.7%$から$-1%、すべてのソリューションが完全にバイナリである。
論文 参考訳(メタデータ) (2026-03-26T07:14:31Z) - Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics [4.774525456207306]
ツール拡張LDMは、自然言語推論と実行可能なPythonアクションをインターリーブするエージェントとして、ますます多くデプロイされている。
インタプリタの永続化は単に実行時の足場なのか、それともエージェントがインタープリタの使い方を学習する方法を形作るトレーニングデータの特性なのかを問う。
ワンショットソリューションを避けるために設計された、部分的に観測可能な最適化タスクの手続き的に生成されたファミリーであるOpaque Knapsackを紹介する。
論文 参考訳(メタデータ) (2026-03-01T18:08:02Z) - Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents [31.789859492703016]
エージェント・ツール通信ループは、Large Language Model (LLM)エージェントにおけるクリティカルアタックサーフェスである。
既存のDoS(DoS)攻撃は、この新しいパラダイムには効果がない。
正常に完了したタスクのヒントのもと、ツール層で機能するステルスで多ターンの経済DoS攻撃を導入する。
論文 参考訳(メタデータ) (2026-01-16T02:47:45Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。