論文の概要: SkillReducer: Optimizing LLM Agent Skills for Token Efficiency
- arxiv url: http://arxiv.org/abs/2603.29919v1
- Date: Tue, 31 Mar 2026 15:57:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.771428
- Title: SkillReducer: Optimizing LLM Agent Skills for Token Efficiency
- Title(参考訳): SkillReducer: トークン効率向上のためのLLMエージェントスキルの最適化
- Authors: Yudong Gao, Zongjie Li, Yuanyuanyuan, Zimo Ji, Pingchuan Ma, Shuai Wang,
- Abstract要約: LLMベースのコーディングエージェントは、エージェントの機能を拡張する事前にパッケージ化された命令セットであるEmphskillsに依存している。
コンテキストウィンドウに挿入されたスキル内容のトークンはすべて、金銭的コストと注意の希釈の両方を引き起こします。
2段階最適化フレームワークである textscSkillReducer を提示する。
- 参考スコア(独自算出の注目度): 19.2748735514124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLM-based coding agents rely on \emph{skills}, pre-packaged instruction sets that extend agent capabilities, yet every token of skill content injected into the context window incurs both monetary cost and attention dilution. To understand the severity of this problem, we conduct a large-scale empirical study of 55,315 publicly available skills and find systemic inefficiencies: 26.4\% lack routing descriptions entirely, over 60\% of body content is non-actionable, and reference files can inject tens of thousands of tokens per invocation. Motivated by these findings, we present \textsc{SkillReducer}, a two-stage optimization framework. Stage~1 optimizes the routing layer by compressing verbose descriptions and generating missing ones via adversarial delta debugging. Stage~2 restructures skill bodies through taxonomy-driven classification and progressive disclosure, separating actionable core rules from supplementary content loaded on demand, validated by faithfulness checks and a self-correcting feedback loop. Evaluated on 600 skills and the SkillsBench benchmark, \textsc{SkillReducer} achieves 48\% description compression and 39\% body compression while improving functional quality by 2.8\%, revealing a \emph{less-is-more} effect where removing non-essential content reduces distraction in the context window. These benefits transfer across five models from four families with a mean retention of 0.965, and generalize to an independent agent framework.
- Abstract(参考訳): LLMベースのコーディングエージェントは、エージェント機能を拡張する事前パッケージされた命令セットであるemph{skills}に依存するが、コンテキストウィンドウに注入されたスキルコンテンツのトークンは、金銭的コストと注意の希釈の両方を引き起こす。
この問題の深刻さを理解するために、55,315の公開スキルを大規模に検証し、体系的な非効率性を見出す。26.4\%はルーティング記述が完全に欠如しており、60\%以上の身体コンテンツは動作不能であり、参照ファイルは呼び出し毎に数万のトークンを注入することができる。
これらの結果から,2段階最適化フレームワークであるtextsc{SkillReducer}を提案する。
Stage~1は、冗長な記述を圧縮し、逆デルタデバッギングによって欠落した記述を生成することでルーティング層を最適化する。
段階~2は、分類主導の分類とプログレッシブ開示を通じてスキルボディを再構築し、要求に応じてロードされた補足的コンテンツから実行可能なコアルールを分離し、忠実度チェックと自己修正フィードバックループによって検証する。
600のスキルとSkillsBenchベンチマークに基づいて評価された \textsc{SkillReducer} は、48 %の記述圧縮と39 %のボディ圧縮を実現し、機能品質を2.8 %改善した。
これらの利点は、平均保持率0.965の4つのファミリーから5つのモデルに渡り、独立したエージェントフレームワークに一般化される。
関連論文リスト
- APEX-EM: Non-Parametric Online Learning for Autonomous Agents via Structured Procedural-Episodic Experience Replay [7.370176470430802]
我々は,構造化手続き計画の蓄積,検索,再利用を行う非パラメトリックオンライン学習フレームワークである textbfAPEX-EM を提案する。
APEX-EMの精度は89.6%、メモリなしでは41.3%(+48.3pp)であり、オラクルと検索の上限を超えている。
BigCodeBenchでは、53.9%のベースライン(+29.4pp)から83.3%のSRに達し、同じ冷凍バックボーン条件下でMemRLのcitememrl2025 +11.0ppを超える。
論文 参考訳(メタデータ) (2026-03-31T00:24:56Z) - SkillRouter: Skill Routing for LLM Agents at Scale [18.540967600258607]
ユーザタスクが与えられたら、システムは、下流の計画や実行の前に、関連するスキルを特定する必要がある。
既存のエージェントスタックはプログレッシブな開示に依存しており、完全な実装ボディを隠蔽しながら、スキル名と記述のみを公開する。
1.2Bのコンパクトなフルテキスト検索/参照パイプラインであるSkillを提示する。
論文 参考訳(メタデータ) (2026-03-23T18:23:59Z) - Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity [54.95089105944234]
視覚言語モデル(VLM)は、過剰な視覚トークンの生成によって引き起こされる計算の非効率性に直面する。
2段階パイプラインを特徴とする訓練不要なSynergistic Importance-DiversityアプローチPruneSIDを提案する。
LLaVA-NeXTでは11.1%のトークン保持率で96.3%の精度、極端な圧縮速度(5.6%)で92.8%の精度を実現した。
論文 参考訳(メタデータ) (2026-03-10T10:31:58Z) - Gated Sparse Attention: Combining Computational Efficiency with Training Stability for Long-Context Language Models [0.0]
Gated Sparse Attention (GSA)はスパースとゲートの双方の利点を実現するアーキテクチャである。
GSAは、有界で解釈可能な選択スコアを生成するシグモイドアクティベーションを備えたゲート雷インデクサを組み込んでいる。
論文 参考訳(メタデータ) (2026-01-12T20:33:39Z) - D2Pruner: Debiased Importance and Structural Diversity for MLLM Token Pruning [49.16227597771663]
D2Prunerは、デバイアスされた重要性と構造的なプルーニングメカニズムを組み合わせたフレームワークである。
FLOPを74.2%削減し、元の性能の99.2%を維持した。
既存の手法に比べて63.53%も改善されている。
論文 参考訳(メタデータ) (2025-12-22T14:42:31Z) - CIMemories: A Compositional Benchmark for Contextual Integrity of Persistent Memory in LLMs [62.116710797795314]
大規模言語モデル(LLM)は、パーソナライゼーションとタスクパフォーマンスを向上させるために、過去のインタラクションから永続的なメモリを使用することが多い。
タスクコンテキストに基づいて,LLMがメモリからの情報フローを適切に制御するかどうかを評価するベンチマークであるCIMemoriesを提案する。
論文 参考訳(メタデータ) (2025-11-18T21:51:23Z) - TeaRAG: A Token-Efficient Agentic Retrieval-Augmented Generation Framework [62.66056331998838]
TeaRAGは、検索内容と推論ステップの両方を圧縮できるトークン効率のエージェントRAGフレームワークである。
報奨関数は,過剰な推論ステップをペナルティ化しながら,知識マッチング機構によって知識満足度を評価する。
論文 参考訳(メタデータ) (2025-11-07T16:08:34Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。