論文の概要: The Scaling Laws of Skills in LLM Agent Systems
- arxiv url: http://arxiv.org/abs/2605.16508v1
- Date: Fri, 15 May 2026 18:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:46.5915
- Title: The Scaling Laws of Skills in LLM Agent Systems
- Title(参考訳): LLMエージェントシステムにおけるスキルのスケーリング法則
- Authors: Charles Chen, Qiming Yu, Yuhang Gu, Zhuoye Huang, Hanjing Li, Hongyu Liu, Simin Liu, Jinhao Liu, Dengyun Peng, Jiangyi Wang, Zheng Yan, Fanqing Meng, Ethan Qin, Carl Che, Mengkang Hu,
- Abstract要約: エージェントスキルのスケーリングに関する2つの結合法則を同定する。
また,このライブラリのプロパティが,前処理の崩壊と下流の回復性の両方を制御していることを示す。
その結果, エージェントのパフォーマンスは, モデル能力だけでなく, スキルライブラリの構造, 粒度, 露出ポリシにも依存していることがわかった。
- 参考スコア(独自算出の注目度): 16.60186582474036
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: As agent systems scale, skills accumulate into large reusable libraries, yet their scaling laws remain poorly understood. Across 15 frontier LLMs, 1,141 real-world skills, and over 3M routing or execution decisions, we identify two coupled laws. Routing law: single-step routing accuracy decays logarithmically with library size ($R^2{>}0.97$ for all models), with errors progressing from local skill competition to cross-family drift and capture by overly general "black-hole skills". Execution law: before state realization, joint routing is approximately multiplicative, whereas correct execution can improve difficult downstream decisions by about $4{\times}$. A single parameter, the routing logarithmic decay slope $b$, couples the two laws: routing-side fits predict execution-side rescue across models, showing that the same library property controls both pre-execution collapse and downstream recoverability. The laws are actionable: law-guided optimization raises held-out routing accuracy from 71.3% to 91.7%, reduces hijack from 22.4% to 4.1%, and transfers directionally to downstream ClawBench and ClawMark execution settings, improving mean pass rate from 49.3% to 61.6% on ClawBench and from 28.4% to 34.5% on ClawMark. These results show that agent performance depends not only on model capability, but also on the structure, granularity, and exposure policy of the skill library.
- Abstract(参考訳): エージェントシステムがスケールするにつれて、スキルは大規模な再利用可能なライブラリに蓄積されるが、そのスケーリング法則はあまり理解されていない。
15のフロンティア LLM,1,141の現実世界スキル,および3Mのルーティングや実行決定の合計で、2つの結合法則を識別する。
ルーティング法則:シングルステップのルーティング精度は、ライブラリサイズと対数的に崩壊する(R^2{>}0.97$)。
実行法則(Execution law): 状態実現前は、ジョイントルーティングは概して乗法的であり、正しい実行は、ダウンストリームの決定を約4{\times}$で改善する。
ルーティング側適合は、モデル全体の実行側救済を予測し、同じライブラリプロパティが、事前実行の崩壊とダウンストリームの回復性の両方を制御していることを示す。
法指導による最適化は、保持されるルーティング精度を71.3%から91.7%に引き上げ、ハイジャックを22.4%から4.1%に減らし、下流のClawBenchとClawMarkに方向転換し、平均パスレートを49.3%から61.6%、ClawMarkは28.4%から34.5%に改善する。
これらの結果から, エージェント性能は, モデル能力だけでなく, スキルライブラリの構造, 粒度, 露出ポリシにも依存することがわかった。
関連論文リスト
- Validated Intent Compilation for Constrained Routing in LEO Mega-Constellations [1.0152838128195467]
本稿では,高レベルな演算子の意図を低レベルなルーティング制約に変換するエンドツーエンドシステムを提案する。
我々のシステムは,運用運用に必要な安全保証を維持しつつ,オペレータ意図とネットワーク構成のセマンティックなギャップを埋める。
論文 参考訳(メタデータ) (2026-04-08T16:29:25Z) - MetaClaw: Just Talk -- An Agent That Meta-Learns and Evolves in the Wild [74.7263562191605]
大規模言語モデル(LLM)エージェントは、複雑なタスクにますます使われている。
既存の方法は、知識を蒸留せずに生の軌跡を保存するか、静的なスキルライブラリを維持するか、または再訓練のために破壊的なダウンタイムを必要とする。
本稿では,基本的なLCMポリシと再利用可能な行動スキルのライブラリを共同で進化させるメタ学習フレームワークであるMetaClawを紹介する。
論文 参考訳(メタデータ) (2026-03-17T22:30:30Z) - Execution Is the New Attack Surface: Survivability-Aware Agentic Crypto Trading with OpenClaw-Style Local Executors [0.0]
Survivability-Aware Execution (SAE)は、OpenClawスタイルのシステムとスキル対応エージェントの実行層サバイバル標準である。
我々は、スコープ外ラベリングと再現可能なメトリクスを可能にするログ付きIntended Policy Specを通じて、デリゲーションギャップ(DG)を運用する。
SAEは、OpenClaw+skills時代の代理取引の安全性を再設定する: 上流の意図とスキルを信頼できないものとして扱い、アクションが副作用となる生存可能性を強化する。
論文 参考訳(メタデータ) (2026-03-10T15:54:01Z) - Governance Architecture for Autonomous Agent Systems: Threats, Framework, and Engineering Practice [0.0]
実行サンドボックス(L1)、意図検証(L2)、ゼロトラスト間認証(L3)、不変監査ロギング(L4)からなる4層フレームワークであるレイヤガバナンスアーキテクチャ(LGA)を提案する。
LGAを評価するために、1,081のツールコールサンプル(インジェクション、RAG中毒、悪意のあるスキルプラグインなど)のベンチマーク(中国語のオリジナル、機械翻訳による英語)を構築し、それをオープンソースの代表的なエージェントフレームワークであるOpenClawに適用する。
論文 参考訳(メタデータ) (2026-03-07T13:05:14Z) - Traversal-as-Policy: Log-Distilled Gated Behavior Trees as Externalized, Verifiable Policies for Safe, Robust, and Efficient Agents [18.383906296536185]
Traversal-as-Policy: サンドボックス化されたOpenHandsの実行ログを単一の実行可能なGated Behavior Tree (GBT)に蒸留する
各ノードは状態条件のアクションマクロを符号化し、成功した軌道からマージチェックを行う。
実行時に、軽量なトラバーサは、子マクロに対するベースモデルの意図と一致します。
論文 参考訳(メタデータ) (2026-01-30T16:25:08Z) - Relative Scaling Laws for LLMs [91.73497548097775]
スケーリング法則は、追加のデータ、パラメータ、計算によって言語モデルがどのように改善されるかを記述する。
相対的なスケーリング法則を導入し、テスト分布間のパフォーマンスギャップをスケールで追跡する。
これらの結果は、スケーリングは全体的なパフォーマンスを改善するが、普遍的等化器ではないことを示している。
論文 参考訳(メタデータ) (2025-10-28T16:55:22Z) - Predictable Scale: Part II, Farseer: A Refined Scaling Law in Large Language Models [62.3458061002951]
本稿では,新たなスケール法であるFarseerを紹介した。
モデル損失曲面 $L(N,D)$ を体系的に構築することにより、Farseer は以前の法則よりも経験的データに非常によく適合する。
我々の手法は正確で頑健で、非常に一般化可能な予測をもたらし、優れた外挿能力を示す。
論文 参考訳(メタデータ) (2025-06-12T17:59:23Z) - LoRA Done RITE: Robust Invariant Transformation Equilibration for LoRA Optimization [78.93425154518705]
低ランク適応 (LoRA) は、メモリ要求を低減し、LLMのパラメータ効率の高い微調整法である。
本稿では,LoRA最適化のための適応行列プレコンディショニング手法であるLoRA-RITEを紹介する。
論文 参考訳(メタデータ) (2024-10-27T22:57:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。