論文の概要: Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents
- arxiv url: http://arxiv.org/abs/2605.30723v1
- Date: Fri, 29 May 2026 01:34:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 20:56:50.327863
- Title: Skill is Not One-Size-Fits-All: Model-Aware Skill Alignment for LLM Agents
- Title(参考訳): スキルは1サイズではない - LLMエージェントのモデル認識スキルアライメント
- Authors: Jianxiang Yu, Jiapeng Zhu, Bochen Lin, Qier Cui, Zichen Ding, Xiang Li,
- Abstract要約: LLMエージェントは、長期の対話的タスクのパフォーマンスを向上させるために、意思決定時に取得した外部キュレートされたスキル・プロデューラルな指示を徐々に取り出す。
エージェントの重みを変更することなく、各ターゲットのバックボーンにスキルを適応させるフレームワークであるMASA Model-Aware Skill Alignmentを提案する。
MASAは、最強のベースラインで最大25.8ポイントを獲得して、常に最高の総合成績を収めている。
- 参考スコア(独自算出の注目度): 9.144810798419975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM agents increasingly retrieve externally curated skills-procedural instructions retrieved at decision time-to improve performance on long-horizon interactive tasks. Existing skill libraries are typically treated as model-agnostic, reusing the same skill formulations across backbones with substantially different capacities and behaviors. However, our controlled experiments across multiple model scales show that skill effectiveness is strongly model-dependent: a skill that benefits one backbone can harm another. Motivated by this observation, we propose MASA Model-Aware Skill Alignment, a framework that adapts skills to each target backbone without modifying agent weights. MASA operates in two stages: (1) a hierarchical skill evolution pipeline that iteratively rewrites general and task-specific skills using hill climbing and UCB-driven tree search, guided by environment feedback and model capability profiles; and (2) a lightweight model-conditioned skill rewriter trained on evolution trajectories to reproduce the adaptation in a single forward pass. Experiments across three interactive environments and four backbones show that MASA consistently achieves the best overall performance, with gains of up to 25.8 points over the strongest baseline. The learned rewriter further generalizes to unseen tasks and environments without additional search, consistently outperforming a much larger teacher LLM at a fraction of the inference cost.
- Abstract(参考訳): LLMエージェントは、長期の対話的タスクのパフォーマンスを改善するために、意思決定時に取得した外部キュレートされたスキル・プロデューラルな指示を徐々に取り出す。
既存のスキルライブラリは通常、モデルに依存しないものとして扱われる。
しかし、複数のモデルスケールで制御された実験では、スキルの有効性がモデルに依存していることが示されています。
本研究の目的は,エージェントの重みを変更することなく,各ターゲットのバックボーンにスキルを適応させるフレームワークであるMASA Model-Aware Skill Alignmentを提案することである。
MASA は,(1) 丘登りと UCB による木探索による一般的なスキルとタスク固有のスキルを反復的に書き直す階層的スキル進化パイプライン,(2) 進化軌道で訓練された軽量なモデル条件のスキルリライターを用いて,単一の前方通過で適応を再現する。
3つのインタラクティブな環境と4つのバックボーンにわたる実験により、MASAは最強のベースラインで最大25.8ポイントのゲインを獲得し、常に最高のパフォーマンスを達成している。
学習されたリライターは、余分な検索をすることなく、見えないタスクや環境にさらに一般化し、推論コストのごく一部で、ずっと大きなLLMよりも優れた結果が得られる。
関連論文リスト
- Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - ARISE: Agent Reasoning with Intrinsic Skill Evolution in Hierarchical Reinforcement Learning [17.98540130851038]
ARISE(Agent Reasoning via Intrinsic Skill Evolution)は階層的な強化学習フレームワークである。
共有ポリシを使用して、ハイレベルなスキルを管理し、低レベルなレスポンスを生成する。
階層的な報酬設計は、推論能力と図書館品質の共進化を導く。
論文 参考訳(メタデータ) (2026-03-17T02:03:17Z) - SkillRL: Evolving Agents via Recursive Skill-Augmented Reinforcement Learning [83.98129545309277]
生経験と政策改善のギャップを埋めるフレームワークであるSkillRLを提案する。
本手法では,階層型スキルライブラリであるSkillBankを構築するために,経験に基づく蒸留機構を導入する。
ALF、WebShop、および7つの検索強化タスクの実験結果は、SkillRLが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2026-02-09T03:17:17Z) - Reinforcement Learning for Self-Improving Agent with Skill Library [14.717149089634718]
大規模言語モデル(LLM)に基づくエージェントは、複雑な推論とマルチターン相互作用において顕著な機能を示した。
有望なアプローチの1つは、エージェントが新しいスキルを学び、検証し、適用できるスキルライブラリを実装することである。
スキルライブラリによるエージェントの自己改善能力を高めるための強化学習(RL)に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2025-12-18T21:58:19Z) - BOFA: Bridge-Layer Orthogonal Low-Rank Fusion for CLIP-Based Class-Incremental Learning [84.56022893225422]
CIL(Class-Incremental Learning)は,従来の知識を忘れずに,新たなカテゴリを継続的に学習することを目的としている。
CLIP から CIL への視覚言語モデルの適用には,次の2つの大きな課題がある。(1) 下流タスクへの適応には,新たな学習可能なモジュールを必要とする場合が多いこと,2) モデル複雑性の増大と忘れやすいこと,2) マルチモーダル表現は相補的な長所を提供する一方で,既存の手法では,視覚的およびテキスト的モダリティを効果的に統合する可能性を完全には実現できていない。
論文 参考訳(メタデータ) (2025-11-14T15:51:40Z) - SkillVerse : Assessing and Enhancing LLMs with Tree Evaluation [70.27631454256024]
SkillVerseは、特定の能力におけるモデル習熟度を理解するための教師なしツリー構造化診断フレームワークである。
任意のレベルの粒度の習熟度を考慮すれば、SkillVerseはモダンな大規模モデルの振る舞いの洞察を生み出す柔軟性がある。
論文 参考訳(メタデータ) (2025-05-31T00:08:59Z) - Learning Adaptive Dexterous Grasping from Single Demonstrations [27.806856958659054]
この作業は、2つの重要な課題に対処する。人間による限られたデモンストレーションから、効率的なスキル獲得と、コンテキスト駆動のスキル選択だ。
AdaDexGraspは、スキルごとに1人の人間のデモからスキルを把握できるライブラリを学び、視覚言語モデル(VLM)を使用して最も適切なものを選択する。
我々はAdaDexGraspをシミュレーションと実世界の両方の環境で評価し、RLの効率を大幅に改善し、さまざまなオブジェクト構成をまたいだ人間的な把握戦略の学習を可能にした。
論文 参考訳(メタデータ) (2025-03-26T04:05:50Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Hierarchical Few-Shot Imitation with Skill Transition Models [66.81252581083199]
FIST(Few-shot Imitation with Skill Transition Models)は、オフラインデータからスキルを抽出し、それらを利用して見えないタスクに一般化するアルゴリズムである。
本稿では,FISTが新たなタスクに一般化し,ナビゲーション実験において従来のベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2021-07-19T15:56:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。