論文の概要: Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2605.28424v1
- Date: Wed, 27 May 2026 12:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.058197
- Title: Skill0.5: Joint Skill Internalization and Utilization for Out-of-Distribution Generalization in Agentic Reinforcement Learning
- Title(参考訳): Skill0.5:エージェント強化学習における共同スキル内在化とアウト・オブ・ディストリビューション・ジェネリゼーションの活用
- Authors: Jiapeng Zhu, Jianxiang Yu, Yibo Zhao, Chengcheng Han, Qi Gu, Xunliang Cai, Xiang Li, Weining Qian,
- Abstract要約: Skill0.5は、一般的なスキル内部化とタスク固有のスキル利用を組み合わせることで、スキル処理を明確に区別する新しいエージェントRLフレームワークである。
特典蒸留によって一般的なスキルを内包し、ハードタスクの認知基盤を構築すると同時に、ショートカットをペナルティ化し、特定のスキル利用を強制するための簡単なタスクを診断する。
ALFWorldとWebShopの実験では、Skill0.5はメモリベースのRLベースラインとスキルベースのRLベースラインの両方を上回っている。
- 参考スコア(独自算出の注目度): 25.966432263031397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Equipping large language models with explicit skills has emerged as a promising paradigm for enabling autonomous agents to solve complex tasks. Agent skills can be inherently divided into general skills for broad cognitive transfer and task-specific skills for dynamic execution. However, existing skill-based reinforcement learning (RL) methods typically force a rigid choice between full externalization, which incurs prohibitive context overhead, and full internalization, which risks overfitting and knowledge conflicts. To address this dilemma, we propose Skill0.5, a novel agentic RL framework that explicitly differentiates skill treatments by combining general skill internalization with task-specific skill utilization. Driven by a dynamic, difficulty-aware router, Skill0.5 streams tasks into distinct mastery tiers to apply tailored optimization strategies: it internalizes general skills via privileged distillation to build a cognitive foundation for hard tasks, while using diagnostic probing on easy tasks to penalize shortcuts and enforce specific skill utilization. Experiments on ALFWorld and WebShop demonstrate that Skill0.5 outperforms both memory-based and skill-based RL baselines, yielding performance improvements across both in-distribution and out-of-distribution scenarios.
- Abstract(参考訳): 大きな言語モデルを明示的なスキルで取得することは、自律的なエージェントが複雑なタスクを解くための有望なパラダイムとして現れました。
エージェントスキルは、幅広い認知伝達のための一般的なスキルと、動的実行のためのタスク固有のスキルに本質的に分けることができる。
しかしながら、既存のスキルベース強化学習(RL)手法は、一般的に、禁止されたコンテキストオーバーヘッドを引き起こす完全な外部化と、過度な適合と知識の衝突を引き起こす完全な内部化とを厳格に選択する。
このジレンマに対処するために,汎用スキル内在化とタスク固有のスキル利用を組み合わせることで,スキル処理を明確に区別する新しいエージェントRLフレームワークであるSkill0.5を提案する。
Skill0.5は動的で難易度の高いルータによって駆動され、タスクを個別の熟達層にストリームして、カスタマイズされた最適化戦略を適用する。
ALFWorldとWebShopの実験では、Skill0.5はメモリベースのRLベースラインとスキルベースのRLベースラインの両方でパフォーマンスが向上し、インディストリビューションとアウトオブディストリビューションの両方のシナリオでパフォーマンスが改善されている。
関連論文リスト
- SKILLC: Learning Autonomous Skill Internalization in LLM Agents via Contrastive Credit Assignment [4.336665585098371]
本稿では,このコントラストを内部化のための直接学習信号に変換するContrastive Skill Credit Assignment (CSCA) に基づくフレームワークであるSkillCを提案する。
textscSkillCは、同じポリシー更新内でアクティブなスキルタイプからのタスクに対して、ペア化されたスキル注入とスキルフリーのロールアウトをサンプリングする。
スムーズな検証レベル信号は、帰属強度、ロールアウトアロケーション、単調なアクティブセットプルーニングよりも適応的なカリキュラムを駆動する。
論文 参考訳(メタデータ) (2026-05-27T03:21:19Z) - Dynamic Skill Lifecycle Management for Agentic Reinforcement Learning [11.76119198695392]
大規模な言語モデルエージェントは、複雑なタスクを解決するために、ますます外部スキルに依存している。
既存の手法では、外部スキルは永続的なガイダンスとして蓄積するか、ポリシーに内部化され、ゼロスキル推論につながると仮定している。
パラメトリック能力の制限とスキル間の不均一な限界貢献により、最適なアクティブスキルセットは非モノトニック、タスク、ステージ依存である。
論文 参考訳(メタデータ) (2026-05-11T17:55:13Z) - Skill-R1: Agent Skill Evolution via Reinforcement Learning [84.35984979949502]
Skill-R1は、検証可能な報酬からインスタンスレベルの繰り返しスキル最適化のための強化学習フレームワークである。
オープンソースモデルとクローズドソースモデルの両方とのブラックボックス互換性を維持しつつ、モデルレベルの更新よりも大幅に安価に適応できる。
論文 参考訳(メタデータ) (2026-05-10T06:19:15Z) - From Context to Skills: Can Language Models Learn from Context Skillfully? [56.5857437218136]
Ctx2Skillは、コンテキスト固有のスキルを自律的に発見、洗練、選択する自己進化フレームワークである。
より良い文脈学習能力を得るために、どんな言語モデルにもプラグインできる。
論文 参考訳(メタデータ) (2026-04-30T09:53:15Z) - Skill Retrieval Augmentation for Agentic AI [28.71123853744993]
既存のエージェントシステムでは、スキルを取り入れるための主要な戦略は、コンテキストウィンドウ内で利用可能なスキルを列挙することである。
本稿では,SRA(Skill Retrieval Augmentation, SRA)を定式化し, エージェントが要求に応じて外部スキルコーパスから適切なスキルを動的に取得し, 取り入れ, 適用する新しいパラダイムについて述べる。
SRA-Benchは、完全なSRAパイプラインの評価のための最初のベンチマークであり、スキル検索、スキルの取り込み、エンドタスクの実行をカバーしている。
論文 参考訳(メタデータ) (2026-04-27T15:19:59Z) - SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization [61.37478254738943]
推論時のスキル向上は基本的に制限されている。
SKILL0は,スキル内部化のためのコンテキスト内強化学習フレームワークである。
SKILL0は標準のRLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2026-04-02T17:03:05Z) - Acquiring Diverse Skills using Curriculum Reinforcement Learning with Mixture of Experts [58.220879689376744]
強化学習(Reinforcement Learning, RL)は, 優れた政策獲得のための強力なアプローチである。
多様なスキルを学習するための textbfDiverse textbfSkill textbfLearning (Di-SkilL) を提案する。
本稿では,Di-SkilLが多種多様なパフォーマンススキルを学習できるロボットシミュレーションタスクについて述べる。
論文 参考訳(メタデータ) (2024-03-11T17:49:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。