論文の概要: Skill Expansion and Composition in Parameter Space
- arxiv url: http://arxiv.org/abs/2502.05932v2
- Date: Sun, 16 Mar 2025 11:57:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.292644
- Title: Skill Expansion and Composition in Parameter Space
- Title(参考訳): パラメータ空間におけるスキル展開と構成
- Authors: Tenglong Liu, Jianxiong Li, Yinan Zheng, Haoyi Niu, Yixing Lan, Xin Xu, Xianyuan Zhan,
- Abstract要約: Parametric Skill Expansion and Composition (PSEC)はエージェントの能力を反復的に進化させるように設計された新しいフレームワークである。
PSECは、事前知識を活用して、新しい課題に効果的に取り組む能力が優れている。
- 参考スコア(独自算出の注目度): 17.016614374151747
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Humans excel at reusing prior knowledge to address new challenges and developing skills while solving problems. This paradigm becomes increasingly popular in the development of autonomous agents, as it develops systems that can self-evolve in response to new challenges like human beings. However, previous methods suffer from limited training efficiency when expanding new skills and fail to fully leverage prior knowledge to facilitate new task learning. In this paper, we propose Parametric Skill Expansion and Composition (PSEC), a new framework designed to iteratively evolve the agents' capabilities and efficiently address new challenges by maintaining a manageable skill library. This library can progressively integrate skill primitives as plug-and-play Low-Rank Adaptation (LoRA) modules in parameter-efficient finetuning, facilitating efficient and flexible skill expansion. This structure also enables the direct skill compositions in parameter space by merging LoRA modules that encode different skills, leveraging shared information across skills to effectively program new skills. Based on this, we propose a context-aware module to dynamically activate different skills to collaboratively handle new tasks. Empowering diverse applications including multi-objective composition, dynamics shift, and continual policy shift, the results on D4RL, DSRL benchmarks, and the DeepMind Control Suite show that PSEC exhibits superior capacity to leverage prior knowledge to efficiently tackle new challenges, as well as expand its skill libraries to evolve the capabilities. Project website: https://ltlhuuu.github.io/PSEC/.
- Abstract(参考訳): 人間は、新しい課題に対処し、問題を解決しながらスキルを開発するために、事前知識の再利用に長けている。
このパラダイムは、人間のような新しい課題に応えて自己進化できるシステムを開発することで、自律エージェントの開発において、ますます人気が高まっている。
しかし、従来の手法は、新しいスキルを拡大する際の訓練効率の制限に悩まされ、新しいタスク学習を促進するために、事前知識を十分に活用できない。
本稿では、エージェントの能力を反復的に進化させ、管理可能なスキルライブラリを維持することで、新しい課題に効果的に取り組むために設計された新しいフレームワークであるParametric Skill Expansion and Composition(PSEC)を提案する。
このライブラリは、パラメータ効率の良い微調整において、プラグアンドプレイのローランド適応(LoRA)モジュールとしてスキルプリミティブを段階的に統合し、効率的で柔軟なスキル拡張を容易にする。
この構造は、異なるスキルをエンコードするLoRAモジュールをマージすることで、パラメータ空間の直接的なスキル構成を可能にし、スキル間の共有情報を活用して、新しいスキルを効果的にプログラムする。
そこで本研究では,異なるスキルを動的に活性化し,新たなタスクを協調的に処理するコンテキスト認識モジュールを提案する。
多目的合成、動的シフト、継続ポリシーシフト、D4RL、DSRLベンチマーク、DeepMind Control Suiteなどの多様なアプリケーションを活用することで、PSECは事前知識を活用して新たな課題に効果的に対処し、スキルライブラリを拡張して能力の進化を図っている。
プロジェクトサイト: https://ltlhuuu.github.io/PSEC/。
関連論文リスト
- SPECI: Skill Prompts based Hierarchical Continual Imitation Learning for Robot Manipulation [3.1997825444285457]
動的非構造環境における現実世界のロボット操作は、進化するオブジェクト、シーン、タスクに対して生涯の適応性を必要とする。
伝統的な模倣学習は、生涯適応に不適な静的な訓練パラダイムに依存している。
我々は,ロボット操作のための新しいエンドツーエンドの階層型CILポリシーアーキテクチャである,スキル・プロンプトに基づく階層型連続模倣学習(SPECI)を提案する。
論文 参考訳(メタデータ) (2025-04-22T03:30:38Z) - Exploiting Mixture-of-Experts Redundancy Unlocks Multimodal Generative Abilities [69.26544016976396]
我々は、新しいモダリティを学ぶための追加能力の源として、Mixture-of-Experts(MoEs)内の冗長性を利用する。
我々は、新しいモダリティのトークンのみに低ランク適応を適用することで、オリジナルの言語生成能力を保ちます。
論文 参考訳(メタデータ) (2025-03-28T15:21:24Z) - Pretrained Bayesian Non-parametric Knowledge Prior in Robotic Long-Horizon Reinforcement Learning [10.598207472087578]
強化学習(Reinforcement Learning, RL)の手法は通常、新しいタスクをゼロから学習する。
この研究は、潜在的な原始的なスキルモーションを未知の特徴を持つ非パラメトリックな特性を持つものとしてモデル化する手法を導入する。
非パラメトリックモデル、特にDirichlet Process Mixturesは、出生とマージによって強化され、スキルの多様な性質を効果的に捉えるための事前トレーニングに使用される。
論文 参考訳(メタデータ) (2025-03-27T20:43:36Z) - Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - KIF: Knowledge Identification and Fusion for Language Model Continual Learning [41.28933724210434]
言語モデルのための新しいフレームワーク、Knowledge Identification and Fusion (KIF)を紹介する。
KIFはパラメータ依存に基づいてモデルを'スキルユニット'に分離し、より正確な制御を可能にする。
新たな課題に対するスキルユニットの重要性の分布を確認するために,新しいグループ単位の知識識別技術を採用している。
その結果、KIFは、事前知識の保持と、新しいタスクの卓越とを最適なバランスで達成する。
論文 参考訳(メタデータ) (2024-08-09T17:44:45Z) - Learn it or Leave it: Module Composition and Pruning for Continual Learning [48.07144492109635]
MoCL-Pは知識統合と計算オーバーヘッドのバランスをとる軽量な連続学習手法である。
評価の結果,MoCL-Pは最先端性能を実現し,パラメータ効率を最大3倍向上することがわかった。
論文 参考訳(メタデータ) (2024-06-26T19:18:28Z) - Customizable Combination of Parameter-Efficient Modules for Multi-Task
Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。
スキル割り当て行列を共同で学習する。
以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-06T02:47:56Z) - Variational Curriculum Reinforcement Learning for Unsupervised Discovery
of Skills [25.326624139426514]
本稿では,VUVC(Value Uncertainty Vari Curriculum Curriculum)と呼ばれる情報理論に基づく教師なしスキル発見手法を提案する。
規則性条件下では、VUVCは、均一なカリキュラムに比べて訪問状態のエントロピーの増加を加速させる。
また,本手法によって発見された技術は,ゼロショット設定で現実のロボットナビゲーションタスクを達成できることを実証した。
論文 参考訳(メタデータ) (2023-10-30T10:34:25Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - ASPiRe:Adaptive Skill Priors for Reinforcement Learning [28.376277797807706]
ASPiRe(Adaptive Skill Prior for RL)は、強化学習を加速するための新しいアプローチである。
我々のフレームワークは、専門的なデータセットのコレクションから、異なる区別スキルのライブラリを学習する。
我々の実験は、ASPiReが新しい下流タスクの学習を著しく加速できることを示した。
論文 参考訳(メタデータ) (2022-09-30T03:22:27Z) - Meta-Learning Parameterized Skills [12.845774297648738]
本稿では,伝達可能なパラメータ化スキルを学習し,それらを新しいアクション空間に合成することを目的とした,新しいスキル学習アルゴリズムを提案する。
本研究では,提案アルゴリズムによってエージェントが難易度の高い長期作業(障害物コースとロボット操作)を解くことができることを実証的に実証する。
論文 参考訳(メタデータ) (2022-06-07T21:30:58Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。