論文の概要: Skill Expansion and Composition in Parameter Space
- arxiv url: http://arxiv.org/abs/2502.05932v1
- Date: Sun, 09 Feb 2025 15:22:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:33:32.855820
- Title: Skill Expansion and Composition in Parameter Space
- Title(参考訳): パラメータ空間におけるスキル展開と構成
- Authors: Tenglong Liu, Jianxiong Li, Yinan Zheng, Haoyi Niu, Yixing Lan, Xin Xu, Xianyuan Zhan,
- Abstract要約: Parametric Skill Expansion and Composition (PSEC)はエージェントの能力を反復的に進化させるように設計された新しいフレームワークである。
PSECは、事前知識を活用して、新しい課題に効果的に取り組む能力が優れている。
- 参考スコア(独自算出の注目度): 17.016614374151747
- License:
- Abstract: Humans excel at reusing prior knowledge to address new challenges and developing skills while solving problems. This paradigm becomes increasingly popular in the development of autonomous agents, as it develops systems that can self-evolve in response to new challenges like human beings. However, previous methods suffer from limited training efficiency when expanding new skills and fail to fully leverage prior knowledge to facilitate new task learning. In this paper, we propose Parametric Skill Expansion and Composition (PSEC), a new framework designed to iteratively evolve the agents' capabilities and efficiently address new challenges by maintaining a manageable skill library. This library can progressively integrate skill primitives as plug-and-play Low-Rank Adaptation (LoRA) modules in parameter-efficient finetuning, facilitating efficient and flexible skill expansion. This structure also enables the direct skill compositions in parameter space by merging LoRA modules that encode different skills, leveraging shared information across skills to effectively program new skills. Based on this, we propose a context-aware module to dynamically activate different skills to collaboratively handle new tasks. Empowering diverse applications including multi-objective composition, dynamics shift, and continual policy shift, the results on D4RL, DSRL benchmarks, and the DeepMind Control Suite show that PSEC exhibits superior capacity to leverage prior knowledge to efficiently tackle new challenges, as well as expand its skill libraries to evolve the capabilities. Project website: https://ltlhuuu.github.io/PSEC/.
- Abstract(参考訳): 人間は、新しい課題に対処し、問題を解決しながらスキルを開発するために、事前知識の再利用に長けている。
このパラダイムは、人間のような新しい課題に応えて自己進化できるシステムを開発することで、自律エージェントの開発において、ますます人気が高まっている。
しかし、従来の手法は、新しいスキルを拡大する際の訓練効率の制限に悩まされ、新しいタスク学習を促進するために、事前知識を十分に活用できない。
本稿では、エージェントの能力を反復的に進化させ、管理可能なスキルライブラリを維持することで、新しい課題に効果的に取り組むために設計された新しいフレームワークであるParametric Skill Expansion and Composition(PSEC)を提案する。
このライブラリは、パラメータ効率の良い微調整において、プラグアンドプレイのローランド適応(LoRA)モジュールとしてスキルプリミティブを段階的に統合し、効率的で柔軟なスキル拡張を容易にする。
この構造は、異なるスキルをエンコードするLoRAモジュールをマージすることで、パラメータ空間の直接的なスキル構成を可能にし、スキル間の共有情報を活用して、新しいスキルを効果的にプログラムする。
そこで本研究では,異なるスキルを動的に活性化し,新たなタスクを協調的に処理するコンテキスト認識モジュールを提案する。
多目的合成、動的シフト、継続ポリシーシフト、D4RL、DSRLベンチマーク、DeepMind Control Suiteなどの多様なアプリケーションを活用することで、PSECは事前知識を活用して新たな課題に効果的に対処し、スキルライブラリを拡張して能力の進化を図っている。
プロジェクトサイト: https://ltlhuuu.github.io/PSEC/。
関連論文リスト
- Latent-Predictive Empowerment: Measuring Empowerment without a Simulator [56.53777237504011]
我々は、より実用的な方法でエンパワーメントを計算するアルゴリズムであるLatent-Predictive Empowerment(LPE)を提案する。
LPEは、スキルと国家間の相互情報の原則的な置き換えである目的を最大化することで、大きなスキルセットを学習する。
論文 参考訳(メタデータ) (2024-10-15T00:41:18Z) - Learn it or Leave it: Module Composition and Pruning for Continual Learning [48.07144492109635]
MoCL-Pは知識統合と計算オーバーヘッドのバランスをとる軽量な連続学習手法である。
評価の結果,MoCL-Pは最先端性能を実現し,パラメータ効率を最大3倍向上することがわかった。
論文 参考訳(メタデータ) (2024-06-26T19:18:28Z) - I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - Agentic Skill Discovery [19.5703917813767]
言語条件付きロボット技術により、Large Language Models (LLMs) の高レベル推論を低レベルロボット制御に適用することができる。
残る課題は、さまざまな基本的なスキルを取得することです。
LLMによって完全に駆動されるスキル発見のための新しいフレームワークを導入する。
論文 参考訳(メタデータ) (2024-05-23T19:44:03Z) - Customizable Combination of Parameter-Efficient Modules for Multi-Task
Learning [11.260650180067278]
タスク共通スキルとタスク特化スキルを組み合わせた,新しいアプローチを提案する。
スキル割り当て行列を共同で学習する。
以上の結果から, C-Polyは, 完全共有, タスク特化, スキル非差別性ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2023-12-06T02:47:56Z) - Variational Curriculum Reinforcement Learning for Unsupervised Discovery
of Skills [25.326624139426514]
本稿では,VUVC(Value Uncertainty Vari Curriculum Curriculum)と呼ばれる情報理論に基づく教師なしスキル発見手法を提案する。
規則性条件下では、VUVCは、均一なカリキュラムに比べて訪問状態のエントロピーの増加を加速させる。
また,本手法によって発見された技術は,ゼロショット設定で現実のロボットナビゲーションタスクを達成できることを実証した。
論文 参考訳(メタデータ) (2023-10-30T10:34:25Z) - Hierarchical Empowerment: Towards Tractable Empowerment-Based Skill
Learning [65.41865750258775]
汎用エージェントは、大量のスキルのレパートリーを必要とする。
我々は、コンピューティングのエンパワーメントをより魅力的にする新しいフレームワーク、階層エンパワーメントを導入します。
一般的なアリナビゲーション領域では、我々の4つのレベルエージェントは、以前の作業よりも2桁大きい表面積をカバーするスキルを学ぶことができる。
論文 参考訳(メタデータ) (2023-07-06T02:27:05Z) - Hierarchical Deep Counterfactual Regret Minimization [53.86223883060367]
本稿では,大規模な状態空間や深部ゲームツリーを含むタスクにおいて,学習効率を向上させる革新的な手法であるDeep CFRの最初の階層バージョンを紹介する。
HDCFRのこれまでの研究よりも顕著な利点は、事前に定義された(人間的な)専門知識による学習の促進と、同様のタスクに移行可能なスキルの獲得を促進する能力である。
論文 参考訳(メタデータ) (2023-05-27T02:05:41Z) - ASPiRe:Adaptive Skill Priors for Reinforcement Learning [28.376277797807706]
ASPiRe(Adaptive Skill Prior for RL)は、強化学習を加速するための新しいアプローチである。
我々のフレームワークは、専門的なデータセットのコレクションから、異なる区別スキルのライブラリを学習する。
我々の実験は、ASPiReが新しい下流タスクの学習を著しく加速できることを示した。
論文 参考訳(メタデータ) (2022-09-30T03:22:27Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Efficient Feature Transformations for Discriminative and Generative
Continual Learning [98.10425163678082]
継続的学習のための簡易タスク特化機能マップ変換戦略を提案する。
これらは新しいタスクを学習するための強力な柔軟性を提供し、ベースアーキテクチャに最小パラメータを追加することで実現される。
本手法の有効性と効率を,判別(cifar-100およびimagenet-1k)および生成的タスクの一連の実験を用いて実証する。
論文 参考訳(メタデータ) (2021-03-25T01:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。