論文の概要: Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning
- arxiv url: http://arxiv.org/abs/2506.05985v1
- Date: Fri, 06 Jun 2025 11:13:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.444566
- Title: Dynamic Mixture of Progressive Parameter-Efficient Expert Library for Lifelong Robot Learning
- Title(参考訳): 生涯ロボット学習のためのプログレッシブパラメータ-効率的なエキスパートライブラリの動的混合
- Authors: Yuheng Lei, Sitong Mao, Shunbo Zhou, Hongyuan Zhang, Xuelong Li, Ping Luo,
- Abstract要約: ジェネラリストのエージェントは生涯を通じて継続的に学び、適応し、破滅的な忘れを最小化しながら効率的な転送を実現する必要がある。
従来の研究は、シングルタスク適応のためのパラメータ効率の良い微調整を探索し、少数のパラメータで凍結事前訓練されたモデルを効果的に操る。
本稿では,生涯にわたるロボット学習のためのDMPEL(Dynamic Mixture of Progressive Efficient Expert Library)を提案する。
我々のフレームワークは、トレーニング可能な最小限のパラメータと記憶を生かしながら、継続的な適応を通して成功率において、最先端の生涯学習方法よりも優れています。
- 参考スコア(独自算出の注目度): 69.81148368677593
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A generalist agent must continuously learn and adapt throughout its lifetime, achieving efficient forward transfer while minimizing catastrophic forgetting. Previous work within the dominant pretrain-then-finetune paradigm has explored parameter-efficient fine-tuning for single-task adaptation, effectively steering a frozen pretrained model with a small number of parameters. However, in the context of lifelong learning, these methods rely on the impractical assumption of a test-time task identifier and restrict knowledge sharing among isolated adapters. To address these limitations, we propose Dynamic Mixture of Progressive Parameter-Efficient Expert Library (DMPEL) for lifelong robot learning. DMPEL progressively learn a low-rank expert library and employs a lightweight router to dynamically combine experts into an end-to-end policy, facilitating flexible behavior during lifelong adaptation. Moreover, by leveraging the modular structure of the fine-tuned parameters, we introduce coefficient replay to guide the router in accurately retrieving frozen experts for previously encountered tasks, thereby mitigating catastrophic forgetting. This method is significantly more storage- and computationally-efficient than applying demonstration replay to the entire policy. Extensive experiments on the lifelong manipulation benchmark LIBERO demonstrate that our framework outperforms state-of-the-art lifelong learning methods in success rates across continual adaptation, while utilizing minimal trainable parameters and storage.
- Abstract(参考訳): ジェネラリストのエージェントは生涯を通して継続的に学び、適応し、破滅的な忘れを最小化しながら効率的な転送を実現する必要がある。
支配的なプレトレイン-テーン-ファインチューンパラダイムにおける以前の研究は、シングルタスク適応のためのパラメータ効率の微調整を探索し、少数のパラメータを持つ凍結事前学習モデルを効果的に操る。
しかし、生涯学習の文脈では、これらの手法はテストタイムタスク識別子の非現実的な仮定に依存し、独立したアダプタ間の知識共有を制限する。
これらの制約に対処するため、生涯にわたるロボット学習のためのプログレッシブパラメータ効率エキスパートライブラリ(DMPEL)の動的混合を提案する。
DMPELは、低ランクの専門家ライブラリを徐々に学習し、軽量ルータを使用して、専門家をエンドツーエンドのポリシーに動的に結合し、生涯にわたる適応時の柔軟な振る舞いを促進する。
さらに、微調整パラメータのモジュラ構造を活用することにより、以前に遭遇したタスクの凍結専門家の正確な検索をルータに誘導する係数再生を導入し、破滅的な忘れを緩和する。
この方法は, 実演再生をポリシー全体に適用するよりも, 記憶効率と計算効率が有意に高い。
寿命評価ベンチマークLIBEROの広範囲な実験により、我々のフレームワークは、トレーニング可能な最小限のパラメータと記憶を生かしながら、継続的な適応を通して、最先端の生涯学習手法よりも優れた性能を発揮することが示された。
関連論文リスト
- Beyond Freezing: Sparse Tuning Enhances Plasticity in Continual Learning with Pre-Trained Models [10.904981532789824]
事前訓練されたモデルによる継続的な学習は、シーケンシャルなタスクにまたがる効率的な適応を大いに約束する。
既存のアプローチはPTMを凍結し、プロンプトやアダプタのような補助モジュールに依存している。
MIST(Mutual Information-Guided Sparse Tuning)は,PTMパラメータのサブセットを選択的に更新するプラグイン・アンド・プレイ方式である。
論文 参考訳(メタデータ) (2025-05-26T13:09:25Z) - LLaVA-CMoE: Towards Continual Mixture of Experts for Large Vision-Language Models [21.888139819188105]
LLaVA-CMoEは、大規模言語モデルの継続的な学習フレームワークである。
Probe-Guided Knowledge Extensionメカニズムは、いつ、どこで新しいエキスパートを追加するべきかを決定する。
Probabilistic Task Locatorは各タスクを専用軽量ルータに割り当てる。
論文 参考訳(メタデータ) (2025-03-27T07:36:11Z) - Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。
事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。
次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文 参考訳(メタデータ) (2024-08-21T06:48:38Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Meta Learning MPC using Finite-Dimensional Gaussian Process
Approximations [0.9539495585692008]
制御における学習手法の実践的適用性を阻害する2つの重要な要因は、その計算複雑性と、目に見えない条件に対する限定的な一般化能力である。
本稿では,従来のタスクからのデータを活用するシステムモデルを学習することにより,適応型モデル予測制御のためのメタラーニング手法を提案する。
論文 参考訳(メタデータ) (2020-08-13T15:59:38Z) - AdaS: Adaptive Scheduling of Stochastic Gradients [50.80697760166045]
我々は、textit "knowledge gain" と textit "mapping condition" の概念を導入し、Adaptive Scheduling (AdaS) と呼ばれる新しいアルゴリズムを提案する。
実験によると、AdaSは派生した指標を用いて、既存の適応学習手法よりも高速な収束と優れた一般化、そして(b)いつトレーニングを中止するかを決定するための検証セットへの依存の欠如を示す。
論文 参考訳(メタデータ) (2020-06-11T16:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。