論文の概要: SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning
- arxiv url: http://arxiv.org/abs/2603.08763v1
- Date: Mon, 09 Mar 2026 03:38:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:23.734277
- Title: SPREAD: Subspace Representation Distillation for Lifelong Imitation Learning
- Title(参考訳): SPREAD:生涯模擬学習のための部分空間表現蒸留
- Authors: Kaushik Roy, Giovanni D'urso, Nicholas Lawrance, Brendan Tidd, Peyman Moghadam,
- Abstract要約: 生涯の模倣学習における重要な課題は、エージェントが事前知識を維持しながら専門家のデモンストレーションから新しいスキルを習得できるようにすることである。
生の特徴空間におけるL2-ノルム特徴マッチングに依存する既存の蒸留法は,ノイズや高次元変動に敏感である。
低ランク部分空間内のタスク間でポリシー表現を整合させるために特異値分解を利用する幾何保存フレームワークSPREADを導入する。
- 参考スコア(独自算出の注目度): 11.023696977257883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in lifelong imitation learning (LIL) is enabling agents to acquire new skills from expert demonstrations while retaining prior knowledge. This requires preserving the low-dimensional manifolds and geometric structures that underlie task representations across sequential learning. Existing distillation methods, which rely on L2-norm feature matching in raw feature space, are sensitive to noise and high-dimensional variability, often failing to preserve intrinsic task manifolds. To address this, we introduce SPREAD, a geometry-preserving framework that employs singular value decomposition (SVD) to align policy representations across tasks within low-rank subspaces. This alignment maintains the underlying geometry of multimodal features, facilitating stable transfer, robustness, and generalization. Additionally, we propose a confidence-guided distillation strategy that applies a Kullback-Leibler divergence loss restricted to the top-M most confident action samples, emphasizing reliable modes and improving optimization stability. Experiments on the LIBERO, lifelong imitation learning benchmark, show that SPREAD substantially improves knowledge transfer, mitigates catastrophic forgetting, and achieves state-of-the-art performance.
- Abstract(参考訳): 生涯模倣学習(LIL)における重要な課題は、エージェントが事前知識を維持しながら専門家のデモンストレーションから新しいスキルを習得できるようにすることである。
これは、シーケンシャルラーニング全体にわたってタスク表現の基盤となる低次元多様体と幾何学的構造を保存する必要がある。
生の特徴空間におけるL2-ノルム特徴マッチングに依存する既存の蒸留法は、ノイズや高次元変動に敏感であり、しばしば本質的なタスク多様体の保存に失敗する。
この問題に対処するため,SPREADは特異値分解(SVD)を用いて,低ランク部分空間内のタスク間でポリシー表現を整合させる幾何学保存フレームワークである。
このアライメントはマルチモーダル特徴の基本的な幾何学を維持し、安定移動、堅牢性、一般化を促進する。
さらに,Kulback-Leibler分散損失を最上位の信頼性動作サンプルに限定し,信頼性モードを強調し,最適化安定性を向上させる信頼性誘導蒸留手法を提案する。
生涯の模倣学習ベンチマークであるLIBEROの実験は、SPREADが知識伝達を大幅に改善し、破滅的な忘れを軽減し、最先端のパフォーマンスを達成することを示した。
関連論文リスト
- Beyond Retention: Orchestrating Structural Safety and Plasticity in Continual Learning for LLMs [2.5202137607634407]
経験リプレイ(ER)は破滅的忘れに対する標準的な対策である。
ERはコード生成のような脆弱で構造化されたドメインに対して負の転送を引き起こす。
我々は,確立した知識構造に対する数学的根拠を持つ「安全保証」として,オルソゴン部分空間ウェイクアップ(OSW)を提案する。
論文 参考訳(メタデータ) (2026-01-26T08:28:02Z) - Semi-Supervised Contrastive Learning with Orthonormal Prototypes [1.478364697333309]
埋め込みが低次元空間に収束する次元崩壊は、大きな挑戦となる。
クラス埋め込みにおける線形部分空間の形成を促進することにより,次元崩壊を防止することを目的とした,新しい半教師付き損失関数CLOPを提案する。
CLOPは画像分類やオブジェクト検出タスクの性能を向上させるとともに,学習速度やバッチサイズにまたがる安定性も向上することを示す。
論文 参考訳(メタデータ) (2025-11-27T13:26:59Z) - SplitLoRA: Balancing Stability and Plasticity in Continual Learning Through Gradient Space Splitting [68.00007494819798]
継続的な学習には、安定性を保ちながら複数のタスクを連続的に学習するモデルが必要である。
グラディエント・プロジェクションはCLにおいて有効で一般的なパラダイムとして現れ、以前に学習したタスクの勾配空間を2つの部分空間に分割する。
新しいタスクは小部分空間内で効果的に学習され、これにより以前取得した知識との干渉が軽減される。
既存の勾配射影法は、勾配空間を適切に分割することが困難であるため、塑性と安定性の最適なバランスを達成するのに苦労する。
論文 参考訳(メタデータ) (2025-05-28T13:57:56Z) - Enhancing Robustness of Vision-Language Models through Orthogonality Learning and Self-Regularization [77.62516752323207]
そこで本研究では,事前訓練した重みを効率よく微調整する直交微調整法を導入し,頑健さと一般化の強化を実現した。
自己正規化戦略は、OrthSRと呼ばれるVLMのゼロショット一般化の観点から安定性を維持するためにさらに活用される。
筆者らはCLIPとCoOpを再検討し,少数の画像のクラスフィシエーションシナリオにおけるモデルの改善を効果的に行う。
論文 参考訳(メタデータ) (2024-07-11T10:35:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。