論文の概要: Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.14865v1
- Date: Thu, 19 Dec 2024 14:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:30:25.221642
- Title: Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning
- Title(参考訳): 連続的オフライン強化学習のための政策の階層的部分空間
- Authors: Anthony Kobanda, Rémy Portelas, Odalric-Ambrym Maillard, Ludovic Denoyer,
- Abstract要約: 自律型ロボット工学やビデオゲームシミュレーションのような動的ドメインでは、エージェントは、以前獲得したスキルを維持しながら、新しいタスクに継続的に適応する必要がある。
継続的強化学習(Continuous Reinforcement Learning)として知られるこの継続的なプロセスは、過去の知識を忘れるリスクを含む重要な課題を提示します。
オフラインナビゲーション設定における連続学習を目的とした新しいフレームワークであるHILOW(HIerarchical LOW-rank Subspaces of Policies)を紹介する。
- 参考スコア(独自算出の注目度): 19.463863037999054
- License:
- Abstract: In dynamic domains such as autonomous robotics and video game simulations, agents must continuously adapt to new tasks while retaining previously acquired skills. This ongoing process, known as Continual Reinforcement Learning, presents significant challenges, including the risk of forgetting past knowledge and the need for scalable solutions as the number of tasks increases. To address these issues, we introduce HIerarchical LOW-rank Subspaces of Policies (HILOW), a novel framework designed for continual learning in offline navigation settings. HILOW leverages hierarchical policy subspaces to enable flexible and efficient adaptation to new tasks while preserving existing knowledge. We demonstrate, through a careful experimental study, the effectiveness of our method in both classical MuJoCo maze environments and complex video game-like simulations, showcasing competitive performance and satisfying adaptability according to classical continual learning metrics, in particular regarding memory usage. Our work provides a promising framework for real-world applications where continuous learning from pre-collected data is essential.
- Abstract(参考訳): 自律型ロボット工学やビデオゲームシミュレーションのような動的ドメインでは、エージェントは、以前獲得したスキルを維持しながら、新しいタスクに継続的に適応する必要がある。
継続的強化学習(Continuous Reinforcement Learning)として知られるこの継続的なプロセスは、過去の知識を忘れるリスクや、タスクの数が増えるにつれてスケーラブルなソリューションの必要性など、重大な課題を提示します。
これらの問題に対処するために、オフラインナビゲーション設定における連続学習を目的とした新しいフレームワークであるHILOW(HIerarchical LOW-rank Subspaces of Policies)を導入する。
HILOWは階層的なポリシーサブスペースを活用し、既存の知識を維持しながら、新しいタスクへの柔軟で効率的な適応を可能にする。
本研究では,古典的MuJoCo迷路環境と複雑なゲームライクなシミュレーションの両方において,本手法の有効性を実験的に検証し,古典的連続学習指標,特にメモリ使用量に応じて,競争性能を示し,適応性を満たすことを示す。
私たちの仕事は、事前コンパイルされたデータからの継続的学習が不可欠である現実世界のアプリケーションに有望なフレームワークを提供します。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Adaptive Explainable Continual Learning Framework for Regression
Problems with Focus on Power Forecasts [0.0]
この文脈における潜在的な課題を説明するために、2つの連続的な学習シナリオが提案される。
ディープニューラルネットワークは、新しいタスクを学習し、アプリケーションのデータ量が増加し続けるにつれて、古いタスクから得た知識を忘れないようにしなければならない。
研究トピックは関連しているが、連続的なディープラーニングアルゴリズムの開発、データストリームにおける非定常検出戦略、説明可能で可視化可能な人工知能などに限定されていない。
論文 参考訳(メタデータ) (2021-08-24T14:59:10Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。