論文の概要: Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2412.14865v3
- Date: Fri, 11 Apr 2025 15:18:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-14 10:55:22.627365
- Title: Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning
- Title(参考訳): 連続的オフライン強化学習のための政策の階層的部分空間
- Authors: Anthony Kobanda, Rémy Portelas, Odalric-Ambrym Maillard, Ludovic Denoyer,
- Abstract要約: 我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。
オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。
本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
- 参考スコア(独自算出の注目度): 19.463863037999054
- License:
- Abstract: We consider a Continual Reinforcement Learning setup, where a learning agent must continuously adapt to new tasks while retaining previously acquired skill sets, with a focus on the challenge of avoiding forgetting past gathered knowledge and ensuring scalability with the growing number of tasks. Such issues prevail in autonomous robotics and video game simulations, notably for navigation tasks prone to topological or kinematic changes. To address these issues, we introduce HiSPO, a novel hierarchical framework designed specifically for continual learning in navigation settings from offline data. Our method leverages distinct policy subspaces of neural networks to enable flexible and efficient adaptation to new tasks while preserving existing knowledge. We demonstrate, through a careful experimental study, the effectiveness of our method in both classical MuJoCo maze environments and complex video game-like navigation simulations, showcasing competitive performances and satisfying adaptability with respect to classical continual learning metrics, in particular regarding the memory usage and efficiency.
- Abstract(参考訳): 我々は,学習エージェントがこれまで獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習のセットアップを検討する。
このような問題は、自律型ロボット工学やビデオゲームシミュレーションにおいて、特にトポロジカルまたはキネマティックな変化によるナビゲーションタスクにおいて顕著である。
これらの問題に対処するために、オフラインデータからナビゲーション設定を継続学習するために設計された新しい階層型フレームワーク、HiSPOを紹介する。
提案手法は,ニューラルネットワークの異なるポリシー部分空間を利用して,既存の知識を保ちながら,新しいタスクへの柔軟かつ効率的な適応を可能にする。
本研究では,従来のMuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証し,競争性能を示し,古典的連続学習メトリクス,特にメモリ使用率と効率について適応性を満たすことを示した。
関連論文リスト
- Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。
実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文 参考訳(メタデータ) (2024-11-18T08:20:21Z) - I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。
新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。
我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文 参考訳(メタデータ) (2024-06-14T08:44:51Z) - Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Learning Goal-Conditioned Policies Offline with Self-Supervised Reward
Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。
提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-01-05T15:07:10Z) - Learning and Retrieval from Prior Data for Skill-based Imitation
Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。
新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文 参考訳(メタデータ) (2022-10-20T17:34:59Z) - Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。
私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文 参考訳(メタデータ) (2022-04-25T17:58:19Z) - Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。
タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。
実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2022-02-01T07:51:24Z) - Adaptive Explainable Continual Learning Framework for Regression
Problems with Focus on Power Forecasts [0.0]
この文脈における潜在的な課題を説明するために、2つの連続的な学習シナリオが提案される。
ディープニューラルネットワークは、新しいタスクを学習し、アプリケーションのデータ量が増加し続けるにつれて、古いタスクから得た知識を忘れないようにしなければならない。
研究トピックは関連しているが、連続的なディープラーニングアルゴリズムの開発、データストリームにおける非定常検出戦略、説明可能で可視化可能な人工知能などに限定されていない。
論文 参考訳(メタデータ) (2021-08-24T14:59:10Z) - Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。
連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文 参考訳(メタデータ) (2020-07-30T16:00:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。