Fugu-MT 論文翻訳(概要): Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning

論文の概要: Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2412.14865v3
Date: Fri, 11 Apr 2025 15:18:20 GMT
ステータス: 翻訳完了
システム内更新日: 2025-04-14 13:14:32.996033
Title: Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning
Title（参考訳）: 連続的オフライン強化学習のための政策の階層的部分空間
Authors: Anthony Kobanda, Rémy Portelas, Odalric-Ambrym Maillard, Ludovic Denoyer,
Abstract要約: 我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
参考スコア（独自算出の注目度）: 19.463863037999054
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We consider a Continual Reinforcement Learning setup, where a learning agent must continuously adapt to new tasks while retaining previously acquired skill sets, with a focus on the challenge of avoiding forgetting past gathered knowledge and ensuring scalability with the growing number of tasks. Such issues prevail in autonomous robotics and video game simulations, notably for navigation tasks prone to topological or kinematic changes. To address these issues, we introduce HiSPO, a novel hierarchical framework designed specifically for continual learning in navigation settings from offline data. Our method leverages distinct policy subspaces of neural networks to enable flexible and efficient adaptation to new tasks while preserving existing knowledge. We demonstrate, through a careful experimental study, the effectiveness of our method in both classical MuJoCo maze environments and complex video game-like navigation simulations, showcasing competitive performances and satisfying adaptability with respect to classical continual learning metrics, in particular regarding the memory usage and efficiency.
Abstract（参考訳）: 我々は,学習エージェントがこれまで獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習のセットアップを検討する。このような問題は、自律型ロボット工学やビデオゲームシミュレーションにおいて、特にトポロジカルまたはキネマティックな変化によるナビゲーションタスクにおいて顕著である。これらの問題に対処するために、オフラインデータからナビゲーション設定を継続学習するために設計された新しい階層型フレームワーク、HiSPOを紹介する。提案手法は,ニューラルネットワークの異なるポリシー部分空間を利用して,既存の知識を保ちながら,新しいタスクへの柔軟かつ効率的な適応を可能にする。本研究では,従来のMuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証し,競争性能を示し,古典的連続学習メトリクス,特にメモリ使用率と効率について適応性を満たすことを示した。

関連論文リスト

Learning without Isolation: Pathway Protection for Continual Learning [64.3476595369537]
ディープネットワークは、シーケンシャルなタスク学習中に破滅的な忘れをしがちだ。モデル融合をグラフマッチングとして定式化する新しいCLフレームワークLwIを提案する。深層ネットワークにおける活性化チャネルの広がりにより、LwIは新しいタスクのために利用可能な経路を適応的に割り当て、経路保護を実現し、破滅的な忘れに対処することができる。
論文参考訳（メタデータ） (2025-05-24T07:16:55Z)
Analytic Subspace Routing: How Recursive Least Squares Works in Continual Learning of Large Language Model [6.42114585934114]
大規模言語モデル(LLM)には、多様な言語関連タスクを処理できる機能がある。大規模言語モデル(LLM)における継続的な学習は、LLMを新しいタスクに継続的に適応させることを目的としている。本稿では,これらの課題に対処するため,ASR(Analytic Subspace Routing)を提案する。
論文参考訳（メタデータ） (2025-03-17T13:40:46Z)
Continual Task Learning through Adaptive Policy Self-Composition [54.95680427960524]
CompoFormerは構造ベースの連続トランスフォーマーモデルであり、メタポリシックネットワークを介して、以前のポリシーを適応的に構成する。実験の結果,CompoFormerは従来の継続学習法(CL)よりも優れており,特にタスクシーケンスが長いことが判明した。
論文参考訳（メタデータ） (2024-11-18T08:20:21Z)
I Know How: Combining Prior Policies to Solve New Tasks [17.214443593424498]
マルチタスク強化学習は、継続的に進化し、新しいシナリオに適応できるエージェントを開発することを目的としている。新しいタスクごとにスクラッチから学ぶことは、実行可能な、あるいは持続可能な選択肢ではない。我々は、共通の形式を提供する新しいフレームワーク、I Know Howを提案する。
論文参考訳（メタデータ） (2024-06-14T08:44:51Z)
Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は、モデルが以前に学習した情報を忘れてしまう破滅的な忘れ込みの課題を克服しようとする。本稿では,パラメータ成長の制約を緩和し,破滅的な忘れを減らし,新しい事前手法を提案する。以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文参考訳（メタデータ） (2023-09-15T17:10:51Z)
Online Continual Learning via the Knowledge Invariant and Spread-out Properties [4.109784267309124]
継続的な学習の鍵となる課題は破滅的な忘れ方だ。知識不変性とスプレッドアウト特性(OCLKISP)を用いたオンライン連続学習法を提案する。提案手法を,CIFAR 100, Split SVHN, Split CUB200, Split Tiny-Image-Netの4つのベンチマークで実証的に評価した。
論文参考訳（メタデータ） (2023-02-02T04:03:38Z)
Learning Goal-Conditioned Policies Offline with Self-Supervised Reward Shaping [94.89128390954572]
本稿では,モデルの構造と力学を理解するために,事前収集したデータセット上に,新たな自己教師型学習フェーズを提案する。提案手法を3つの連続制御タスクで評価し,既存手法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-01-05T15:07:10Z)
Learning and Retrieval from Prior Data for Skill-based Imitation Learning [47.59794569496233]
従来のデータから時間的に拡張された感触者スキルを抽出する,スキルベースの模倣学習フレームワークを開発した。新規タスクの性能を著しく向上させる重要な設計選択をいくつか挙げる。
論文参考訳（メタデータ） (2022-10-20T17:34:59Z)
Skill-based Meta-Reinforcement Learning [65.31995608339962]
本研究では,長期的スパース・リワードタスクにおけるメタラーニングを実現する手法を提案する。私たちの中核となる考え方は、メタ学習中にオフラインデータセットから抽出された事前経験を活用することです。
論文参考訳（メタデータ） (2022-04-25T17:58:19Z)
Continual Prompt Tuning for Dialog State Tracking [58.66412648276873]
望ましいダイアログシステムは、古いスキルを忘れずに継続的に新しいスキルを学ぶことができるべきである。本稿では,タスク間の知識伝達を可能にするパラメータ効率フレームワークであるContinuous Prompt Tuningを提案する。
論文参考訳（メタデータ） (2022-03-13T13:22:41Z)
Fully Online Meta-Learning Without Task Boundaries [80.09124768759564]
この性質のオンライン問題にメタラーニングを適用する方法について検討する。タスク境界に関する基礎的な真理知識を必要としない完全オンラインメタラーニング(FOML)アルゴリズムを提案する。実験の結果,FOMLは最先端のオンライン学習手法よりも高速に新しいタスクを学習できることがわかった。
論文参考訳（メタデータ） (2022-02-01T07:51:24Z)
AFEC: Active Forgetting of Negative Transfer in Continual Learning [37.03139674884091]
生物学的ニューラルネットワークは、新しい経験の学習と矛盾する古い知識を積極的に忘れることができることを示す。生物の能動的忘れをきっかけに,新たな課題の学習を制限し,継続的な学習に役立てる古い知識を積極的に忘れることを提案する。
論文参考訳（メタデータ） (2021-10-23T10:03:19Z)
Adaptive Explainable Continual Learning Framework for Regression Problems with Focus on Power Forecasts [0.0]
この文脈における潜在的な課題を説明するために、2つの連続的な学習シナリオが提案される。ディープニューラルネットワークは、新しいタスクを学習し、アプリケーションのデータ量が増加し続けるにつれて、古いタスクから得た知識を忘れないようにしなければならない。研究トピックは関連しているが、連続的なディープラーニングアルゴリズムの開発、データストリームにおける非定常検出戦略、説明可能で可視化可能な人工知能などに限定されていない。
論文参考訳（メタデータ） (2021-08-24T14:59:10Z)
Bilevel Continual Learning [76.50127663309604]
BCL(Bilevel Continual Learning)という,継続的学習の新たな枠組みを提案する。連続学習ベンチマーク実験では,多くの最先端手法と比較して,提案したBCLの有効性が示された。
論文参考訳（メタデータ） (2020-07-30T16:00:23Z)
Neuromodulated Neural Architectures with Local Error Signals for Memory-Constrained Online Continual Learning [4.2903672492917755]
我々は,局所学習とニューロ変調を取り入れた,生物学的にインスパイアされた軽量ニューラルネットワークアーキテクチャを開発した。一つの課題と連続的な学習環境の両方にアプローチの有効性を実証する。
論文参考訳（メタデータ） (2020-07-16T07:41:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。