論文の概要: Continual Reinforcement Learning via Autoencoder-Driven Task and New Environment Recognition
- arxiv url: http://arxiv.org/abs/2505.09003v1
- Date: Tue, 13 May 2025 22:38:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.31425
- Title: Continual Reinforcement Learning via Autoencoder-Driven Task and New Environment Recognition
- Title(参考訳): オートエンコーダ駆動タスクによる継続的強化学習と新しい環境認識
- Authors: Zeki Doruk Erden, Donia Gasmi, Boi Faltings,
- Abstract要約: 本研究では,新しいタスクの検出と観測環境の一致に対するオートエンコーダの有効性について検討した。
本手法は、エンドツーエンドの連続学習システムにおいて、ポリシー最適化と親しみやすいオートエンコーダを統合する。
- 参考スコア(独自算出の注目度): 13.681245711959543
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual learning for reinforcement learning agents remains a significant challenge, particularly in preserving and leveraging existing information without an external signal to indicate changes in tasks or environments. In this study, we explore the effectiveness of autoencoders in detecting new tasks and matching observed environments to previously encountered ones. Our approach integrates policy optimization with familiarity autoencoders within an end-to-end continual learning system. This system can recognize and learn new tasks or environments while preserving knowledge from earlier experiences and can selectively retrieve relevant knowledge when re-encountering a known environment. Initial results demonstrate successful continual learning without external signals to indicate task changes or reencounters, showing promise for this methodology.
- Abstract(参考訳): 強化学習エージェントの継続的な学習は、特にタスクや環境の変化を示す外部信号のない既存の情報の保存と活用において重要な課題である。
本研究では,新しいタスクの検出と観測環境の一致に対するオートエンコーダの有効性について検討した。
本手法は、エンドツーエンドの連続学習システムにおいて、ポリシー最適化と親しみやすいオートエンコーダを統合する。
本システムは,従来の経験から知識を保存しながら,新たなタスクや環境を認識し,学習し,既知の環境を再評価する際に,関連する知識を選択的に検索することができる。
最初の結果は、タスクの変更や再会計を行うための外部信号のない継続的な学習の成功を示し、この方法論の約束を示す。
関連論文リスト
- Hierarchical Subspaces of Policies for Continual Offline Reinforcement Learning [19.463863037999054]
我々は,学習エージェントが獲得したスキルセットを維持しながら,新たなタスクに継続的に適応しなければならない継続的強化学習の仕組みを考察する。
オフラインデータからナビゲーション設定を継続学習するために設計された,新しい階層型フレームワークであるHiSPOを紹介する。
本研究では,MuJoCo迷路環境と複雑なゲームライクなナビゲーションシミュレーションの両方において,本手法の有効性を実験的に検証した。
論文 参考訳(メタデータ) (2024-12-19T14:00:03Z) - No Regrets: Investigating and Improving Regret Approximations for Curriculum Discovery [53.08822154199948]
非教師なし環境設計(UED)手法は、エージェントがイン・オブ・アウト・ディストリビューションタスクに対して堅牢になることを約束する適応的カリキュラムとして近年注目を集めている。
本研究は,既存のUEDメソッドがいかにトレーニング環境を選択するかを検討する。
本研究では,学習性の高いシナリオを直接訓練する手法を開発した。
論文 参考訳(メタデータ) (2024-08-27T14:31:54Z) - Recall-Oriented Continual Learning with Generative Adversarial
Meta-Model [5.710971447109951]
本稿では,安定性・塑性ジレンマに対処するリコール指向連続学習フレームワークを提案する。
人間の脳が安定性と可塑性のメカニズムを分離する能力に触発されて、私たちのフレームワークは2段階のアーキテクチャで構成されています。
我々は,新たな知識を効果的に学習するだけでなく,従来の知識の安定性も高いことを示す。
論文 参考訳(メタデータ) (2024-03-05T16:08:59Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - Learning with Recoverable Forgetting [77.56338597012927]
学習wIth Recoverable Forgettingは、タスクまたはサンプル固有の知識の除去とリカバリを明示的に処理する。
具体的には、LIRFは2つの革新的なスキーム、すなわち知識預金と離脱をもたらす。
いくつかのデータセットで実験を行い、提案したLIRF戦略が一般化能力を満足させる結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-07-17T16:42:31Z) - L2Explorer: A Lifelong Reinforcement Learning Assessment Environment [49.40779372040652]
強化学習ソリューションは、トレーニングされたデータ配布以外の新しいタスクに晒されると、あまり一般化しない傾向があります。
生涯学習エクスプローラー(L2Explorer)を用いた継続的強化学習開発と評価のための枠組みを導入する。
L2Explorerは新しいUnityベースのファーストパーソンな3D探索環境で、複雑な評価カリキュラムに構造化されたタスクやタスクのバリエーションを生成するために継続的に再構成することができる。
論文 参考訳(メタデータ) (2022-03-14T19:20:26Z) - Continual Prompt Tuning for Dialog State Tracking [58.66412648276873]
望ましいダイアログシステムは、古いスキルを忘れずに継続的に新しいスキルを学ぶことができるべきである。
本稿では,タスク間の知識伝達を可能にするパラメータ効率フレームワークであるContinuous Prompt Tuningを提案する。
論文 参考訳(メタデータ) (2022-03-13T13:22:41Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - AFEC: Active Forgetting of Negative Transfer in Continual Learning [37.03139674884091]
生物学的ニューラルネットワークは、新しい経験の学習と矛盾する古い知識を積極的に忘れることができることを示す。
生物の能動的忘れをきっかけに,新たな課題の学習を制限し,継続的な学習に役立てる古い知識を積極的に忘れることを提案する。
論文 参考訳(メタデータ) (2021-10-23T10:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。