論文の概要: AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2410.04498v1
- Date: Sun, 6 Oct 2024 14:39:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 07:06:24.876659
- Title: AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning
- Title(参考訳): AdaMemento:強化学習のための適応記憶支援政策最適化
- Authors: Renye Yan, Yaozhong Gan, You Wu, Junliang Xing, Ling Liangn, Yeshang Zhu, Yimao Cai,
- Abstract要約: 適応型メモリ強化学習フレームワークであるAdaMementoを提案する。
AdaMementoは、既知の局所的最適ポリシーを予測することを学ぶことによって、ポジティブな経験とネガティブな経験の両方を活用する。
AdaMementoは、記憶の過去の経験を効果的に活用し、より良い探索のために微妙な状態を区別できることを示す。
- 参考スコア(独自算出の注目度): 15.317710077291245
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In sparse reward scenarios of reinforcement learning (RL), the memory mechanism provides promising shortcuts to policy optimization by reflecting on past experiences like humans. However, current memory-based RL methods simply store and reuse high-value policies, lacking a deeper refining and filtering of diverse past experiences and hence limiting the capability of memory. In this paper, we propose AdaMemento, an adaptive memory-enhanced RL framework. Instead of just memorizing positive past experiences, we design a memory-reflection module that exploits both positive and negative experiences by learning to predict known local optimal policies based on real-time states. To effectively gather informative trajectories for the memory, we further introduce a fine-grained intrinsic motivation paradigm, where nuances in similar states can be precisely distinguished to guide exploration. The exploitation of past experiences and exploration of new policies are then adaptively coordinated by ensemble learning to approach the global optimum. Furthermore, we theoretically prove the superiority of our new intrinsic motivation and ensemble mechanism. From 59 quantitative and visualization experiments, we confirm that AdaMemento can distinguish subtle states for better exploration and effectively exploiting past experiences in memory, achieving significant improvement over previous methods.
- Abstract(参考訳): 強化学習(RL)のスパース報酬シナリオでは、メモリメカニズムは、人間のような過去の経験を反映して、ポリシー最適化に有望なショートカットを提供する。
しかし、現在のメモリベースのRLメソッドは、単に高価値ポリシーを保存して再利用し、様々な過去の経験のより深い精錬とフィルタリングを欠いているため、メモリの能力を制限している。
本稿では,適応型メモリ拡張RLフレームワークであるAdaMementoを提案する。
過去のポジティブな経験を記憶する代わりに、実時間状態に基づいて既知のローカルな最適ポリシーを予測することを学ぶことによって、ポジティブな経験とネガティブな経験の両方を活用するメモリリフレクションモジュールを設計する。
さらに,記憶に対する情報トラジェクトリを効果的に収集するために,類似状態のニュアンスを正確に識別して探索する,詳細な本質的なモチベーションパラダイムを導入する。
過去の経験の活用と新しい政策の探索は、グローバルな最適化に近づくために、アンサンブル学習によって適応的に調整される。
さらに,新たな本質的なモチベーションとアンサンブル機構の優位性を理論的に証明した。
59の定量的および可視化実験から,AdaMementoは,記憶における過去の経験を効果的に活用し,従来の手法よりも大幅に改善した,微妙な状態を識別できることを確認した。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - In-Memory Learning: A Declarative Learning Framework for Large Language
Models [56.62616975119192]
本研究では,人間ラベルデータに頼らずにエージェントが環境に整合できる新しい学習フレームワークを提案する。
このプロセス全体がメモリコンポーネント内で変換され、自然言語で実装される。
フレームワークの有効性を実証し、この問題に対する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-05T08:25:11Z) - Spatially-Aware Transformer for Embodied Agents [20.498778205143477]
本稿では,空間情報を含む空間認識変換器モデルの利用について検討する。
メモリ利用効率が向上し,様々な場所中心の下流タスクにおいて精度が向上することが実証された。
また,強化学習に基づくメモリ管理手法であるAdaptive Memory Allocatorを提案する。
論文 参考訳(メタデータ) (2024-02-23T07:46:30Z) - Saliency-Guided Hidden Associative Replay for Continual Learning [13.551181595881326]
継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。
本稿では,継続的学習のためのSaliency Guided Hidden Associative Replayを提案する。
この新しいフレームワークは、アソシエイトメモリをリプレイベースの戦略でシナジする。SHARCは主にスパースメモリエンコーディングを通じて、有能なデータセグメントをアーカイブする。
論文 参考訳(メタデータ) (2023-10-06T15:54:12Z) - EMO: Episodic Memory Optimization for Few-Shot Meta-Learning [69.50380510879697]
メタ学習のためのエピソード記憶最適化は、EMOと呼ばれ、脳の記憶から過去の学習経験を思い出す人間の能力にインスパイアされている。
EMOは、限られた数の例によって提供される勾配が非形式的である場合でも、パラメータを正しい方向に更新する。
EMOは、ほとんど数ショットの分類ベンチマークでうまくスケールし、最適化ベースのメタラーニング手法の性能を改善している。
論文 参考訳(メタデータ) (2023-06-08T13:39:08Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - Reward Uncertainty for Exploration in Preference-based Reinforcement
Learning [88.34958680436552]
好みに基づく強化学習アルゴリズムを対象とした探索手法を提案する。
我々の基本的な考え方は、学習した報酬に基づいて、斬新さを測定することによって、本質的な報酬を設計することである。
実験により、学習報酬の不確実性からの探索ボーナスは、好みに基づくRLアルゴリズムのフィードバック効率とサンプル効率の両方を改善することが示された。
論文 参考訳(メタデータ) (2022-05-24T23:22:10Z) - Replay For Safety [51.11953997546418]
経験的なリプレイでは、過去の遷移はメモリバッファに格納され、学習中に再使用される。
適切なバイアスサンプリング方式を用いることで,エファンセーフなポリシーを実現できることを示す。
論文 参考訳(メタデータ) (2021-12-08T11:10:57Z) - Saliency Guided Experience Packing for Replay in Continual Learning [6.417011237981518]
本研究では,経験再現のための新しいアプローチを提案し,過去の経験をサリエンシマップから選択する。
新しいタスクを学習している間、我々はこれらのメモリパッチを適切なゼロパディングで再生し、過去の決定をモデルに思い出させる。
論文 参考訳(メタデータ) (2021-09-10T15:54:58Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z) - The act of remembering: a study in partially observable reinforcement
learning [24.945756871291348]
強化学習(Reinforcement Learning, RL)エージェントは、通常、アクションを選択するときの最後の観察のみを考慮するメモリレスポリシーを学ぶ。
エージェントに外部メモリと追加アクションを提供して、もし何かあれば、メモリに書き込まれるものを制御する。
我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。
論文 参考訳(メタデータ) (2020-10-05T02:56:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。