論文の概要: The act of remembering: a study in partially observable reinforcement
learning
- arxiv url: http://arxiv.org/abs/2010.01753v1
- Date: Mon, 5 Oct 2020 02:56:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 20:30:36.340864
- Title: The act of remembering: a study in partially observable reinforcement
learning
- Title(参考訳): 記憶すること:部分的に観察可能な強化学習の研究
- Authors: Rodrigo Toro Icarte, Richard Valenzano, Toryn Q. Klassen, Phillip
Christoffersen, Amir-massoud Farahmand, Sheila A. McIlraith
- Abstract要約: 強化学習(Reinforcement Learning, RL)エージェントは、通常、アクションを選択するときの最後の観察のみを考慮するメモリレスポリシーを学ぶ。
エージェントに外部メモリと追加アクションを提供して、もし何かあれば、メモリに書き込まれるものを制御する。
我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。
- 参考スコア(独自算出の注目度): 24.945756871291348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning (RL) agents typically learn memoryless
policies---policies that only consider the last observation when selecting
actions. Learning memoryless policies is efficient and optimal in fully
observable environments. However, some form of memory is necessary when RL
agents are faced with partial observability. In this paper, we study a
lightweight approach to tackle partial observability in RL. We provide the
agent with an external memory and additional actions to control what, if
anything, is written to the memory. At every step, the current memory state is
part of the agent's observation, and the agent selects a tuple of actions: one
action that modifies the environment and another that modifies the memory. When
the external memory is sufficiently expressive, optimal memoryless policies
yield globally optimal solutions. Unfortunately, previous attempts to use
external memory in the form of binary memory have produced poor results in
practice. Here, we investigate alternative forms of memory in support of
learning effective memoryless policies. Our novel forms of memory outperform
binary and LSTM-based memory in well-established partially observable domains.
- Abstract(参考訳): 強化学習(rl)エージェントは通常、メモリレスなポリシーを学習します。
メモリレスポリシーの学習は、完全に観測可能な環境で効率的かつ最適である。
しかし、RLエージェントが部分可観測性に直面している場合、ある種の記憶が必要である。
本稿では,RLの部分観測可能性に取り組むための軽量なアプローチについて検討する。
エージェントに外部メモリと、何かがメモリに書き込まれるかを制御するための追加のアクションを提供します。
各ステップにおいて、現在のメモリ状態はエージェントの観察の一部であり、エージェントはタプルのアクションを選択します。
外部メモリが十分に表現可能な場合、最適なメモリレスポリシーは、グローバルに最適なソリューションをもたらす。
残念なことに、以前のバイナリメモリという形で外部メモリを使用する試みは、実際は不十分な結果をもたらしている。
本稿では,効果的なメモリレスポリシの学習を支援する代替記憶形態について検討する。
我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning [15.317710077291245]
適応型メモリ強化学習フレームワークであるAdaMementoを提案する。
AdaMementoは、既知の局所的最適ポリシーを予測することを学ぶことによって、ポジティブな経験とネガティブな経験の両方を活用する。
AdaMementoは、記憶の過去の経験を効果的に活用し、より良い探索のために微妙な状態を区別できることを示す。
論文 参考訳(メタデータ) (2024-10-06T14:39:39Z) - Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。
提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。
さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文 参考訳(メタデータ) (2024-06-24T03:09:15Z) - Saliency-Guided Hidden Associative Replay for Continual Learning [13.551181595881326]
継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。
本稿では,継続的学習のためのSaliency Guided Hidden Associative Replayを提案する。
この新しいフレームワークは、アソシエイトメモリをリプレイベースの戦略でシナジする。SHARCは主にスパースメモリエンコーディングを通じて、有能なデータセグメントをアーカイブする。
論文 参考訳(メタデータ) (2023-10-06T15:54:12Z) - Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory [72.36736686941671]
本稿では,検索拡張生成モデルを改善するための新しいフレームワーク,Selfmemを提案する。
Selfmemは、検索拡張ジェネレータを反復的に使用して、無制限のメモリプールを生成し、メモリセレクタを使用して、続く生成ラウンドの1つの出力をメモリとして選択する。
我々は,3つの異なるテキスト生成タスクにおける自己メモの有効性を評価する。
論文 参考訳(メタデータ) (2023-05-03T21:40:54Z) - RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。
既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。
本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文 参考訳(メタデータ) (2023-01-14T00:07:47Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Learning What to Memorize: Using Intrinsic Motivation to Form Useful
Memory in Partially Observable Reinforcement Learning [0.0]
曖昧な環境で学習するためには、エージェントは以前の認識を記憶に残さなければならない。
本研究では, メモリの制御をエージェントに委ねることで, メモリ変更動作を可能とすることで, メモリの制御をエージェントに行わせるという考え方に従う。
この学習メカニズムは、希少な観察を記憶する本質的な動機によって支えられ、エージェントが環境中の状態を曖昧にするのに役立つ。
論文 参考訳(メタデータ) (2021-10-25T11:15:54Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z) - Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。
機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2020-02-10T03:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。