論文の概要: Learning What to Memorize: Using Intrinsic Motivation to Form Useful
Memory in Partially Observable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2110.12810v1
- Date: Mon, 25 Oct 2021 11:15:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 14:45:36.446407
- Title: Learning What to Memorize: Using Intrinsic Motivation to Form Useful
Memory in Partially Observable Reinforcement Learning
- Title(参考訳): 覚えるべきことの学習--本質的な動機を用いた部分観察型強化学習における有用記憶の形成
- Authors: Alper Demir
- Abstract要約: 曖昧な環境で学習するためには、エージェントは以前の認識を記憶に残さなければならない。
本研究では, メモリの制御をエージェントに委ねることで, メモリ変更動作を可能とすることで, メモリの制御をエージェントに行わせるという考え方に従う。
この学習メカニズムは、希少な観察を記憶する本質的な動機によって支えられ、エージェントが環境中の状態を曖昧にするのに役立つ。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement Learning faces an important challenge in partial observable
environments that has long-term dependencies. In order to learn in an ambiguous
environment, an agent has to keep previous perceptions in a memory. Earlier
memory based approaches use a fixed method to determine what to keep in the
memory, which limits them to certain problems. In this study, we follow the
idea of giving the control of the memory to the agent by allowing it to have
memory-changing actions. This learning mechanism is supported by an intrinsic
motivation to memorize rare observations that can help the agent to
disambiguate its state in the environment. Our approach is experimented and
analyzed on several partial observable tasks with long-term dependencies and
compared with other memory based methods.
- Abstract(参考訳): 強化学習は、長期的な依存関係を持つ部分観測環境において、重要な課題に直面している。
曖昧な環境で学ぶためには、エージェントは以前の認識をメモリに保持する必要がある。
以前のメモリベースのアプローチでは、固定されたメソッドを使用して、メモリに何を保持するかを決定する。
本研究では,エージェントにメモリ交換動作を行うことで,エージェントにメモリの制御を与えるという考え方に従う。
この学習メカニズムは、エージェントが環境における状態を曖昧にするのに役立つ希少な観察を記憶する本質的な動機によって支えられている。
本手法は, 長期依存のある部分可観測タスクを実験し, 解析し, 他のメモリベース手法と比較した。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - In-Memory Learning: A Declarative Learning Framework for Large Language
Models [56.62616975119192]
本研究では,人間ラベルデータに頼らずにエージェントが環境に整合できる新しい学習フレームワークを提案する。
このプロセス全体がメモリコンポーネント内で変換され、自然言語で実装される。
フレームワークの有効性を実証し、この問題に対する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-05T08:25:11Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Saliency-Guided Hidden Associative Replay for Continual Learning [13.551181595881326]
継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。
本稿では,継続的学習のためのSaliency Guided Hidden Associative Replayを提案する。
この新しいフレームワークは、アソシエイトメモリをリプレイベースの戦略でシナジする。SHARCは主にスパースメモリエンコーディングを通じて、有能なデータセグメントをアーカイブする。
論文 参考訳(メタデータ) (2023-10-06T15:54:12Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - Pin the Memory: Learning to Generalize Semantic Segmentation [68.367763672095]
本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。
本手法は,セマンティッククラスの概念的知識を,ドメインを超えて一定であるカテゴリ記憶に抽象化する。
論文 参考訳(メタデータ) (2022-04-07T17:34:01Z) - Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。
セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。
アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文 参考訳(メタデータ) (2020-10-20T15:05:26Z) - The act of remembering: a study in partially observable reinforcement
learning [24.945756871291348]
強化学習(Reinforcement Learning, RL)エージェントは、通常、アクションを選択するときの最後の観察のみを考慮するメモリレスポリシーを学ぶ。
エージェントに外部メモリと追加アクションを提供して、もし何かあれば、メモリに書き込まれるものを制御する。
我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。
論文 参考訳(メタデータ) (2020-10-05T02:56:43Z) - Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。
機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文 参考訳(メタデータ) (2020-02-10T03:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。