Fugu-MT 論文翻訳(概要): The act of remembering: a study in partially observable reinforcement learning

論文の概要: The act of remembering: a study in partially observable reinforcement learning

arxiv url: http://arxiv.org/abs/2010.01753v1
Date: Mon, 5 Oct 2020 02:56:43 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-10 20:30:36.340864
Title: The act of remembering: a study in partially observable reinforcement learning
Title（参考訳）: 記憶すること:部分的に観察可能な強化学習の研究
Authors: Rodrigo Toro Icarte, Richard Valenzano, Toryn Q. Klassen, Phillip Christoffersen, Amir-massoud Farahmand, Sheila A. McIlraith
Abstract要約: 強化学習(Reinforcement Learning, RL)エージェントは、通常、アクションを選択するときの最後の観察のみを考慮するメモリレスポリシーを学ぶ。エージェントに外部メモリと追加アクションを提供して、もし何かあれば、メモリに書き込まれるものを制御する。我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。
参考スコア（独自算出の注目度）: 24.945756871291348
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning (RL) agents typically learn memoryless policies---policies that only consider the last observation when selecting actions. Learning memoryless policies is efficient and optimal in fully observable environments. However, some form of memory is necessary when RL agents are faced with partial observability. In this paper, we study a lightweight approach to tackle partial observability in RL. We provide the agent with an external memory and additional actions to control what, if anything, is written to the memory. At every step, the current memory state is part of the agent's observation, and the agent selects a tuple of actions: one action that modifies the environment and another that modifies the memory. When the external memory is sufficiently expressive, optimal memoryless policies yield globally optimal solutions. Unfortunately, previous attempts to use external memory in the form of binary memory have produced poor results in practice. Here, we investigate alternative forms of memory in support of learning effective memoryless policies. Our novel forms of memory outperform binary and LSTM-based memory in well-established partially observable domains.
Abstract（参考訳）: 強化学習(rl)エージェントは通常、メモリレスなポリシーを学習します。メモリレスポリシーの学習は、完全に観測可能な環境で効率的かつ最適である。しかし、RLエージェントが部分可観測性に直面している場合、ある種の記憶が必要である。本稿では,RLの部分観測可能性に取り組むための軽量なアプローチについて検討する。エージェントに外部メモリと、何かがメモリに書き込まれるかを制御するための追加のアクションを提供します。各ステップにおいて、現在のメモリ状態はエージェントの観察の一部であり、エージェントはタプルのアクションを選択します。外部メモリが十分に表現可能な場合、最適なメモリレスポリシーは、グローバルに最適なソリューションをもたらす。残念なことに、以前のバイナリメモリという形で外部メモリを使用する試みは、実際は不十分な結果をもたらしている。本稿では,効果的なメモリレスポリシの学習を支援する代替記憶形態について検討する。我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。

関連論文リスト

MemoCue: Empowering LLM-Based Agents for Human Memory Recall via Strategy-Guided Querying [12.524353050278105]
戦略誘導型エージェント支援メモリリコール手法を提案し,エージェントが元のクエリをキューリッチなクエリに変換する。メモリクエリを5つの典型的なシナリオに分類する5Wリコールマップを設計する。次に,モンテカルロ木探索アルゴリズムと組み合わせた階層的リコールツリーを提案し,戦略選択と戦略応答の生成を最適化する。
論文参考訳（メタデータ） (2025-07-31T15:11:38Z)
How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [49.62361184944454]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文参考訳（メタデータ） (2025-05-21T22:35:01Z)
Rethinking Memory in AI: Taxonomy, Operations, Topics, and Future Directions [55.19217798774033]
メモリは、大規模言語モデル(LLM)ベースのエージェントを支える、AIシステムの基本コンポーネントである。コンソリデーション、更新、インデックス付け、フォッティング、検索、圧縮の6つの基本的なメモリ操作を紹介します。この調査は、AIのメモリに関する研究、ベンチマークデータセット、ツールに関する構造化された動的視点を提供する。
論文参考訳（メタデータ） (2025-05-01T17:31:33Z)
Memorization and Knowledge Injection in Gated LLMs [8.305942415868042]
大規模言語モデル(LLM)は、現在、シーケンシャルに新しい記憶を追加し、新しい知識を統合するのに苦労している。 Gated LLM (MEGa) に埋め込まれたメモリは、イベントメモリを直接 LLM の重みに注入する。推論中、ゲーティング機構は、クエリの埋め込みとストアドメモリの埋め込みとをマッチングすることで、関連するメモリ重みを活性化する。
論文参考訳（メタデータ） (2025-04-30T00:28:32Z)
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation [39.69790911626182]
強化学習領域(RL)における多数のタスクにおいて、エージェントへのメモリの取り込みが不可欠であるメモリ」という用語は幅広い概念を包含しており、エージェントのメモリを検証するための統一的な方法論が欠如していることと相まって、エージェントのメモリ能力に関する誤った判断につながる。本稿では,エージェントメモリタイプを正確に定義することで,RLにおけるメモリ概念の合理化を目指す。
論文参考訳（メタデータ） (2024-12-09T14:34:31Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
AdaMemento: Adaptive Memory-Assisted Policy Optimization for Reinforcement Learning [15.317710077291245]
適応型メモリ強化学習フレームワークであるAdaMementoを提案する。 AdaMementoは、既知の局所的最適ポリシーを予測することを学ぶことによって、ポジティブな経験とネガティブな経験の両方を活用する。 AdaMementoは、記憶の過去の経験を効果的に活用し、より良い探索のために微妙な状態を区別できることを示す。
論文参考訳（メタデータ） (2024-10-06T14:39:39Z)
Reducing Fine-Tuning Memory Overhead by Approximate and Memory-Sharing Backpropagation [29.139579820699495]
この研究は、活性化関数と層正規化の観点から微調整におけるメモリオーバーヘッドを低減することを目的としている。提案手法をバックプロパゲーショントレーニングに適用し,GELUおよびSiLU活性化関数のメモリ効率の代替を導出する。さらに、メモリ共有バックプロパゲーション戦略を導入し、アクティベーションメモリを2つの隣接層で共有できるようにする。
論文参考訳（メタデータ） (2024-06-24T03:09:15Z)
MemLLM: Finetuning LLMs to Use An Explicit Read-Write Memory [49.96019697955383]
本稿では,構造化および明示的な読み書きメモリモジュールを統合することで,大規模言語モデル(LLM)の拡張手法であるMemLLMを紹介する。実験の結果, 言語モデリング, 特に知識集約型タスクにおいて, MemLLMはLLMの性能と解釈可能性を向上させることが示唆された。
論文参考訳（メタデータ） (2024-04-17T18:13:16Z)
Saliency-Guided Hidden Associative Replay for Continual Learning [13.551181595881326]
継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。本稿では,継続的学習のためのSaliency Guided Hidden Associative Replayを提案する。この新しいフレームワークは、アソシエイトメモリをリプレイベースの戦略でシナジする。SHARCは主にスパースメモリエンコーディングを通じて、有能なデータセグメントをアーカイブする。
論文参考訳（メタデータ） (2023-10-06T15:54:12Z)
Lift Yourself Up: Retrieval-augmented Text Generation with Self Memory [72.36736686941671]
本稿では,検索拡張生成モデルを改善するための新しいフレームワーク,Selfmemを提案する。 Selfmemは、検索拡張ジェネレータを反復的に使用して、無制限のメモリプールを生成し、メモリセレクタを使用して、続く生成ラウンドの1つの出力をメモリとして選択する。我々は,3つの異なるテキスト生成タスクにおける自己メモの有効性を評価する。
論文参考訳（メタデータ） (2023-05-03T21:40:54Z)
RMM: Reinforced Memory Management for Class-Incremental Learning [102.20140790771265]
クラスインクリメンタルラーニング(CIL)は、厳格な記憶予算の下で分類器を訓練する。既存のメソッドは静的およびアドホックな戦略を使ってメモリ割り当てを行うが、これはしばしば準最適である。本稿では,段階的な段階と異なるオブジェクトクラスに最適化された動的メモリ管理戦略を提案する。
論文参考訳（メタデータ） (2023-01-14T00:07:47Z)
Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-26T18:06:39Z)
A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文参考訳（メタデータ） (2022-05-26T08:24:01Z)
Learning What to Memorize: Using Intrinsic Motivation to Form Useful Memory in Partially Observable Reinforcement Learning [0.0]
曖昧な環境で学習するためには、エージェントは以前の認識を記憶に残さなければならない。本研究では, メモリの制御をエージェントに委ねることで, メモリ変更動作を可能とすることで, メモリの制御をエージェントに行わせるという考え方に従う。この学習メカニズムは、希少な観察を記憶する本質的な動機によって支えられ、エージェントが環境中の状態を曖昧にするのに役立つ。
論文参考訳（メタデータ） (2021-10-25T11:15:54Z)
Kanerva++: extending The Kanerva Machine with differentiable, locally block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文参考訳（メタデータ） (2021-02-20T18:40:40Z)
Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文参考訳（メタデータ） (2020-02-10T03:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。