Fugu-MT 論文翻訳(概要): Learning What to Memorize: Using Intrinsic Motivation to Form Useful Memory in Partially Observable Reinforcement Learning

論文の概要: Learning What to Memorize: Using Intrinsic Motivation to Form Useful Memory in Partially Observable Reinforcement Learning

arxiv url: http://arxiv.org/abs/2110.12810v1
Date: Mon, 25 Oct 2021 11:15:54 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-26 14:45:36.446407
Title: Learning What to Memorize: Using Intrinsic Motivation to Form Useful Memory in Partially Observable Reinforcement Learning
Title（参考訳）: 覚えるべきことの学習--本質的な動機を用いた部分観察型強化学習における有用記憶の形成
Authors: Alper Demir
Abstract要約: 曖昧な環境で学習するためには、エージェントは以前の認識を記憶に残さなければならない。本研究では, メモリの制御をエージェントに委ねることで, メモリ変更動作を可能とすることで, メモリの制御をエージェントに行わせるという考え方に従う。この学習メカニズムは、希少な観察を記憶する本質的な動機によって支えられ、エージェントが環境中の状態を曖昧にするのに役立つ。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Reinforcement Learning faces an important challenge in partial observable environments that has long-term dependencies. In order to learn in an ambiguous environment, an agent has to keep previous perceptions in a memory. Earlier memory based approaches use a fixed method to determine what to keep in the memory, which limits them to certain problems. In this study, we follow the idea of giving the control of the memory to the agent by allowing it to have memory-changing actions. This learning mechanism is supported by an intrinsic motivation to memorize rare observations that can help the agent to disambiguate its state in the environment. Our approach is experimented and analyzed on several partial observable tasks with long-term dependencies and compared with other memory based methods.
Abstract（参考訳）: 強化学習は、長期的な依存関係を持つ部分観測環境において、重要な課題に直面している。曖昧な環境で学ぶためには、エージェントは以前の認識をメモリに保持する必要がある。以前のメモリベースのアプローチでは、固定されたメソッドを使用して、メモリに何を保持するかを決定する。本研究では,エージェントにメモリ交換動作を行うことで,エージェントにメモリの制御を与えるという考え方に従う。この学習メカニズムは、エージェントが環境における状態を曖昧にするのに役立つ希少な観察を記憶する本質的な動機によって支えられている。本手法は, 長期依存のある部分可観測タスクを実験し, 解析し, 他のメモリベース手法と比較した。

関連論文リスト

MemoryArena: Benchmarking Agent Memory in Interdependent Multi-Session Agentic Tasks [55.145729491377374]
メモリを持つエージェントの既存の評価は、通常、単独で記憶と行動を評価する。マルチセッションメモリ-エージェント環境ループにおけるエージェントメモリのベンチマークのための統合評価ジムであるMemoryArenaを紹介する。 MemoryArenaは、Webナビゲーション、優先制約付き計画、プログレッシブ情報検索、シーケンシャルなフォーマルな推論を含む評価をサポートする。
論文参考訳（メタデータ） (2026-02-18T09:49:14Z)
Rethinking Memory Mechanisms of Foundation Agents in the Second Half: A Survey [211.01908189012184]
今年、何百もの論文が公開されたメモリは、ユーティリティギャップを埋めるための重要なソリューションとして現れます。ファンデーションエージェントのメモリを3次元に統一したビューを提供する。次に、異なるエージェントトポロジの下でメモリがどのようにインスタンス化され、操作されるかを分析する。
論文参考訳（メタデータ） (2026-01-14T07:38:38Z)
Memory Matters More: Event-Centric Memory as a Logic Map for Agent Searching and Reasoning [55.251697395358285]
大規模言語モデル(LLM)は、環境を推論し、計画し、相互作用するインテリジェントエージェントとして、ますます多くデプロイされている。長期のシナリオに効果的にスケールするには、そのようなエージェントの重要な機能は、過去の経験を保持し、整理し、取り出すことができるメモリメカニズムである。イベント理論にインスパイアされたイベント中心のメモリフレームワークであるCompassMemを提案する。
論文参考訳（メタデータ） (2026-01-08T08:44:07Z)
Memento 2: Learning by Stateful Reflective Memory [4.7052412989773975]
本研究では,多言語モデル(LLM)に基づくエージェントにおける連続学習について検討する。我々は、リフレクション、エージェントが過去の経験を再考し、将来の行動をどのように選択するかを調整する能力に焦点を当てる。我々は、エージェントがエピソード記憶を維持・更新し、新しい体験を記憶に書き込むことと、関連する事例を読み取って意思決定をガイドする「ステートフル・リフレクティブ・意思決定プロセス(SRDP)」を紹介した。
論文参考訳（メタデータ） (2025-12-27T22:15:03Z)
Memory in the Age of AI Agents [217.9368190980982]
この研究は、現在のエージェントメモリ研究の最新の展望を提供することを目的としている。我々は,エージェントメモリ,すなわちトークンレベル,パラメトリック,潜時メモリの3つの支配的実現を同定する。実用的な開発を支援するため、メモリベンチマークとオープンソースフレームワークの包括的な概要をコンパイルする。
論文参考訳（メタデータ） (2025-12-15T17:22:34Z)
Evaluating Long-Term Memory for Long-Context Question Answering [100.1267054069757]
質問応答タスクにアノテートした合成長文対話のベンチマークであるLoCoMoを用いて,メモリ拡張手法の体系的評価を行う。以上の結果から,メモリ拡張アプローチによりトークン使用率が90%以上削減され,競争精度が向上した。
論文参考訳（メタデータ） (2025-10-27T18:03:50Z)
How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [49.62361184944454]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文参考訳（メタデータ） (2025-05-21T22:35:01Z)
Unraveling the Complexity of Memory in RL Agents: an Approach for Classification and Evaluation [39.69790911626182]
強化学習領域(RL)における多数のタスクにおいて、エージェントへのメモリの取り込みが不可欠であるメモリ」という用語は幅広い概念を包含しており、エージェントのメモリを検証するための統一的な方法論が欠如していることと相まって、エージェントのメモリ能力に関する誤った判断につながる。本稿では,エージェントメモリタイプを正確に定義することで,RLにおけるメモリ概念の合理化を目指す。
論文参考訳（メタデータ） (2024-12-09T14:34:31Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
In-Memory Learning: A Declarative Learning Framework for Large Language Models [56.62616975119192]
本研究では,人間ラベルデータに頼らずにエージェントが環境に整合できる新しい学習フレームワークを提案する。このプロセス全体がメモリコンポーネント内で変換され、自然言語で実装される。フレームワークの有効性を実証し、この問題に対する洞察を提供する。
論文参考訳（メタデータ） (2024-03-05T08:25:11Z)
Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文参考訳（メタデータ） (2023-10-10T15:41:26Z)
Saliency-Guided Hidden Associative Replay for Continual Learning [13.551181595881326]
継続学習(Continuous Learning)は、人間の学習に似た一連のタスクを通じてニューラルネットワークをトレーニングすることに焦点を当てた、次世代AIの急成長する領域である。本稿では,継続的学習のためのSaliency Guided Hidden Associative Replayを提案する。この新しいフレームワークは、アソシエイトメモリをリプレイベースの戦略でシナジする。SHARCは主にスパースメモリエンコーディングを通じて、有能なデータセグメントをアーカイブする。
論文参考訳（メタデータ） (2023-10-06T15:54:12Z)
Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文参考訳（メタデータ） (2022-12-26T18:06:39Z)
Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文参考訳（メタデータ） (2022-10-24T16:32:28Z)
Pin the Memory: Learning to Generalize Semantic Segmentation [68.367763672095]
本稿ではメタラーニングフレームワークに基づくセマンティックセグメンテーションのための新しいメモリ誘導ドメイン一般化手法を提案する。本手法は,セマンティッククラスの概念的知識を,ドメインを超えて一定であるカテゴリ記憶に抽象化する。
論文参考訳（メタデータ） (2022-04-07T17:34:01Z)
Learning to Learn Variational Semantic Memory [132.39737669936125]
我々はメタラーニングに変分セマンティックメモリを導入し、数ショットラーニングのための長期的知識を得る。セマンティックメモリはスクラッチから成長し、経験したタスクから情報を吸収することで徐々に統合される。アドレスコンテンツから潜在記憶変数の変動推論としてメモリリコールを定式化する。
論文参考訳（メタデータ） (2020-10-20T15:05:26Z)
The act of remembering: a study in partially observable reinforcement learning [24.945756871291348]
強化学習(Reinforcement Learning, RL)エージェントは、通常、アクションを選択するときの最後の観察のみを考慮するメモリレスポリシーを学ぶ。エージェントに外部メモリと追加アクションを提供して、もし何かあれば、メモリに書き込まれるものを制御する。我々の新しいメモリ形態は、よく確立された部分的に観測可能な領域におけるバイナリとLSTMベースのメモリより優れている。
論文参考訳（メタデータ） (2020-10-05T02:56:43Z)
Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文参考訳（メタデータ） (2020-02-10T03:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。