論文の概要: Towards mental time travel: a hierarchical memory for reinforcement
learning agents
- arxiv url: http://arxiv.org/abs/2105.14039v1
- Date: Fri, 28 May 2021 18:12:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:36:43.014296
- Title: Towards mental time travel: a hierarchical memory for reinforcement
learning agents
- Title(参考訳): メンタルタイムトラベルに向けて:強化学習エージェントのための階層記憶
- Authors: Andrew Kyle Lampinen, Stephanie C.Y. Chan, Andrea Banino, Felix Hill
- Abstract要約: 強化学習エージェントは、特に遅延や邪魔なタスクの後、過去の詳細を忘れることが多い。
エージェントが過去を詳細に記憶するのに役立つ階層型トランスフォーマーメモリ(HTM)を提案する。
HTMのエージェントは、トレーニング対象よりも桁違い長いタスクシーケンスに外挿することができ、メタラーニング環境からゼロショットを一般化してエピソード間の知識を維持することもできる。
- 参考スコア(独自算出の注目度): 9.808027857786781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning agents often forget details of the past, especially
after delays or distractor tasks. Agents with common memory architectures
struggle to recall and integrate across multiple timesteps of a past event, or
even to recall the details of a single timestep that is followed by distractor
tasks. To address these limitations, we propose a Hierarchical Transformer
Memory (HTM), which helps agents to remember the past in detail. HTM stores
memories by dividing the past into chunks, and recalls by first performing
high-level attention over coarse summaries of the chunks, and then performing
detailed attention within only the most relevant chunks. An agent with HTM can
therefore "mentally time-travel" -- remember past events in detail without
attending to all intervening events. We show that agents with HTM substantially
outperform agents with other memory architectures at tasks requiring long-term
recall, retention, or reasoning over memory. These include recalling where an
object is hidden in a 3D environment, rapidly learning to navigate efficiently
in a new neighborhood, and rapidly learning and retaining new object names.
Agents with HTM can extrapolate to task sequences an order of magnitude longer
than they were trained on, and can even generalize zero-shot from a
meta-learning setting to maintaining knowledge across episodes. HTM improves
agent sample efficiency, generalization, and generality (by solving tasks that
previously required specialized architectures). Our work is a step towards
agents that can learn, interact, and adapt in complex and temporally-extended
environments.
- Abstract(参考訳): 強化学習エージェントは、特に遅延や邪魔なタスクの後、過去の詳細を忘れることが多い。
共通のメモリアーキテクチャを持つエージェントは、過去のイベントの複数のタイムステップを思い出したり、統合したりするのに苦労しています。
これらの制約に対処するために,エージェントが過去を詳細に記憶するのに役立つ階層型トランスフォーマーメモリ(HTM)を提案する。
htmは過去をチャンクに分割して記憶を保存し、まずチャンクの粗い要約に対してハイレベルな注意を払い、次に最も関連するチャンクのみに詳細な注意を払う。
したがって、htmを持つエージェントは、すべての介入イベントに出席せずに、過去の出来事を詳細に記憶して、"メントリータイムトラベリング"することができる。
HTMのエージェントは、長期のリコール、保持、またはメモリ上の推論を必要とするタスクにおいて、他のメモリアーキテクチャのエージェントよりも大幅に優れていた。
例えば、オブジェクトが3d環境に隠れている場所をリコールしたり、新しい近所で効率的にナビゲートするために素早く学習したり、新しいオブジェクト名を素早く学習したり保持したりする。
HTMのエージェントは、トレーニング対象よりも桁違い長いタスクシーケンスに外挿することができ、メタラーニング環境からゼロショットを一般化してエピソード間の知識を維持することもできる。
HTMはエージェントサンプル効率、一般化、一般化(以前は特殊なアーキテクチャを必要としていたタスクの解決)を改善している。
私たちの仕事は、複雑で時間的に拡張された環境で学習し、相互作用し、適応できるエージェントへの一歩です。
関連論文リスト
- KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems [12.461941212597877]
エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。
この二重メモリ構造により、エージェントは関連する過去のシーン体験を検索し、タスク計画の精度と効率を向上させることができる。
論文 参考訳(メタデータ) (2024-09-23T11:02:46Z) - A Survey on the Memory Mechanism of Large Language Model based Agents [66.4963345269611]
大規模言語モデル(LLM)に基づくエージェントは、最近、研究や産業コミュニティから多くの注目を集めている。
LLMベースのエージェントは、現実の問題を解決する基礎となる自己進化能力に特徴付けられる。
エージェント-環境相互作用をサポートする重要なコンポーネントは、エージェントのメモリである。
論文 参考訳(メタデータ) (2024-04-21T01:49:46Z) - Exploring Memorization in Fine-tuned Language Models [53.52403444655213]
我々は,タスク間の微調整中に,言語モデルの暗記を探索する最初の包括的分析を行う。
オープンソースと、さまざまなタスクにまたがる独自の微調整LMによる研究は、暗記が様々な微調整タスクの間に強い相違を示すことを示している。
本稿では,この課題の相違をスパース符号化理論を用いて直感的に説明し,暗記と注目スコア分布との強い相関関係を明らかにする。
論文 参考訳(メタデータ) (2023-10-10T15:41:26Z) - Semantic HELM: A Human-Readable Memory for Reinforcement Learning [9.746397419479445]
人間の言語における過去の出来事を表現する新しい記憶機構を提案する。
私たちは、部分的に観測可能な環境のセットでメモリメカニズムをトレーニングし、それがメモリコンポーネントを必要とするタスクに優れていることを見つけます。
メモリメカニズムは人間が読めるので、エージェントのメモリを覗き見して、重要な情報が保存されているかどうかを確認することができます。
論文 参考訳(メタデータ) (2023-06-15T17:47:31Z) - Evaluating Long-Term Memory in 3D Mazes [10.224858246626171]
Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
論文 参考訳(メタデータ) (2022-10-24T16:32:28Z) - Memory-Guided Semantic Learning Network for Temporal Sentence Grounding [55.31041933103645]
本稿では,TSGタスクにおいて稀に出現しないコンテンツを学習し,記憶するメモリ拡張ネットワークを提案する。
MGSL-Netは、クロスモーダル・インターアクション・モジュール、メモリ拡張モジュール、異種アテンション・モジュールの3つの主要な部分で構成されている。
論文 参考訳(メタデータ) (2022-01-03T02:32:06Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Not All Memories are Created Equal: Learning to Forget by Expiring [49.053569908417636]
本稿では,重要情報の保持を学習し,無関係情報を期限とするExpire-Spanを提案する。
この記憶を忘れることで、トランスフォーマーは数十万以上の前のタイムステップに効率的に参加することができます。
私たちは、Expire-Spanが数万の大きさの記憶にスケールできることを示し、信じられないほど長いコンテキストタスクに新しい状態を設定します。
論文 参考訳(メタデータ) (2021-05-13T20:50:13Z) - Continual Learning in Low-rank Orthogonal Subspaces [86.36417214618575]
連続学習(CL)では、学習者は一連のタスクに直面して次々に到着し、学習経験が終わるとすべてのタスクを覚えることが目的である。
CLの以前の技術は、タスク間の干渉を減らすためにエピソードメモリ、パラメータ正規化、ネットワーク構造を使用していたが、最終的には、全てのアプローチが共同ベクトル空間で異なるタスクを学習する。
干渉を最小限に抑えるために互いに直交する異なる(低ランクな)ベクトル部分空間でタスクを学習することを提案する。
論文 参考訳(メタデータ) (2020-10-22T12:07:43Z) - Perception-Prediction-Reaction Agents for Deep Reinforcement Learning [12.566380944901816]
本稿では,長期記憶を必要とするタスクにおける強化学習を改善するために,新しいリカレントエージェントアーキテクチャを提案する。
新しい補助的損失は、3つのコアすべてから引き出されたポリシーを互いに規則化し、ポリシーが最近の記憶と長期記憶の両方から表現できることを前倒しする。
論文 参考訳(メタデータ) (2020-06-26T21:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。