論文の概要: Evaluating Long-Term Memory in 3D Mazes
- arxiv url: http://arxiv.org/abs/2210.13383v1
- Date: Mon, 24 Oct 2022 16:32:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:31:09.343030
- Title: Evaluating Long-Term Memory in 3D Mazes
- Title(参考訳): 3次元迷路における長期記憶の評価
- Authors: Jurgis Pasukonis, Timothy Lillicrap, Danijar Hafner
- Abstract要約: Memory Mazeはエージェントの長期記憶を評価するために設計されたランダム化迷路の3Dドメインである。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを測定する。
現在のアルゴリズムは、時間の経過とともに縮小したバックプロパゲーションによるトレーニングの恩恵を受け、小さな迷路で成功するが、大きな迷路での人間のパフォーマンスに欠ける。
- 参考スコア(独自算出の注目度): 10.224858246626171
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Intelligent agents need to remember salient information to reason in
partially-observed environments. For example, agents with a first-person view
should remember the positions of relevant objects even if they go out of view.
Similarly, to effectively navigate through rooms agents need to remember the
floor plan of how rooms are connected. However, most benchmark tasks in
reinforcement learning do not test long-term memory in agents, slowing down
progress in this important research direction. In this paper, we introduce the
Memory Maze, a 3D domain of randomized mazes specifically designed for
evaluating long-term memory in agents. Unlike existing benchmarks, Memory Maze
measures long-term memory separate from confounding agent abilities and
requires the agent to localize itself by integrating information over time.
With Memory Maze, we propose an online reinforcement learning benchmark, a
diverse offline dataset, and an offline probing evaluation. Recording a human
player establishes a strong baseline and verifies the need to build up and
retain memories, which is reflected in their gradually increasing rewards
within each episode. We find that current algorithms benefit from training with
truncated backpropagation through time and succeed on small mazes, but fall
short of human performance on the large mazes, leaving room for future
algorithmic designs to be evaluated on the Memory Maze.
- Abstract(参考訳): 知的エージェントは、部分的に観察された環境で推論するために有能な情報を記憶する必要がある。
例えば、一人称ビューを持つエージェントは、たとえ視界から外れても、関連するオブジェクトの位置を記憶すべきである。
同様に、部屋を効果的にナビゲートするには、エージェントは部屋の接続方法のフロアプランを記憶する必要がある。
しかしながら、強化学習におけるほとんどのベンチマークタスクはエージェントの長期記憶をテストせず、この重要な研究方向の進捗を遅くしている。
本稿では,エージェントの長期記憶評価に特化して設計されたランダム化迷路の3次元ドメインであるMemory Mazeを紹介する。
既存のベンチマークとは異なり、Memory Mazeはエージェントの能力から切り離された長期的なメモリを計測し、時間とともに情報を統合することでエージェントをローカライズする必要がある。
memory mazeでは,オンライン強化学習ベンチマーク,多様なオフラインデータセット,オフライン探索評価を提案する。
人間のプレイヤーの記録は強いベースラインを確立し、記憶の蓄積と保持の必要性を検証し、各エピソードにおける報酬の増大に反映される。
現在のアルゴリズムは、時間を通じて停止したバックプロパゲーションをトレーニングし、小さな迷路で成功するが、大きな迷路では人間のパフォーマンスに欠けており、将来のアルゴリズム設計をメモリ迷路で評価する余地がある。
関連論文リスト
- LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory [68.97819665784442]
本稿では,チャットアシスタントの5つのコアメモリ能力を評価するためのベンチマークであるLongMemEvalを紹介する。
LongMemEvalは、既存の長期記憶システムにとって重要な課題である。
長期記憶設計を4つの設計選択に分割する統合フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:44Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Assessing Episodic Memory in LLMs with Sequence Order Recall Tasks [42.22616978679253]
本稿では,認知心理学におけるエピソード記憶研究の課題から順応する逐次リコールタスク(SORT)を紹介する。
SORTはLLMにテキストセグメントの正しい順序を思い出させる必要があり、拡張が容易で追加のアノテーションを必要としない一般的なフレームワークを提供する。
155人の被験者による人間実験から,本書の長期記憶に基づくシーケンス順序を再現できることが示唆された。
論文 参考訳(メタデータ) (2024-10-10T17:17:38Z) - Saliency-Augmented Memory Completion for Continual Learning [8.243137410556495]
忘れる方法は、継続的な学習に対処しなければならない問題である。
本稿では,連続学習のための新たなサリエンシ強化メモリ補完フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-26T18:06:39Z) - A Machine with Short-Term, Episodic, and Semantic Memory Systems [9.42475956340287]
明示的な人間の記憶システムの認知科学理論に触発されて、我々は短期的、エピソード的、セマンティックな記憶システムを持つエージェントをモデル化した。
実験により,人間のような記憶システムを持つエージェントは,このメモリ構造を環境に残さずにエージェントよりも優れた性能を発揮できることが示唆された。
論文 参考訳(メタデータ) (2022-12-05T08:34:23Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Learning to Rehearse in Long Sequence Memorization [107.14601197043308]
既存の推論タスクは、しばしば、推論中に入力内容が常にアクセス可能であるという重要な仮定を持つ。
メモリ拡張ニューラルネットワークは、人間のような書き込み読み取りメモリを導入し、1回のパスで長い入力シーケンスを圧縮し記憶する。
しかし、2つの重大な欠点がある: 1) メモリを現在の情報から継続的に更新し、必然的に初期の内容を忘れる; 2) 重要な情報を区別せず、全てのコンテンツを平等に扱う。
本稿では,履歴サンプリング装置を用いた自己教師型リハーサルによる長期記憶向上のためのリハーサルメモリを提案する。
論文 参考訳(メタデータ) (2021-06-02T11:58:30Z) - Towards mental time travel: a hierarchical memory for reinforcement
learning agents [9.808027857786781]
強化学習エージェントは、特に遅延や邪魔なタスクの後、過去の詳細を忘れることが多い。
エージェントが過去を詳細に記憶するのに役立つ階層型トランスフォーマーメモリ(HTM)を提案する。
HTMのエージェントは、トレーニング対象よりも桁違い長いタスクシーケンスに外挿することができ、メタラーニング環境からゼロショットを一般化してエピソード間の知識を維持することもできる。
論文 参考訳(メタデータ) (2021-05-28T18:12:28Z) - Not All Memories are Created Equal: Learning to Forget by Expiring [49.053569908417636]
本稿では,重要情報の保持を学習し,無関係情報を期限とするExpire-Spanを提案する。
この記憶を忘れることで、トランスフォーマーは数十万以上の前のタイムステップに効率的に参加することができます。
私たちは、Expire-Spanが数万の大きさの記憶にスケールできることを示し、信じられないほど長いコンテキストタスクに新しい状態を設定します。
論文 参考訳(メタデータ) (2021-05-13T20:50:13Z) - Sequential Recommender via Time-aware Attentive Memory Network [67.26862011527986]
本稿では,注意機構と繰り返し単位を改善するための時間ゲーティング手法を提案する。
また,長期と短期の嗜好を統合するマルチホップ・タイムアウェア・アテンテーティブ・メモリ・ネットワークを提案する。
提案手法は,候補探索タスクに対してスケーラブルであり,ドット積に基づくTop-Kレコメンデーションのための潜在因数分解の非線形一般化とみなすことができる。
論文 参考訳(メタデータ) (2020-05-18T11:29:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。