論文の概要: Mastering Memory Tasks with World Models
- arxiv url: http://arxiv.org/abs/2403.04253v1
- Date: Thu, 7 Mar 2024 06:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:52:25.082495
- Title: Mastering Memory Tasks with World Models
- Title(参考訳): 世界モデルによるメモリタスクのマスタリング
- Authors: Mohammad Reza Samsami and Artem Zholus and Janarthanan Rajendran and
Sarath Chandar
- Abstract要約: 現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。
本稿では,時間的コヒーレンスを改善するための新しい手法であるRecall to Imagine (R2I)を提案する。
R2Iは、メモリとクレジットの割り当てに挑戦するRLタスクのための新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 12.99255437732525
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current model-based reinforcement learning (MBRL) agents struggle with
long-term dependencies. This limits their ability to effectively solve tasks
involving extended time gaps between actions and outcomes, or tasks demanding
the recalling of distant observations to inform current actions. To improve
temporal coherence, we integrate a new family of state space models (SSMs) in
world models of MBRL agents to present a new method, Recall to Imagine (R2I).
This integration aims to enhance both long-term memory and long-horizon credit
assignment. Through a diverse set of illustrative tasks, we systematically
demonstrate that R2I not only establishes a new state-of-the-art for
challenging memory and credit assignment RL tasks, such as BSuite and POPGym,
but also showcases superhuman performance in the complex memory domain of
Memory Maze. At the same time, it upholds comparable performance in classic RL
tasks, such as Atari and DMC, suggesting the generality of our method. We also
show that R2I is faster than the state-of-the-art MBRL method, DreamerV3,
resulting in faster wall-time convergence.
- Abstract(参考訳): 現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。
これにより、行動と結果の間の時間的ギャップを延長するタスクや、現在の行動を伝えるために遠方からの観測のリコールを要求するタスクを効果的に解決する能力が制限される。
時間的コヒーレンスを改善するため、MBRLエージェントの世界モデルに新しい状態空間モデル(SSM)を統合し、新しい方法であるRecall to Imagine(R2I)を提案する。
この統合は、長期記憶と長期信用割り当ての両方を強化することを目的としている。
多様な説明課題を通じて、我々はR2IがBSuiteやPOPGymのようなメモリおよびクレジット割り当てRLタスクに挑戦するための新しい最先端技術を確立するだけでなく、メモリ迷路の複雑なメモリ領域において超人的なパフォーマンスを示すことを体系的に示す。
同時に、Atari や DMC といった古典的 RL タスクでは同等のパフォーマンスを保ち、本手法の一般化を示唆している。
また,R2Iは最先端のMBRL法であるDreamerV3よりも高速であり,壁面の収束が速いことを示す。
関連論文リスト
- Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - Reinforcement Learning with Fast and Forgetful Memory [10.087126455388276]
強化学習(RL)に特化して設計されたアルゴリズムに依存しないメモリモデルであるFast and Forgetful Memoryを導入する。
提案手法は,計算心理学に触発された強い構造的先行性を通じて,モデル探索空間を制約する。
Fast and Forgetful Memoryは、リカレントニューラルネットワーク(RNN)よりも2桁高速なトレーニング速度を示す
論文 参考訳(メタデータ) (2023-10-06T09:56:26Z) - RecallM: An Adaptable Memory Mechanism with Temporal Understanding for
Large Language Models [3.9770715318303353]
RecallMは、適応可能で拡張可能な長期記憶機構を備えた大規模言語モデルを提供するための新しいアーキテクチャである。
RecallM は,長期記憶に格納された知識を更新するためのベクトルデータベースよりも 4 倍有効であることを示す。
また、RecallMは、一般的な質問応答およびコンテキスト内学習タスクにおいて、競合性能を示すことを示した。
論文 参考訳(メタデータ) (2023-07-06T02:51:54Z) - Facing Off World Model Backbones: RNNs, Transformers, and S4 [24.818868307093766]
世界モデルはモデルベース強化学習(MBRL)の基本要素である
我々はS4を含む並列化可能なSSMと互換性のある最初の世界モデルであるS4WMを提案する。
以上の結果から,S4WMは長期記憶においてトランスフォーマーをベースとした世界モデルより優れており,トレーニングや想像力の面では効率がよいことが示唆された。
論文 参考訳(メタデータ) (2023-07-05T07:00:31Z) - Two-Memory Reinforcement Learning [7.021281655855703]
エピソード記憶と強化学習には、それぞれ独自の長所と短所がある。
本稿では,2次元記憶と強化学習を組み合わせた2次元記憶強化学習エージェント (2M) を提案する。
実験により,2Mエージェントはよりデータ効率が高く,純粋なエピソード記憶と純粋な強化学習の両方に優れることが示された。
論文 参考訳(メタデータ) (2023-04-20T05:39:25Z) - BIMRL: Brain Inspired Meta Reinforcement Learning [5.993003891247583]
効率的なエージェントは、以前の経験を生かして、似ているが新しいタスクや状況に迅速に適応できなければならない。
本稿では,脳にインスパイアされた新しいメモリモジュールとともに,新しい多層アーキテクチャであるBIMRLを紹介する。
提案手法の有効性を実証的に検証し,複数のMiniGrid環境上での強いベースラインの性能と競合するか,あるいは超越して検証する。
論文 参考訳(メタデータ) (2022-10-29T08:34:47Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Learning to Ignore: Long Document Coreference with Bounded Memory Neural
Networks [65.3963282551994]
我々は、すべてのエンティティをメモリに保持することは不要であると主張し、同時に少数のエンティティだけを追跡するメモリ拡張ニューラルネットワークを提案する。
a)OntoNotesとLitBankの高メモリ・計算要求モデルと競合する傾向にあり,(b)ルールベースの戦略よりも容易に効率の良いメモリ管理戦略を学習できることを示す。
論文 参考訳(メタデータ) (2020-10-06T15:16:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。