論文の概要: Mastering Memory Tasks with World Models
- arxiv url: http://arxiv.org/abs/2403.04253v1
- Date: Thu, 7 Mar 2024 06:35:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-08 14:52:25.082495
- Title: Mastering Memory Tasks with World Models
- Title(参考訳): 世界モデルによるメモリタスクのマスタリング
- Authors: Mohammad Reza Samsami and Artem Zholus and Janarthanan Rajendran and
Sarath Chandar
- Abstract要約: 現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。
本稿では,時間的コヒーレンスを改善するための新しい手法であるRecall to Imagine (R2I)を提案する。
R2Iは、メモリとクレジットの割り当てに挑戦するRLタスクのための新しい最先端技術を確立する。
- 参考スコア(独自算出の注目度): 12.99255437732525
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Current model-based reinforcement learning (MBRL) agents struggle with
long-term dependencies. This limits their ability to effectively solve tasks
involving extended time gaps between actions and outcomes, or tasks demanding
the recalling of distant observations to inform current actions. To improve
temporal coherence, we integrate a new family of state space models (SSMs) in
world models of MBRL agents to present a new method, Recall to Imagine (R2I).
This integration aims to enhance both long-term memory and long-horizon credit
assignment. Through a diverse set of illustrative tasks, we systematically
demonstrate that R2I not only establishes a new state-of-the-art for
challenging memory and credit assignment RL tasks, such as BSuite and POPGym,
but also showcases superhuman performance in the complex memory domain of
Memory Maze. At the same time, it upholds comparable performance in classic RL
tasks, such as Atari and DMC, suggesting the generality of our method. We also
show that R2I is faster than the state-of-the-art MBRL method, DreamerV3,
resulting in faster wall-time convergence.
- Abstract(参考訳): 現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。
これにより、行動と結果の間の時間的ギャップを延長するタスクや、現在の行動を伝えるために遠方からの観測のリコールを要求するタスクを効果的に解決する能力が制限される。
時間的コヒーレンスを改善するため、MBRLエージェントの世界モデルに新しい状態空間モデル(SSM)を統合し、新しい方法であるRecall to Imagine(R2I)を提案する。
この統合は、長期記憶と長期信用割り当ての両方を強化することを目的としている。
多様な説明課題を通じて、我々はR2IがBSuiteやPOPGymのようなメモリおよびクレジット割り当てRLタスクに挑戦するための新しい最先端技術を確立するだけでなく、メモリ迷路の複雑なメモリ領域において超人的なパフォーマンスを示すことを体系的に示す。
同時に、Atari や DMC といった古典的 RL タスクでは同等のパフォーマンスを保ち、本手法の一般化を示唆している。
また,R2Iは最先端のMBRL法であるDreamerV3よりも高速であり,壁面の収束が速いことを示す。
関連論文リスト
- Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems [12.461941212597877]
エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。
我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。
この二重メモリ構造により、エージェントは関連する過去のシーン体験を検索し、タスク計画の精度と効率を向上させることができる。
論文 参考訳(メタデータ) (2024-09-23T11:02:46Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。
B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文 参考訳(メタデータ) (2024-07-08T18:41:01Z) - Reinforcement Learning with Fast and Forgetful Memory [10.087126455388276]
強化学習(RL)に特化して設計されたアルゴリズムに依存しないメモリモデルであるFast and Forgetful Memoryを導入する。
提案手法は,計算心理学に触発された強い構造的先行性を通じて,モデル探索空間を制約する。
Fast and Forgetful Memoryは、リカレントニューラルネットワーク(RNN)よりも2桁高速なトレーニング速度を示す
論文 参考訳(メタデータ) (2023-10-06T09:56:26Z) - RecallM: An Adaptable Memory Mechanism with Temporal Understanding for
Large Language Models [3.9770715318303353]
RecallMは、適応可能で拡張可能な長期記憶機構を備えた大規模言語モデルを提供するための新しいアーキテクチャである。
RecallM は,長期記憶に格納された知識を更新するためのベクトルデータベースよりも 4 倍有効であることを示す。
また、RecallMは、一般的な質問応答およびコンテキスト内学習タスクにおいて、競合性能を示すことを示した。
論文 参考訳(メタデータ) (2023-07-06T02:51:54Z) - Facing Off World Model Backbones: RNNs, Transformers, and S4 [24.818868307093766]
世界モデルはモデルベース強化学習(MBRL)の基本要素である
我々はS4を含む並列化可能なSSMと互換性のある最初の世界モデルであるS4WMを提案する。
以上の結果から,S4WMは長期記憶においてトランスフォーマーをベースとした世界モデルより優れており,トレーニングや想像力の面では効率がよいことが示唆された。
論文 参考訳(メタデータ) (2023-07-05T07:00:31Z) - BIMRL: Brain Inspired Meta Reinforcement Learning [5.993003891247583]
効率的なエージェントは、以前の経験を生かして、似ているが新しいタスクや状況に迅速に適応できなければならない。
本稿では,脳にインスパイアされた新しいメモリモジュールとともに,新しい多層アーキテクチャであるBIMRLを紹介する。
提案手法の有効性を実証的に検証し,複数のMiniGrid環境上での強いベースラインの性能と競合するか,あるいは超越して検証する。
論文 参考訳(メタデータ) (2022-10-29T08:34:47Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Temporal Memory Relation Network for Workflow Recognition from Surgical
Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。
我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文 参考訳(メタデータ) (2021-03-30T13:20:26Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。