Fugu-MT 論文翻訳(概要): Mastering Memory Tasks with World Models

論文の概要: Mastering Memory Tasks with World Models

arxiv url: http://arxiv.org/abs/2403.04253v1
Date: Thu, 7 Mar 2024 06:35:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-08 14:52:25.082495
Title: Mastering Memory Tasks with World Models
Title（参考訳）: 世界モデルによるメモリタスクのマスタリング
Authors: Mohammad Reza Samsami and Artem Zholus and Janarthanan Rajendran and Sarath Chandar
Abstract要約: 現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。本稿では,時間的コヒーレンスを改善するための新しい手法であるRecall to Imagine (R2I)を提案する。 R2Iは、メモリとクレジットの割り当てに挑戦するRLタスクのための新しい最先端技術を確立する。
参考スコア（独自算出の注目度）: 12.99255437732525
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Current model-based reinforcement learning (MBRL) agents struggle with long-term dependencies. This limits their ability to effectively solve tasks involving extended time gaps between actions and outcomes, or tasks demanding the recalling of distant observations to inform current actions. To improve temporal coherence, we integrate a new family of state space models (SSMs) in world models of MBRL agents to present a new method, Recall to Imagine (R2I). This integration aims to enhance both long-term memory and long-horizon credit assignment. Through a diverse set of illustrative tasks, we systematically demonstrate that R2I not only establishes a new state-of-the-art for challenging memory and credit assignment RL tasks, such as BSuite and POPGym, but also showcases superhuman performance in the complex memory domain of Memory Maze. At the same time, it upholds comparable performance in classic RL tasks, such as Atari and DMC, suggesting the generality of our method. We also show that R2I is faster than the state-of-the-art MBRL method, DreamerV3, resulting in faster wall-time convergence.
Abstract（参考訳）: 現在のモデルベース強化学習(MBRL)エージェントは、長期依存に苦慮している。これにより、行動と結果の間の時間的ギャップを延長するタスクや、現在の行動を伝えるために遠方からの観測のリコールを要求するタスクを効果的に解決する能力が制限される。時間的コヒーレンスを改善するため、MBRLエージェントの世界モデルに新しい状態空間モデル(SSM)を統合し、新しい方法であるRecall to Imagine(R2I)を提案する。この統合は、長期記憶と長期信用割り当ての両方を強化することを目的としている。多様な説明課題を通じて、我々はR2IがBSuiteやPOPGymのようなメモリおよびクレジット割り当てRLタスクに挑戦するための新しい最先端技術を確立するだけでなく、メモリ迷路の複雑なメモリ領域において超人的なパフォーマンスを示すことを体系的に示す。同時に、Atari や DMC といった古典的 RL タスクでは同等のパフォーマンスを保ち、本手法の一般化を示唆している。また,R2Iは最先端のMBRL法であるDreamerV3よりも高速であり,壁面の収束が速いことを示す。

関連論文リスト

MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文参考訳（メタデータ） (2025-06-18T19:44:46Z)
FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.89792845476579]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文参考訳（メタデータ） (2025-06-18T17:06:28Z)
3DLLM-Mem: Long-Term Spatial-Temporal Memory for Embodied 3D Large Language Model [83.70640091897947]
人間は、時間的・空間的な体験にまたがって長期記憶を活用することで、複雑なタスクを実行するのに優れる。現在のLarge Language Models (LLM) は、動的でマルチルームな3D環境において、効果的に計画し、振る舞うのに苦労している。本稿では,空間的時間的推論と動作を具現化した新しい動的メモリ管理と融合モデルである3DLLM-Memを提案する。
論文参考訳（メタデータ） (2025-05-28T17:59:13Z)
Long-Context State-Space Video World Models [66.28743632951218]
本稿では、状態空間モデル(SSM)を活用して、計算効率を損なうことなく時間記憶を拡張する新しいアーキテクチャを提案する。我々の設計の中心はブロックワイズSSMスキャン方式であり、時間記憶の拡張のために空間整合性を戦略的にトレードオフする。メモリ迷路とMinecraftのデータセットの実験は、我々のアプローチが長距離メモリ保存のベースラインを超えたことを示している。
論文参考訳（メタデータ） (2025-05-26T16:12:41Z)
Reinforced Model Merging [53.84354455400038]
本稿では,タスク統合に適した環境とエージェントを含むRMM(Reinforced Model Merging)という,革新的なフレームワークを提案する。評価プロセス中にデータサブセットを利用することで、報酬フィードバックフェーズのボトルネックに対処し、RMMを最大100倍高速化する。
論文参考訳（メタデータ） (2025-03-27T08:52:41Z)
Titans: Learning to Memorize at Test Time [20.12643072017223]
歴史的文脈を記憶するために学習するニューラルな長期記憶モジュールを提案する。このニューラルメモリは高速な推論を維持しつつ、高速な並列化可能なトレーニングの利点があることが示される。我々は、Titansと呼ばれる新しいアーキテクチャのファミリーを紹介し、このアーキテクチャにメモリを効果的に組み込む方法に対処する3つのバリエーションを提示します。
論文参考訳（メタデータ） (2024-12-31T22:32:03Z)
Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文参考訳（メタデータ） (2024-10-14T03:50:17Z)
KARMA: Augmenting Embodied AI Agents with Long-and-short Term Memory Systems [12.461941212597877]
エンボディードAIエージェントは、しばしばコンテキスト内メモリの困難に直面し、タスク実行の非効率性とエラーを引き起こす。我々は,長期記憶モジュールと短期記憶モジュールを統合する革新的なメモリシステムであるKARMAを紹介する。この二重メモリ構造により、エージェントは関連する過去のシーン体験を検索し、タスク計画の精度と効率を向上させることができる。
論文参考訳（メタデータ） (2024-09-23T11:02:46Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
B'MOJO: Hybrid State Space Realizations of Foundation Models with Eidetic and Fading Memory [91.81390121042192]
我々はB'MOJOと呼ばれるモデル群を開発し、構成可能なモジュール内で理想的メモリと暗黙的メモリをシームレスに結合する。 B'MOJOのイデオティックメモリとフェードメモリを変調する能力は、32Kトークンまでテストされた長いシーケンスの推論をより良くする。
論文参考訳（メタデータ） (2024-07-08T18:41:01Z)
Reinforcement Learning with Fast and Forgetful Memory [10.087126455388276]
強化学習(RL)に特化して設計されたアルゴリズムに依存しないメモリモデルであるFast and Forgetful Memoryを導入する。提案手法は,計算心理学に触発された強い構造的先行性を通じて,モデル探索空間を制約する。 Fast and Forgetful Memoryは、リカレントニューラルネットワーク(RNN)よりも2桁高速なトレーニング速度を示す
論文参考訳（メタデータ） (2023-10-06T09:56:26Z)
RecallM: An Adaptable Memory Mechanism with Temporal Understanding for Large Language Models [3.9770715318303353]
RecallMは、適応可能で拡張可能な長期記憶機構を備えた大規模言語モデルを提供するための新しいアーキテクチャである。 RecallM は,長期記憶に格納された知識を更新するためのベクトルデータベースよりも 4 倍有効であることを示す。また、RecallMは、一般的な質問応答およびコンテキスト内学習タスクにおいて、競合性能を示すことを示した。
論文参考訳（メタデータ） (2023-07-06T02:51:54Z)
Facing Off World Model Backbones: RNNs, Transformers, and S4 [24.818868307093766]
世界モデルはモデルベース強化学習(MBRL)の基本要素である我々はS4を含む並列化可能なSSMと互換性のある最初の世界モデルであるS4WMを提案する。以上の結果から,S4WMは長期記憶においてトランスフォーマーをベースとした世界モデルより優れており,トレーニングや想像力の面では効率がよいことが示唆された。
論文参考訳（メタデータ） (2023-07-05T07:00:31Z)
BIMRL: Brain Inspired Meta Reinforcement Learning [5.993003891247583]
効率的なエージェントは、以前の経験を生かして、似ているが新しいタスクや状況に迅速に適応できなければならない。本稿では,脳にインスパイアされた新しいメモリモジュールとともに,新しい多層アーキテクチャであるBIMRLを紹介する。提案手法の有効性を実証的に検証し,複数のMiniGrid環境上での強いベースラインの性能と競合するか,あるいは超越して検証する。
論文参考訳（メタデータ） (2022-10-29T08:34:47Z)
Multitask Adaptation by Retrospective Exploration with Learned World Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文参考訳（メタデータ） (2021-10-25T20:02:57Z)
Temporal Memory Relation Network for Workflow Recognition from Surgical Video [53.20825496640025]
本研究では, 長期および多スケールの時間パターンを関連づける, エンドツーエンドの時間メモリ関係ネットワーク (TMNet) を提案する。我々はこのアプローチを2つのベンチマーク手術ビデオデータセットで広範囲に検証した。
論文参考訳（メタデータ） (2021-03-30T13:20:26Z)
Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文参考訳（メタデータ） (2020-10-14T09:03:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。