論文の概要: ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL
- arxiv url: http://arxiv.org/abs/2510.07151v1
- Date: Wed, 08 Oct 2025 15:50:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.602933
- Title: ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL
- Title(参考訳): ELMUR: Long-Horizon RLの更新/リライトによる外部レイヤメモリ
- Authors: Egor Cherepanov, Alexey K. Kovalev, Aleksandr I. Panov,
- Abstract要約: 本研究では,外部メモリを構造化したトランスアーキテクチャであるEMMURを提案する。
ELMURは、注意窓の向こうに10万倍の有効地平線を拡大する。
最大100万歩の廊下を持つ合成T-Mazeタスクで100%の成功率を達成する。
- 参考スコア(独自算出の注目度): 48.214881182054164
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world robotic agents must act under partial observability and long horizons, where key cues may appear long before they affect decision making. However, most modern approaches rely solely on instantaneous information, without incorporating insights from the past. Standard recurrent or transformer models struggle with retaining and leveraging long-term dependencies: context windows truncate history, while naive memory extensions fail under scale and sparsity. We propose ELMUR (External Layer Memory with Update/Rewrite), a transformer architecture with structured external memory. Each layer maintains memory embeddings, interacts with them via bidirectional cross-attention, and updates them through an Least Recently Used (LRU) memory module using replacement or convex blending. ELMUR extends effective horizons up to 100,000 times beyond the attention window and achieves a 100% success rate on a synthetic T-Maze task with corridors up to one million steps. In POPGym, it outperforms baselines on more than half of the tasks. On MIKASA-Robo sparse-reward manipulation tasks with visual observations, it nearly doubles the performance of strong baselines. These results demonstrate that structured, layer-local external memory offers a simple and scalable approach to decision making under partial observability.
- Abstract(参考訳): 現実世界のロボットエージェントは、部分的な観測可能性と長い地平線の下で行動しなければなりません。
しかし、現代のほとんどのアプローチは、過去の洞察を取り入れることなく、瞬間的な情報にのみ依存している。
標準的なリカレントモデルやトランスフォーマーモデルは、長期的依存関係の保持と活用に苦慮している。
外部メモリを構造化したトランスアーキテクチャであるEMMUR(External Layer Memory with Update/Rewrite)を提案する。
各レイヤはメモリの埋め込みを保持し、双方向のクロスアテンションを介して相互作用し、置換または凸ブレンディングを使用してLRU(Last recently Used)メモリモジュールを通じて更新する。
ELMURは、注意窓から最大10万倍の有効地平線を延長し、最大100万歩の廊下を持つ合成T-Mazeタスクで100%の成功率を達成する。
POPGymでは、タスクの半分以上でベースラインを上回ります。
MIKASA-Robo Sparse-Reward Operation Task with visual observedでは、強いベースラインの性能をほぼ2倍に向上させる。
これらの結果は、構造化されたレイヤローカルな外部メモリが、部分的な可観測性の下で意思決定にシンプルでスケーラブルなアプローチを提供することを示している。
関連論文リスト
- Memory-R1: Enhancing Large Language Model Agents to Manage and Utilize Memories via Reinforcement Learning [89.55738101744657]
大規模言語モデル(LLM)は、幅広いNLPタスクで印象的な機能を示しているが、基本的にはステートレスである。
本稿では,LLMに外部メモリを積極的に管理・活用する機能を備えた強化学習フレームワークであるMemory-R1を提案する。
論文 参考訳(メタデータ) (2025-08-27T12:26:55Z) - MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation [59.31354761628506]
このようなタスクは本質的にマルコフ的ではないが、主流のVLAモデルはそれを見落としているため、ロボット操作には時間的コンテキストが不可欠である。
本稿では,長距離ロボット操作のためのコグニション・メモリ・アクション・フレームワークであるMemoryVLAを提案する。
本稿では,3つのロボットを対象とした150以上のシミュレーションと実世界のタスクについて評価する。
論文 参考訳(メタデータ) (2025-08-26T17:57:16Z) - MEM1: Learning to Synergize Memory and Reasoning for Efficient Long-Horizon Agents [84.62985963113245]
我々は,長時間のマルチターンタスクに対して,エージェントが一定のメモリで動作可能な,エンドツーエンドの強化学習フレームワークMEM1を紹介する。
各ターンでMEM1は、メモリ統合と推論を共同でサポートするコンパクトな共有内部状態を更新する。
その結果,MEM1-7Bは16目的のマルチホップQAタスクにおいて,Qwen2.5-14B-Instructと比較してメモリ使用量を3.7倍削減し,3.5倍の性能向上を示す。
論文 参考訳(メタデータ) (2025-06-18T19:44:46Z) - ATLAS: Learning to Optimally Memorize the Context at Test Time [31.41718170413687]
ATLASは、コンテキストを記憶する能力の高い長期記憶モジュールである。
本稿では,従来のトランスフォーマーアーキテクチャの厳密な一般化であるDeep Transformerと呼ばれる,トランスフォーマーライクなアーキテクチャの新たなファミリーを紹介する。
論文 参考訳(メタデータ) (2025-05-29T17:57:16Z) - R$^3$Mem: Bridging Memory Retention and Retrieval via Reversible Compression [24.825945729508682]
情報保持と検索の両方を最適化するメモリネットワークであるR$3$Memを提案する。
R$3$Memは、仮想メモリトークンを使用して無限に長い履歴を圧縮およびエンコードし、階層的な圧縮戦略によってさらに強化される。
実験により,長文言語モデリングおよび検索強化生成タスクにおいて,メモリ設計が最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2025-02-21T21:39:00Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。