論文の概要: Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.19732v1
- Date: Wed, 22 Oct 2025 16:24:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.135932
- Title: Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning
- Title(参考訳): メモ:強化学習による記憶能増強剤の訓練
- Authors: Gunshi Gupta, Karmesh Yadav, Zsolt Kira, Yarin Gal, Rahaf Aljundi,
- Abstract要約: Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
- 参考スコア(独自算出の注目度): 53.72709564555407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To enable embodied agents to operate effectively over extended timeframes, it is crucial to develop models that form and access memories to stay contextualized in their environment. In the current paradigm of training transformer-based policies for embodied sequential decision-making tasks, visual inputs often overwhelm the context limits of transformers, while humans can maintain and utilize a lifetime of experience compressed as memories. Significant compression is possible in principle, as much of the input is irrelevant and can be abstracted. However, existing approaches predominantly focus on either recurrent models with fixed-size memory or transformers with full-context reliance. In this work, we propose Memo, a transformer-based architecture and training recipe for reinforcement learning (RL) on memory-intensive, long-horizon tasks. Memo incorporates the creation and retrieval of memory by interleaving periodic summarization tokens with the inputs of a model during training. We demonstrate Memo's effectiveness on a gridworld meta-RL benchmark and a multi-object navigation task in photo-realistic indoor settings. Memo outperforms naive long-context transformer baselines while being more compute and storage efficient. Additionally, Memo generalizes better to longer contexts at inference time and remains robust in streaming settings, where historical context must be truncated to fit inference constraints.
- Abstract(参考訳): エンボディエージェントが拡張タイムフレーム上で効果的に動作するようにするためには、環境の中でコンテキストを保ちながらメモリを形成・アクセスするモデルを開発することが不可欠である。
シーケンシャルな意思決定タスクを具体化するためのトランスフォーマーベースの政策を訓練する現在のパラダイムでは、視覚的な入力はしばしばトランスフォーマーのコンテキスト限界を圧倒し、人間は記憶として圧縮された経験の寿命を維持および利用することができる。
重要な圧縮は原則として可能であり、多くの入力は無関係であり、抽象化することができる。
しかし、既存のアプローチは主に、固定サイズのメモリを持つリカレントモデルか、フルコンテキスト依存のトランスフォーマーに重点を置いている。
本研究では,メモリ集約型長期タスクにおける強化学習(RL)のためのトランスフォーマーベースアーキテクチャとトレーニングレシピであるMemoを提案する。
Memoは、トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を取り入れている。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
Memoは、より計算とストレージ効率を向上しながら、単純で長いコンテキストのトランスフォーマーベースラインを上回ります。
さらに、Memoは推論時により長いコンテキストを一般化し、推論制約に合うように歴史的コンテキストを切り詰めなければならないストリーミング設定では堅牢である。
関連論文リスト
- FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Stable Hadamard Memory: Revitalizing Memory-Augmented Agents for Reinforcement Learning [64.93848182403116]
現在のディープラーニングメモリモデルは、部分的に観察可能で長期にわたる強化学習環境で苦労している。
本稿では,強化学習エージェントのための新しい記憶モデルであるStable Hadamard Memoryを紹介する。
我々の手法は、部分的に観測可能なベンチマークに挑戦する上で、最先端のメモリベースの手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-10-14T03:50:17Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。