論文の概要: VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory
- arxiv url: http://arxiv.org/abs/2603.04910v1
- Date: Thu, 05 Mar 2026 07:52:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-06 22:06:11.130295
- Title: VPWEM: Non-Markovian Visuomotor Policy with Working and Episodic Memory
- Title(参考訳): VPWEM: ワーキング・アンド・エピソード記憶を用いた非マルコフ的ビズモトール政策
- Authors: Yuheng Lei, Zhixuan Liang, Hongyuan Zhang, Ping Luo,
- Abstract要約: VPWEMは、ワーキングメモリとエピソードメモリを備えた非マルコフヴィジュモータ政策である。
動作生成には短期情報とエピソードワイド情報の両方を使用し、1ステップあたりのメモリと計算がほぼ一定である。
- 参考スコア(独自算出の注目度): 31.464584758455356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Imitation learning from human demonstrations has achieved significant success in robotic control, yet most visuomotor policies still condition on single-step observations or short-context histories, making them struggle with non-Markovian tasks that require long-term memory. Simply enlarging the context window incurs substantial computational and memory costs and encourages overfitting to spurious correlations, leading to catastrophic failures under distribution shift and violating real-time constraints in robotic systems. By contrast, humans can compress important past experiences into long-term memories and exploit them to solve tasks throughout their lifetime. In this paper, we propose VPWEM, a non-Markovian visuomotor policy equipped with working and episodic memories. VPWEM retains a sliding window of recent observation tokens as short-term working memory, and introduces a Transformer-based contextual memory compressor that recursively converts out-of-window observations into a fixed number of episodic memory tokens. The compressor uses self-attention over a cache of past summary tokens and cross-attention over a cache of historical observations, and is trained jointly with the policy. We instantiate VPWEM on diffusion policies to exploit both short-term and episode-wide information for action generation with nearly constant memory and computation per step. Experiments demonstrate that VPWEM outperforms state-of-the-art baselines including diffusion policies and vision-language-action (VLA) models by more than 20% on the memory-intensive manipulation tasks in MIKASA and achieves an average 5% improvement on the mobile manipulation benchmark MoMaRT. Code is available at https://github.com/HarryLui98/code_vpwem.
- Abstract(参考訳): 人間の実演からの模倣学習は、ロボット制御において大きな成功を収めてきたが、ほとんどのビジュモータ政策は、シングルステップの観察や短文の履歴にまだ条件付けられており、長期記憶を必要とする非マルコフ的なタスクに苦しむ。
単にコンテキストウィンドウを拡大すれば、計算コストとメモリコストが大幅に増加し、過度な相関が促進され、分散シフト時の破滅的な失敗と、ロボットシステムにおけるリアルタイムの制約に違反する。
対照的に、人間は重要な過去の経験を長期記憶に圧縮し、それらを利用して生涯にわたってタスクを解くことができる。
本稿では,ワーキングメモリとエピソードメモリを備えた非マルコフビズモータポリシであるVPWEMを提案する。
VPWEMは、最近の観測トークンのスライドウィンドウを短期ワーキングメモリとして保持し、外部観測を固定数のエピソードメモリトークンに再帰的に変換するTransformerベースのコンテキストメモリ圧縮機を導入している。
圧縮機は過去の要約トークンのキャッシュを自己注意し、過去の観測のキャッシュを横断注意し、ポリシーと共同で訓練する。
我々はVPWEMの拡散ポリシーをインスタンス化し、ステップ毎にほぼ一定のメモリと計算量を持つアクション生成のための短期情報とエピソードワイド情報の両方を利用する。
VPWEMは、MiKASAのメモリ集約操作タスクにおいて、拡散ポリシーやビジョン言語アクション(VLA)モデルを含む最先端のベースラインを20%以上上回り、モバイルベンチマークのMoMaRTで平均5%改善することを示した。
コードはhttps://github.com/HarryLui98/code_vpwem.comで入手できる。
関連論文リスト
- RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。
MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。
実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文 参考訳(メタデータ) (2026-03-02T05:12:45Z) - RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。
Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。
既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2026-03-01T18:59:59Z) - Agentic Memory: Learning Unified Long-Term and Short-Term Memory Management for Large Language Model Agents [57.38404718635204]
大規模言語モデル (LLM) エージェントは、有限コンテキストウィンドウによる長距離推論において基本的な制限に直面している。
既存のメソッドは通常、長期記憶(LTM)と短期記憶(STM)を独立したコンポーネントとして扱う。
本稿では,エージェントのポリシーに LTM と STM 管理を直接統合する統合フレームワークである Agentic Memory (AgeMem) を提案する。
論文 参考訳(メタデータ) (2026-01-05T08:24:16Z) - Memo: Training Memory-Efficient Embodied Agents with Reinforcement Learning [53.72709564555407]
Memoは、強化学習のためのトランスフォーマーベースのアーキテクチャとトレーニングのレシピである。
トレーニング中のモデルの入力と周期的な要約トークンをインターリーブすることで、メモリの生成と検索を組み込む。
グリッドワールドメタRLベンチマークとマルチオブジェクトナビゲーションタスクにおけるMemoの有効性を,フォトリアリスティック屋内環境で実証する。
論文 参考訳(メタデータ) (2025-10-22T16:24:47Z) - ELMUR: External Layer Memory with Update/Rewrite for Long-Horizon RL [48.214881182054164]
本研究では,外部メモリを構造化したトランスアーキテクチャであるEMMURを提案する。
ELMURは、注意窓の向こうに10万倍の有効地平線を拡大する。
最大100万歩の廊下を持つ合成T-Mazeタスクで100%の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-08T15:50:34Z) - MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation [59.31354761628506]
このようなタスクは本質的にマルコフ的ではないが、主流のVLAモデルはそれを見落としているため、ロボット操作には時間的コンテキストが不可欠である。
本稿では,長距離ロボット操作のためのコグニション・メモリ・アクション・フレームワークであるMemoryVLAを提案する。
本稿では,3つのロボットを対象とした150以上のシミュレーションと実世界のタスクについて評価する。
論文 参考訳(メタデータ) (2025-08-26T17:57:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。