Fugu-MT 論文翻訳(概要): MEM: Multi-Scale Embodied Memory for Vision Language Action Models

論文の概要: MEM: Multi-Scale Embodied Memory for Vision Language Action Models

arxiv url: http://arxiv.org/abs/2603.03596v1
Date: Wed, 04 Mar 2026 00:03:02 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-05 21:29:15.130044
Title: MEM: Multi-Scale Embodied Memory for Vision Language Action Models
Title（参考訳）: MEM:視覚言語行動モデルのためのマルチスケールエンボディードメモリ
Authors: Marcel Torne, Karl Pertsch, Homer Walke, Kyle Vedder, Suraj Nair, Brian Ichter, Allen Z. Ren, Haohuan Wang, Jiaming Tang, Kyle Stachowicz, Karan Dhabalia, Michael Equi, Quan Vuong, Jost Tobias Springenberg, Sergey Levine, Chelsea Finn, Danny Driess,
Abstract要約: 本稿では,マルチスケール・エンボダイドメモリ(MEM)について紹介する。 MEMはビデオベースの短水平メモリをビデオエンコーダで圧縮し、テキストベースの長水平メモリと組み合わせている。 MEMは、キッチンを掃除したり、チーズサンドイッチを焼いたりして、最大15分間のタスクをロボットが実行できるようにする。
参考スコア（独自算出の注目度）: 73.3883864595845
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Conventionally, memory in end-to-end robotic learning involves inputting a sequence of past observations into the learned policy. However, in complex multi-stage real-world tasks, the robot's memory must represent past events at multiple levels of granularity: from long-term memory that captures abstracted semantic concepts (e.g., a robot cooking dinner should remember which stages of the recipe are already done) to short-term memory that captures recent events and compensates for occlusions (e.g., a robot remembering the object it wants to pick up once its arm occludes it). In this work, our main insight is that an effective memory architecture for long-horizon robotic control should combine multiple modalities to capture these different levels of abstraction. We introduce Multi-Scale Embodied Memory (MEM), an approach for mixed-modal long-horizon memory in robot policies. MEM combines video-based short-horizon memory, compressed via a video encoder, with text-based long-horizon memory. Together, they enable robot policies to perform tasks that span up to fifteen minutes, like cleaning up a kitchen, or preparing a grilled cheese sandwich. Additionally, we find that memory enables MEM policies to intelligently adapt manipulation strategies in-context.
Abstract（参考訳）: 従来、エンドツーエンドのロボット学習における記憶は、過去の観察を学習ポリシーに入力する必要があった。しかし、複雑な多段階の現実世界のタスクでは、ロボットの記憶は、抽象的なセマンティック概念をキャプチャする長期記憶(例えば、ディナーを調理するロボットはレシピのどの段階が既に行われているかを記憶しなければならない)から、最近の出来事をキャプチャし、オクルージョンを補償する短期記憶(例えば、腕がそれを無視した後に拾いたい物体を記憶するロボット)まで、様々なレベルで過去の出来事を表現しなければならない。本研究の主な洞察は, 長期ロボット制御のための効果的なメモリアーキテクチャは, 様々な抽象化レベルを捉えるために, 複数モーダルを組み合わせなければならないということである。本稿では,マルチスケール・エンボダイドメモリ(MEM)について紹介する。 MEMはビデオベースの短水平メモリをビデオエンコーダで圧縮し、テキストベースの長水平メモリと組み合わせている。同時に、キッチンを掃除したり、チーズサンドイッチを焼いたりして、最大15分間のタスクをロボットが実行できるようにする。さらに、メモリにより、MEMポリシーがコンテキスト内の操作戦略をインテリジェントに適応できることがわかった。

関連論文リスト

RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文参考訳（メタデータ） (2026-03-04T21:59:32Z)
From Verbatim to Gist: Distilling Pyramidal Multimodal Memory via Semantic Information Bottleneck for Long-Horizon Video Agents [78.30630000529133]
本稿ではファジィトレース理論に基づくピラミッド型マルチモーダルメモリアーキテクチャMM-Memを提案する。 MM-Memメモリは階層的に感覚バッファ、エピソードストリーム、シンボリックに構造する。実験により、MM-Memがオフラインタスクとストリーミングタスクの両方で有効であることが確認された。
論文参考訳（メタデータ） (2026-03-02T05:12:45Z)
RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。 Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文参考訳（メタデータ） (2026-03-01T18:59:59Z)
MetaMem: Evolving Meta-Memory for Knowledge Utilization through Self-Reflective Symbolic Optimization [57.17751568928966]
自己進化型メタメモリでメモリシステムを拡張するフレームワークであるMetaMemを提案する。メタメモリ最適化の間、MetaMemは異なるタスク間で伝達可能な知識利用経験を反復的に蒸留する。大規模な実験ではMetaMemの有効性が示され、これは強いベースラインを3.6%以上上回っている。
論文参考訳（メタデータ） (2026-01-27T04:46:23Z)
MemVerse: Multimodal Memory for Lifelong Learning Agents [35.218549149012844]
我々は,モデルに依存しないプラグアンドプレイメモリフレームワークであるMemVerseを紹介した。 MemVerseは階層的検索ベースのメモリで高速パラメトリックリコールを行う。スケーラブルで適応的なマルチモーダルインテリジェンスを実現する。
論文参考訳（メタデータ） (2025-12-03T10:06:14Z)
MOOM: Maintenance, Organization and Optimization of Memory in Ultra-Long Role-Playing Dialogues [30.599201653940852]
メモリ抽出は人間のロボットロールプレイングシナリオにおけるコヒーレントなウルトラロングダイアログを維持するために重要である。そこで本研究では,プロット開発とコアストーリーテリング要素としてのキャラクタ描写をモデル化し,文芸理論を活用した最初のデュアルブランチメモリプラグインMOOMを提案する。 MOOMはさらに、競合抑制のメモリ理論にインスパイアされた、メモリ容量を制限し、制御不能な成長を緩和するために、忘れるメカニズムを統合する。
論文参考訳（メタデータ） (2025-09-15T12:35:14Z)
MemoryVLA: Perceptual-Cognitive Memory in Vision-Language-Action Models for Robotic Manipulation [59.31354761628506]
このようなタスクは本質的にマルコフ的ではないが、主流のVLAモデルはそれを見落としているため、ロボット操作には時間的コンテキストが不可欠である。本稿では,長距離ロボット操作のためのコグニション・メモリ・アクション・フレームワークであるMemoryVLAを提案する。本稿では,3つのロボットを対象とした150以上のシミュレーションと実世界のタスクについて評価する。
論文参考訳（メタデータ） (2025-08-26T17:57:16Z)
RoboMemory: A Brain-inspired Multi-memory Agentic Framework for Interactive Environmental Learning in Physical Embodied Systems [41.89907261427986]
エージェントは、部分的可観測性、空間的推論の制限、高速なマルチメモリ統合など、現実世界の環境において永続的な課題に直面している。本稿では, 空間, 時間, エピソディック, セマンティックメモリを並列化して, 効率的な長期計画と対話型環境学習を実現する, 脳にインスパイアされたフレームワークであるRoboMemoryを紹介する。 EmbodiedBenchの実験によると、Qwen2.5-VL-72B-Ins上に構築されたRoboMemoryはベースラインを25%上回り、クローズドソース(SOTA)のGemini-1.5を超えている。
論文参考訳（メタデータ） (2025-08-02T15:39:42Z)
From Human Memory to AI Memory: A Survey on Memory Mechanisms in the Era of LLMs [34.361000444808454]
メモリは情報をエンコードし、保存し、検索するプロセスである。大規模言語モデル(LLM)の時代において、メモリとは、AIシステムが過去のインタラクションからの情報を保持し、リコールし、使用し、将来の応答とインタラクションを改善する能力である。
論文参考訳（メタデータ） (2025-04-22T15:05:04Z)
Self-Attentive Associative Memory [69.40038844695917]
我々は、個々の体験(記憶)とその発生する関係(関連記憶)の記憶を分離することを提案する。機械学習タスクの多様性において,提案した2メモリモデルと競合する結果が得られる。
論文参考訳（メタデータ） (2020-02-10T03:27:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。