論文の概要: MemER: Scaling Up Memory for Robot Control via Experience Retrieval
- arxiv url: http://arxiv.org/abs/2510.20328v1
- Date: Thu, 23 Oct 2025 08:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.542399
- Title: MemER: Scaling Up Memory for Robot Control via Experience Retrieval
- Title(参考訳): MemER: 経験検索によるロボット制御のためのメモリスケールアップ
- Authors: Ajay Sridhar, Jennifer Pan, Satvik Sharma, Chelsea Finn,
- Abstract要約: 人間は日常的にメモリをタスクに頼っているが、ほとんどのロボットポリシーはこの機能を欠いている。
本稿では,その経験から過去の関連事項を選択し,追跡するために,ハイレベルな政策を訓練する階層的な政策枠組みを提案する。
我々のアプローチであるMemERは、数分のメモリを必要とする3つの現実世界の長距離ロボット操作タスクにおいて、従来の手法よりも優れています。
- 参考スコア(独自算出の注目度): 46.5398413633767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans routinely rely on memory to perform tasks, yet most robot policies lack this capability; our goal is to endow robot policies with the same ability. Naively conditioning on long observation histories is computationally expensive and brittle under covariate shift, while indiscriminate subsampling of history leads to irrelevant or redundant information. We propose a hierarchical policy framework, where the high-level policy is trained to select and track previous relevant keyframes from its experience. The high-level policy uses selected keyframes and the most recent frames when generating text instructions for a low-level policy to execute. This design is compatible with existing vision-language-action (VLA) models and enables the system to efficiently reason over long-horizon dependencies. In our experiments, we finetune Qwen2.5-VL-7B-Instruct and $\pi_{0.5}$ as the high-level and low-level policies respectively, using demonstrations supplemented with minimal language annotations. Our approach, MemER, outperforms prior methods on three real-world long-horizon robotic manipulation tasks that require minutes of memory. Videos and code can be found at https://jen-pan.github.io/memer/.
- Abstract(参考訳): 人間は日常的にメモリを頼りにタスクを実行するが、ほとんどのロボットポリシーはこの機能を欠いている。
長期の観測履歴に内在的な条件付けは計算的に高価であり、共変量シフトの下では不安定であるが、歴史の非差別的なサブサンプリングは無関係または冗長な情報をもたらす。
本稿では,その経験から関連するキーフレームを選択し,追跡するために,ハイレベルなポリシをトレーニングする階層型ポリシフレームワークを提案する。
高レベルポリシーは、選択されたキーフレームと最新のフレームを使用して、低レベルポリシーを実行するためのテキスト命令を生成する。
この設計は、既存の視覚言語アクション(VLA)モデルと互換性があり、システムは長期の依存関係を効率的に推論することができる。
実験では,Qwen2.5-VL-7B-インストラクトと$\pi_{0.5}$を,最小限の言語アノテーションで補足されたデモを用いて,それぞれ高レベルかつ低レベルなポリシーとして精査した。
我々のアプローチであるMemERは、数分のメモリを必要とする3つの現実世界の長距離ロボット操作タスクにおいて、従来の手法よりも優れています。
ビデオとコードはhttps://jen-pan.github.io/memer/.com/で見ることができる。
関連論文リスト
- RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - MEM: Multi-Scale Embodied Memory for Vision Language Action Models [73.3883864595845]
本稿では,マルチスケール・エンボダイドメモリ(MEM)について紹介する。
MEMはビデオベースの短水平メモリをビデオエンコーダで圧縮し、テキストベースの長水平メモリと組み合わせている。
MEMは、キッチンを掃除したり、チーズサンドイッチを焼いたりして、最大15分間のタスクをロボットが実行できるようにする。
論文 参考訳(メタデータ) (2026-03-04T00:03:02Z) - Non-Markovian Long-Horizon Robot Manipulation via Keyframe Chaining [56.62125584296097]
Keyframe-Chaining VLAは、キー履歴フレームを抽出し、長い水平依存関係をモデル化するフレームワークである。
本研究では,現在の実行フェーズに対する時間的関連性に基づいて,動的に履歴フレームを検索する進捗対応機構を設計する。
タスク成功率を測定するために,ManiSkillシミュレータ上に構築された4つの非マルコフ操作タスクスイートを紹介する。
論文 参考訳(メタデータ) (2026-03-02T05:26:29Z) - RMBench: Memory-Dependent Robotic Manipulation Benchmark with Insights into Policy Design [77.30163153176954]
RMBenchは、メモリの複雑さの複数のレベルにまたがる9つの操作タスクからなるシミュレーションベンチマークである。
Mem-0は、制御アブレーション研究をサポートするために設計された明示的なメモリコンポーネントを備えたモジュラー操作ポリシーである。
既存のポリシにおけるメモリ関連の制限を特定し、アーキテクチャ設計の選択がメモリパフォーマンスに与える影響に関する実証的な洞察を提供する。
論文 参考訳(メタデータ) (2026-03-01T18:59:59Z) - From Code to Action: Hierarchical Learning of Diffusion-VLM Policies [8.0703783175731]
ロボット操作の模倣学習はしばしば、限られた一般化とデータ不足に悩まされる。
本稿では,コード生成型視覚言語モデル(VLM)を活用した階層型フレームワークを提案する。
この設計は、解釈可能なポリシーの分解を可能にし、フラットなポリシーと比較して一般化を改善し、高レベルの計画と低レベルの制御を別々に評価できるようにする。
論文 参考訳(メタデータ) (2025-09-29T15:22:18Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Robot Learning of Mobile Manipulation with Reachability Behavior Priors [38.49783454634775]
モバイルマニピュレーション(MM)システムは、非構造化現実環境におけるパーソナルアシスタントの役割を引き継ぐ上で理想的な候補である。
その他の課題として、MMは移動性と操作性の両方を必要とするタスクを実行するために、ロボットの実施形態を効果的に調整する必要がある。
本研究では,アクタ批判的RL手法におけるロボットの到達可能性の先行性の統合について検討した。
論文 参考訳(メタデータ) (2022-03-08T12:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。