論文の概要: MemER: Scaling Up Memory for Robot Control via Experience Retrieval
- arxiv url: http://arxiv.org/abs/2510.20328v1
- Date: Thu, 23 Oct 2025 08:26:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.542399
- Title: MemER: Scaling Up Memory for Robot Control via Experience Retrieval
- Title(参考訳): MemER: 経験検索によるロボット制御のためのメモリスケールアップ
- Authors: Ajay Sridhar, Jennifer Pan, Satvik Sharma, Chelsea Finn,
- Abstract要約: 人間は日常的にメモリをタスクに頼っているが、ほとんどのロボットポリシーはこの機能を欠いている。
本稿では,その経験から過去の関連事項を選択し,追跡するために,ハイレベルな政策を訓練する階層的な政策枠組みを提案する。
我々のアプローチであるMemERは、数分のメモリを必要とする3つの現実世界の長距離ロボット操作タスクにおいて、従来の手法よりも優れています。
- 参考スコア(独自算出の注目度): 46.5398413633767
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans routinely rely on memory to perform tasks, yet most robot policies lack this capability; our goal is to endow robot policies with the same ability. Naively conditioning on long observation histories is computationally expensive and brittle under covariate shift, while indiscriminate subsampling of history leads to irrelevant or redundant information. We propose a hierarchical policy framework, where the high-level policy is trained to select and track previous relevant keyframes from its experience. The high-level policy uses selected keyframes and the most recent frames when generating text instructions for a low-level policy to execute. This design is compatible with existing vision-language-action (VLA) models and enables the system to efficiently reason over long-horizon dependencies. In our experiments, we finetune Qwen2.5-VL-7B-Instruct and $\pi_{0.5}$ as the high-level and low-level policies respectively, using demonstrations supplemented with minimal language annotations. Our approach, MemER, outperforms prior methods on three real-world long-horizon robotic manipulation tasks that require minutes of memory. Videos and code can be found at https://jen-pan.github.io/memer/.
- Abstract(参考訳): 人間は日常的にメモリを頼りにタスクを実行するが、ほとんどのロボットポリシーはこの機能を欠いている。
長期の観測履歴に内在的な条件付けは計算的に高価であり、共変量シフトの下では不安定であるが、歴史の非差別的なサブサンプリングは無関係または冗長な情報をもたらす。
本稿では,その経験から関連するキーフレームを選択し,追跡するために,ハイレベルなポリシをトレーニングする階層型ポリシフレームワークを提案する。
高レベルポリシーは、選択されたキーフレームと最新のフレームを使用して、低レベルポリシーを実行するためのテキスト命令を生成する。
この設計は、既存の視覚言語アクション(VLA)モデルと互換性があり、システムは長期の依存関係を効率的に推論することができる。
実験では,Qwen2.5-VL-7B-インストラクトと$\pi_{0.5}$を,最小限の言語アノテーションで補足されたデモを用いて,それぞれ高レベルかつ低レベルなポリシーとして精査した。
我々のアプローチであるMemERは、数分のメモリを必要とする3つの現実世界の長距離ロボット操作タスクにおいて、従来の手法よりも優れています。
ビデオとコードはhttps://jen-pan.github.io/memer/.com/で見ることができる。
関連論文リスト
- From Code to Action: Hierarchical Learning of Diffusion-VLM Policies [8.0703783175731]
ロボット操作の模倣学習はしばしば、限られた一般化とデータ不足に悩まされる。
本稿では,コード生成型視覚言語モデル(VLM)を活用した階層型フレームワークを提案する。
この設計は、解釈可能なポリシーの分解を可能にし、フラットなポリシーと比較して一般化を改善し、高レベルの計画と低レベルの制御を別々に評価できるようにする。
論文 参考訳(メタデータ) (2025-09-29T15:22:18Z) - HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。
階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文 参考訳(メタデータ) (2025-02-08T07:50:22Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。