論文の概要: Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks
- arxiv url: http://arxiv.org/abs/2603.09513v2
- Date: Wed, 18 Mar 2026 07:21:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:42.154614
- Title: Beyond Short-Horizon: VQ-Memory for Robust Long-Horizon Manipulation in Non-Markovian Simulation Benchmarks
- Title(参考訳): 短軸超越:非マルコフシミュレーションベンチマークにおけるロバスト長軸操作のためのVQメモリ
- Authors: Honghui Wang, Zhi Jing, Jicong Ao, Shiji Song, Xuelong Li, Gao Huang, Chenjia Bai,
- Abstract要約: RuleSafeは、スケーラブルなLLM支援シミュレーションフレームワーク上に構築された、新しいオペレーティングベンチマークである。
VQ-Memoryはベクトル量子化変分オートエンコーダを用いたコンパクトで構造化された時間表現である。
- 参考スコア(独自算出の注目度): 96.60530830276281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The high cost of collecting real-robot data has made robotic simulation a scalable platform for both evaluation and data generation. Yet most existing benchmarks concentrate on simple manipulation tasks such as pick-and-place, failing to capture the non-Markovian characteristics of real-world tasks and the complexity of articulated object interactions. To address this limitation, we present RuleSafe, a new articulated manipulation benchmark built upon a scalable LLM-aided simulation framework. RuleSafe features safes with diverse unlocking mechanisms, such as key locks, password locks, and logic locks, which require different multi-stage reasoning and manipulation strategies. These LLM-generated rules produce non-Markovian and long-horizon tasks that require temporal modeling and memory-based reasoning. We further propose VQ-Memory, a compact and structured temporal representation that uses vector-quantized variational autoencoders (VQ-VAEs) to encode past proprioceptive states into discrete latent tokens. This representation filters low-level noise while preserving high-level task-phase context, providing lightweight yet robust temporal cues that are compatible with existing Vision-Language-Action models (VLA). Extensive experiments on state-of-the-art VLA models and diffusion policies show that VQ-Memory consistently improves long-horizon planning, enhances generalization to unseen configurations, and enables more efficient manipulation with reduced computational cost. Project page: vqmemory.github.io
- Abstract(参考訳): リアルロボットのデータ収集のコストが高いため、ロボットシミュレーションは評価とデータ生成の両方にスケーラブルなプラットフォームとなっている。
しかし、既存のベンチマークのほとんどは、ピック・アンド・プレイスのような単純な操作タスクに集中しており、実世界のタスクのマルコフ的でない特徴を捉えていない。
この制限に対処するために、スケーラブルなLCM支援シミュレーションフレームワーク上に構築された新しい調音式操作ベンチマークであるRe RuleSafeを提案する。
RuleSafeは、キーロック、パスワードロック、ロジックロックなど、さまざまなアンロック機構を備えたセーフで、さまざまなマルチステージ推論と操作戦略を必要とする。
これらのLCM生成規則は、時間的モデリングとメモリベースの推論を必要とする非マルコフ的および長期水平的タスクを生成する。
さらに、ベクトル量子化変分オートエンコーダ(VQ-VAE)を用いて、過去の受容状態を離散潜在トークンに符号化する、コンパクトで構造化された時間表現であるVQ-Memoryを提案する。
この表現は、高レベルのタスクフェーズコンテキストを維持しながら低レベルのノイズをフィルタリングし、既存のビジョン・ランゲージ・アクション・モデル(VLA)と互換性のある軽量で堅牢な時間的手がかりを提供する。
最先端のVLAモデルと拡散ポリシーに関する広範な実験により、VQ-Memoryは長い水平計画を一貫して改善し、予期せぬ構成への一般化を強化し、計算コストの削減によるより効率的な操作を可能にした。
プロジェクトページ: vqMemory.github.io
関連論文リスト
- RoboMME: Benchmarking and Understanding Memory for Robotic Generalist Policies [54.23445842621374]
記憶は、長い水平と歴史に依存したロボット操作にとって重要である。
近年,視覚言語アクション(VLA)モデルにメモリ機構が組み込まれ始めている。
本稿では,VLAモデルの評価と進展のための大規模標準ベンチマークであるRoboMMEを紹介する。
論文 参考訳(メタデータ) (2026-03-04T21:59:32Z) - STaR: Scalable Task-Conditioned Retrieval for Long-Horizon Multimodal Robot Memory [16.76678779219906]
移動ロボットは、様々なオープンでダイナミックなシーンで長時間展開されることが多い。
主な課題は、計画、検索、推論のためのエージェントワークフローをサポートするスケーラブルなロングホライゾンメモリを構築することである。
本稿では,タスクに依存しないマルチモーダル長期メモリSTaRを提案する。
論文 参考訳(メタデータ) (2026-02-09T22:38:53Z) - Rethinking Progression of Memory State in Robotic Manipulation: An Object-Centric Perspective [16.541717037293278]
物体レベルの部分観測性の下でのストレステストロボット操作のための非マルコフタスクスイートであるLIBERO-Memを紹介する。
短軸と長軸の物体追跡と時間的に順序付けられたサブゴールを組み合わせ、現在のフレームを超えて推論を必要とする。
Embodied-SlotSSMは時間的拡張性のために構築されたスロット中心のVLAフレームワークである。
論文 参考訳(メタデータ) (2025-11-14T16:56:01Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - DeeR-VLA: Dynamic Inference of Multimodal Large Language Models for Efficient Robot Execution [114.61347672265076]
実世界のロボットのためのMLLMの開発は、ロボットプラットフォームで利用可能な計算能力とメモリ容量が典型的に限られているため、難しい。
活性化MLLMのサイズを自動的に調整するロボットビジョンランゲージ・アクション・モデル(DeeR)の動的早期実行フレームワークを提案する。
DeeR は LLM の計算コストを 5.2-6.5x に削減し、GPU のメモリを 2-6x に削減した。
論文 参考訳(メタデータ) (2024-11-04T18:26:08Z) - LongVQ: Long Sequence Modeling with Vector Quantization on Structured Memory [63.41820940103348]
自己保持機構の計算コストは、長いシーケンスの実用性を制限する。
我々はLongVQと呼ばれる新しい手法を提案し、長さ固定されたコードブックとしてグローバルな抽象化を圧縮する。
LongVQは動的グローバルパターンとローカルパターンを効果的に維持し、長距離依存性の問題の欠如を補うのに役立つ。
論文 参考訳(メタデータ) (2024-04-17T08:26:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。