論文の概要: Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2602.20200v1
- Date: Sun, 22 Feb 2026 15:39:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-25 17:34:53.460879
- Title: Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation
- Title(参考訳): 局所一貫性とグローバルプライオリティ:効率的なロボットマニピュレーションのためのデュアルメモリ拡張ビジョン・ランゲージ・アクションモデル
- Authors: Zaijing Li, Bing Hu, Rui Shao, Gongwei Chen, Dongmei Jiang, Pengwei Xie, Jianye Hao, Liqiang Nie,
- Abstract要約: GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
- 参考スコア(独自算出の注目度): 95.89924101984566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hierarchical Vision-Language-Action (VLA) models have rapidly become a dominant paradigm for robotic manipulation. It typically comprising a Vision-Language backbone for perception and understanding, together with a generative policy for action generation. However, its performance is increasingly bottlenecked by the action generation proceess. (i) Low inference efficiency. A pronounced distributional gap between isotropic noise priors and target action distributions, which increases denoising steps and the incidence of infeasible samples. (ii) Poor robustness. Existing policies condition solely on the current observation, neglecting the constraint of history sequence and thus lacking awareness of task progress and temporal consistency. To address these issues, we introduce OptimusVLA, a dual-memory VLA framework with Global Prior Memory (GPM) and Local Consistency Memory (LCM). GPM replaces Gaussian noise with task-level priors retrieved from semantically similar trajectories, thereby shortening the generative path and reducing the umber of function evaluations (NFE). LCM dynamically models executed action sequence to infer task progress and injects a learned consistency constraint that enforces temporal coherence and smoothness of trajectory. Across three simulation benchmarks, OptimusVLA consistently outperforms strong baselines: it achieves 98.6% average success rate on LIBERO, improves over pi_0 by 13.5% on CALVIN, and attains 38% average success rate on RoboTwin 2.0 Hard. In Real-World evaluation, OptimusVLA ranks best on Generalization and Long-horizon suites, surpassing pi_0 by 42.9% and 52.4%, respectively, while delivering 2.9x inference speedup.
- Abstract(参考訳): 階層型ビジョン・ランゲージ・アクション(VLA)モデルはロボット操作において急速に支配的なパラダイムとなっている。
一般的には、知覚と理解のためのビジョンランゲージのバックボーンと、行動生成のための生成ポリシーから構成される。
しかし、その性能はアクションジェネレーションによってますますボトルネックになっている。
(i)低推論効率。
異方性雑音先行音と目標行動分布との顕著な分布ギャップは、デノナイジングステップと有効でないサンプルの発生を増加させる。
(二)ロバスト性に乏しいこと。
既存の政策条件は、現在の観測にのみ依存し、履歴シーケンスの制約を無視し、タスクの進行と時間的一貫性の認識を欠いている。
これらの問題に対処するために,GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークであるOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行情報に置き換え、生成経路を短くし、機能評価(NFE)のバーを減らす。
LCMは実行された動作シーケンスを動的にモデル化し、タスクの進行を推測し、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
3つのシミュレーションベンチマークで、OptimusVLAは一貫して強いベースラインを上回り、LIBEROの平均成功率は98.6%、CALVINでは13.5%、RoboTwin 2.0 Hardでは平均成功率は38%に達した。
現実世界の評価では、OptimusVLAは一般化とロングホライゾンのスイートで最高位であり、それぞれpi_0を42.9%、52.4%を超え、推論速度は2.9倍である。
関連論文リスト
- Efficient Long-Horizon Vision-Language-Action Models via Static-Dynamic Disentanglement [27.517125673741486]
VLA(Vision-Language-Action)モデルは、汎用的なロボット制御のための有望なパラダイムとして登場した。
マルチレベル静的および動的トークンに視覚入力をアンタングルするフレームワークであるSD-VLAを提案する。
本稿では,VLAの長期時間依存性モデリング機能をより効果的に評価する新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2026-02-03T20:17:47Z) - EvoVLA: Self-Evolving Vision-Language-Action Model [11.746804244345613]
VLA(Vision-Language-Action)モデルでは、長い水平ロボット操作が依然として難しい。
本稿では,3つの相補的コンポーネントを通じてこの問題に対処する自己教師型VLAフレームワークであるEvoVLAを紹介する。
EvoVLAはサンプル効率を1対半改善し、ステージ幻覚を38.5%から14.8%に下げる。
論文 参考訳(メタデータ) (2025-11-20T09:08:33Z) - Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。
DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。
Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文 参考訳(メタデータ) (2025-10-31T16:32:12Z) - dVLA: Diffusion Vision-Language-Action Model with Multimodal Chain-of-Thought [66.78110237549087]
VLA(Vision-Language-Action)モデルは、ロボット工学の次世代パラダイムとして登場しつつある。
単一システムにおける視覚認識,言語推論,ロボット制御を統一する拡散型VLAであるdVLAを紹介する。
論文 参考訳(メタデータ) (2025-09-30T02:36:11Z) - TTF-VLA: Temporal Token Fusion via Pixel-Attention Integration for Vision-Language-Action Models [29.878993349922368]
Vision-Language-Action (VLA)モデルは、ロボット操作タスクに固有の貴重な時間情報を捨て、各タイミングで視覚入力を独立に処理する。
本稿では,VLA推論品質を向上させるために,歴史的および現在の視覚表現を統合した訓練不要なTTFを提案する。
論文 参考訳(メタデータ) (2025-08-15T12:03:34Z) - CronusVLA: Towards Efficient and Robust Manipulation via Multi-Frame Vision-Language-Action Modeling [84.51372201195132]
CronusVLAは、単一フレームのVLAモデルをマルチフレームパラダイムに拡張する統合フレームワークである。
CronusVLAは70.9%の成功率で先進的な性能と優れた堅牢性を達成する。
これらの結果は、より強力で堅牢な実世界展開のためのVLAモデルにおける効率的なマルチフレーム適応の可能性を強調している。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。