論文の概要: VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.29562v1
- Date: Thu, 28 May 2026 08:14:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 00:00:30.951252
- Title: VLA-Pro: Cross-Task Procedural Memory Transfer for Vision-Language-Action Models
- Title(参考訳): VLA-Pro:ビジョン・ランゲージ・アクションモデルのためのクロスタスク手続き型メモリ転送
- Authors: Shengyu Si, Yuanzhuo Lu, Ruimeng Yang, Ziyi Ye, Zuxuan Wu, Yu-Gang Jiang,
- Abstract要約: VLA-Proは、クロスタスクの一般化を強化するために設計されたプラグイン・アンド・プレイのフレームワークである。
タスク関連手続き記憶をトレーニング時に保存し、推論中にこれらの記憶を転送する。
RoboTwin、RLBench、および実世界の操作タスクの実験は、VLA-Proがクロスタスクの一般化を一貫して改善していることを示している。
- 参考スコア(独自算出の注目度): 73.99344788183949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action~(VLA) models have shown strong potential for general-purpose robotic manipulation, yet they still struggle to generalize to unseen tasks that necessitate transferring relevant experience across objects, scenes, and action patterns. This paper proposes VLA-Pro, a plug-and-play framework designed to enhance cross-task generalization by storing task-relevant procedural memories at training time and transferring these memories during inference. Specifically, VLA-Pro stores task-specific LoRA adapters as parameterized procedural memories during training. At inference time, VLA-Pro retrieves relevant procedural memories based on the current multi-modal context and dynamically fuses these memories for generating the current action chunk. Experiments on RoboTwin, RLBench, and real-world manipulation tasks show that VLA-Pro consistently improves cross-task generalization across multiple backbones, achieving up to a 207% relative improvement in simulation and increasing real-world success rate from 5.8% to 65.0%. These results suggest that procedural memory retrieval and adaptation provide an effective mechanism for transferring manipulation experience to novel tasks while preserving modularity and execution stability.
- Abstract(参考訳): Vision-Language-Action〜(VLA)モデルは、汎用的なロボット操作の強力な可能性を示しているが、オブジェクト、シーン、アクションパターン間で関連するエクスペリエンスを移行する必要のある、見知らぬタスクへの一般化に苦慮している。
本稿では,タスク関連プロシージャメモリをトレーニング時に格納し,これらのメモリを推論中に転送することで,タスク間の一般化を促進するためのプラグイン・アンド・プレイフレームワークであるVLA-Proを提案する。
具体的には、VLA-Proは、訓練中にタスク固有のLoRAアダプタをパラメータ化された手続き記憶として保存する。
推論時に、VLA-Proは、現在のマルチモーダルコンテキストに基づいて関連する手続き記憶を検索し、現在のアクションチャンクを生成するためにこれらの記憶を動的に融合する。
RoboTwin、RLBench、および実世界の操作タスクの実験により、VLA-Proは複数のバックボーンにわたるクロスタスクの一般化を一貫して改善し、シミュレーションにおける207%の相対的な改善を達成し、実世界の成功率を5.8%から65.0%に向上させた。
これらの結果から,手続き的メモリ検索と適応は,モジュール性と実行安定性を保ちつつ,操作経験を新しいタスクに伝達する有効なメカニズムを提供すると考えられる。
関連論文リスト
- Notes-to-Self: Scratchpad Augmented VLAs for Memory Dependent Manipulation Tasks [9.55115186979077]
言語スクラッチパッドを組み込むことにより,空間記憶と時間記憶の両方を視覚言語アクション(VLA)モデルに付与する方法を示す。
本手法は,ClevrSkills環境からのメモリ依存タスクの分割,MemoryBench上でのメモリ依存タスク,そして実世界のピック・アンド・プレイスタスクにおいて評価する。
論文 参考訳(メタデータ) (2026-02-24T15:30:55Z) - Evo-Memory: Benchmarking LLM Agent Test-time Learning with Self-Evolving Memory [89.65731902036669]
Evo-Memoryは、大規模言語モデル(LLM)エージェントで自己進化型メモリを評価するための、ストリーミングベンチマークとフレームワークである。
10以上の代表的なメモリモジュールを評価し、10種類の多ターンゴール指向およびシングルターン推論およびQAデータセットで評価した。
論文 参考訳(メタデータ) (2025-11-25T21:08:07Z) - MAP-VLA: Memory-Augmented Prompting for Vision-Language-Action Model in Robotic Manipulation [22.063033063941788]
MAP-VLA(Memory-Augmented Prompting for Vision-Language-Action Model)は、実証型メモリプロンプトによって訓練済みのVLAモデルを強化し、長距離ロボット操作タスクのためのアクション生成を可能にする新しいフレームワークである。
その結果、MAP-VLAは、シミュレーションベンチマークで7.0%の絶対的なパフォーマンス向上を達成でき、また、現在の最先端手法を超越した、長距離タスクにおける実際のロボット評価の25.0%を達成できることがわかった。
論文 参考訳(メタデータ) (2025-11-12T17:56:13Z) - Memp: Exploring Agent Procedural Memory [72.41472703974935]
LLM(Large Language Models)ベースのエージェントは様々なタスクをこなすが、静的パラメータで手動で設計または絡み合うような不安定なプロシージャメモリに悩まされる。
本稿では,過去のエージェントの軌跡をステップバイステップの細粒度と高レベルなスクリプトライクな抽象化の両方に蒸留するMempを提案する。
メモリレポジトリが洗練されるにつれて、エージェントは着実に高い成功率と類似タスクの効率を達成できることを示す。
論文 参考訳(メタデータ) (2025-08-08T16:20:56Z) - FindingDory: A Benchmark to Evaluate Memory in Embodied Agents [49.18498389833308]
本研究では,Habitatシミュレータに長距離エンボディタスクのための新しいベンチマークを導入する。
このベンチマークは、持続的なエンゲージメントとコンテキスト認識を必要とする60タスクにわたるメモリベースの機能を評価する。
論文 参考訳(メタデータ) (2025-06-18T17:06:28Z) - Toward Task Generalization via Memory Augmentation in Meta-Reinforcement Learning [43.69919534800985]
タスクの一般化を改善するためのメモリベースRLアプローチであるメモリ拡張を導入する。
提案手法では,タスク構造化の強化を利用して,最適配布シナリオをシミュレートする。
提案手法は,ロバストな分配性能を維持しながら,未知のタスクに対してゼロショットの一般化を実現することを実証する。
論文 参考訳(メタデータ) (2025-02-03T17:00:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。