論文の概要: PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2605.10925v1
- Date: Mon, 11 May 2026 17:56:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:51.058281
- Title: PriorVLA: Prior-Preserving Adaptation for Vision-Language-Action Models
- Title(参考訳): PriorVLA:ビジョン・ランゲージ・アクションモデルのための事前保存適応
- Authors: Xinyu Guo, Bin Xie, Wei Chai, Xianchi Deng, Tiancai Wang, Zhengxing Wu, Xingyu Chen,
- Abstract要約: 事前学習した事前学習を効果的に活用するためのフレームワークである PreVLA を提案する。
1タスクにつき10回のデモで、PreferVLAはIDが48%、OODが32%、pi0.5が24ポイント、OODが22ポイントを超えた。
- 参考スコア(独自算出の注目度): 45.541651600761924
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale pretraining has made Vision-Language-Action (VLA) models promising foundations for generalist robot manipulation, yet adapting them to downstream tasks remains necessary. However, the common practice of full fine-tuning treats pretraining as initialization and can shift broad priors toward narrow training-distribution patterns. We propose PriorVLA, a novel framework that preserves pretrained priors and learns to leverage them for effective adaptation. PriorVLA keeps a frozen Prior Expert as a read-only prior source and trains an Adaptation Expert for downstream specialization. Expert Queries capture scene priors from the pretrained VLM and motor priors from the Prior Expert, integrating both into the Adaptation Expert to guide adaptation. Together, PriorVLA updates only 25% of the parameters updated by full fine-tuning. Across RoboTwin 2.0, LIBERO, and real-world tasks, PriorVLA achieves stronger overall performance than full fine-tuning and state-of-the-art VLA baselines, with the largest gains under out-of-distribution (OOD) and few-shot settings. PriorVLA improves over pi0.5 by 11 points on RoboTwin 2.0-Hard and achieves 99.1% average success on LIBERO. Across eight real-world tasks and two embodiments, PriorVLA reaches 81% in-distribution (ID) and 57% OOD success with standard data. With only 10 demonstrations per task, PriorVLA reaches 48% ID and 32% OOD success, surpassing pi0.5 by 24 and 22 points, respectively.
- Abstract(参考訳): 大規模な事前トレーニングにより、VLA(Vision-Language-Action)モデルは汎用的なロボット操作の基礎を約束しているが、下流のタスクに適応する必要がある。
しかし、フル微調整の一般的な実践は、初期化として事前訓練を行い、より広い事前訓練を狭義の訓練分布パターンにシフトさせることができる。
我々は、事前学習した事前学習を保存し、それらを効果的な適応に活用することを学ぶための新しいフレームワークであるPreferVLAを提案する。
PriorVLAはフリーズされたPreside Expertをリードオンリーの事前ソースとして保持し、下流の特殊化のためにAdaptation Expertを訓練する。
エキスパートクエリは、事前訓練されたVLMのシーンと、事前エキスパートのモーター前のシーンをキャプチャし、Adaptation Expertと統合して、適応をガイドする。
PriorVLAは同時に、完全な微調整によって更新されたパラメータの25%だけを更新する。
RoboTwin 2.0、LIBERO、および現実世界のタスク全体で、PreferVLAは完全な微調整と最先端のVLAベースラインよりも全体的なパフォーマンスが向上し、アウト・オブ・ディストリビューション(OOD)と数ショット設定で最大の利益を得ている。
PreVLAはRoboTwin 2.0-Hardでpi0.5よりも11ポイント向上し、LIBEROで平均99.1%の成功を達成した。
現実世界の8つのタスクと2つの実施状況の中で、PreferVLAは標準データで81%の分散(ID)と57%のOOD成功を達成した。
1タスクにつき10回のデモで、PreferVLAはIDが48%、OODが32%、pi0.5が24ポイント、OODが22ポイントを超えた。
関連論文リスト
- VLA-GSE: Boosting Parameter-Efficient Fine-Tuning in VLA with Generalized and Specialized Experts [40.14658892346419]
VLA-GSEは、視覚言語アクションモデルのためのパラメータ効率の良いVLA微調整フレームワークである。
PEFTの知識保存の優位性を維持しつつ、制御適応を改善する。
LIBERO-Plusの平均ゼロショット成功率は81.2%である。
論文 参考訳(メタデータ) (2026-05-07T12:56:58Z) - A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Interactive Post-Training for Vision-Language-Action Models [28.32397816792674]
RIPT-VLAは、シンプルでスケーラブルな強化学習に基づくインタラクティブなポストトレーニングパラダイムである。
RIPT-VLAファインチューンで訓練されたビジョン・ランゲージ・アクション(VLA)モデルは、わずかに二進的な成功報酬のみを使用する。
1つのデモだけで、RIPT-VLAは15イテレーションで97%の成功率で作業不能なSFTモデルを成功させることができる。
論文 参考訳(メタデータ) (2025-05-22T17:59:45Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。