Fugu-MT 論文翻訳(概要): CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models

論文の概要: CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2605.21854v1
Date: Thu, 21 May 2026 01:02:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-22 16:35:42.042659
Title: CrossVLA: Cross-Paradigm Post-Training and Inference Optimization for Vision-Language-Action Models
Title（参考訳）: CrossVLA:ビジョンランゲージ・アクションモデルのためのクロスパラダイムポストトレーニングと推論最適化
Authors: Zhi Liu,
Abstract要約: われわれは,クロスパラダイム・ビジョン・ランゲージ・アクション(VLA)のポストトレーニングに関する実証的研究であるCrossVLAを報告する。 i) 確率フローODE統合なしでDPOを連続動作バックボーンで操作できる代理フローマッチングログ確率推定器、(ii) VLA DPOのパラメータ係数層としてのLoRAとDoRAの頭と頭の比較、(iii) ノイズループを示す推論時間解剖学は、サンプル_actions遅延の78.6%、プレフィックス-K/Vキャッシングのラを支配している。
参考スコア（独自算出の注目度）: 7.489020109808801
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-Language-Action (VLA) models have rapidly converged on a small set of architectural patterns: discrete-token autoregression (e.g. OpenVLA) and continuous-action flow-matching (e.g. pi-0.5). Yet preference alignment via Direct Preference Optimisation (DPO) -- the de-facto post-training step in language models -- has been studied almost exclusively on autoregressive VLAs. We present CrossVLA, an empirical study of cross-paradigm VLA post-training. Three contributions: (i) a surrogate flow-matching log-probability estimator that lets DPO operate on continuous-action backbones without probability-flow ODE integration; (ii) a head-to-head comparison of LoRA and DoRA as the parameter-efficient layer for VLA DPO, finding DoRA improves over OpenVLA SFT by a mean +10.4 pp across LIBERO 4-suite (600 trials, 3 seeds) -- per-suite +20.0 Object, +11.0 Long-horizon, +8.0 Goal, +2.7 Spatial -- with zero seed variance on Object (38/50 on each of 3 seeds); (iii) an inference-time anatomy showing the denoise loop dominates 78.6% of sample_actions latency and prefix-K/V caching a la VLA-Cache caps at a 21% acceleration ceiling -- both chunk-level and token-level cache strategies degrade success rate to 0-80% in our benchmarks. We further pretrain a multi-view + temporal projection head on 6000 LIBERO frames, achieving 99.5% k-NN recall@1 for same-task retrieval (36x over random), available as a downstream initialisation. All code, ckpts, training logs, and reproduction scripts are open at https://github.com/lz-googlefycy/vla-lab.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、離散的な自己回帰(OpenVLA)や連続的なフローマッチング(pi-0.5)といった、小さなアーキテクチャパターンに急速に収束している。しかし、言語モデルにおけるデファクトのポストトレーニングステップであるDirect Preference Optimisation (DPO)による選好アライメントは、ほとんど自動回帰VLAで研究されている。われわれは,クロスパラダイムVLAポストトレーニングの実証的研究であるCrossVLAについて紹介する。 3つの貢献 i) 確率フローODE統合なしでDPOが連続動作バックボーンで操作できる代理フローマッチングログ確率推定器。 (二)VLA DPOのパラメータ係数層としてのLoRAとDoRAの頭と頭の比較により、DRAは、LIBERO 4-suite (600の試験、3の種) --per-suite +20.0 Object, +11.0 Long-horizon, +8.0 Goal, +2.7 Space -- の平均+10.4 ppでOpenVLA SFTよりも改善され、オブジェクト(3つの種子の38/50)に種差がゼロとなる。 (iii)denoiseループを示す推論時間解剖学は、サンプル_actionsレイテンシの78.6%を占め、プレフィックス-K/VキャッシュのラVLAキャッシュを21%の加速天井でキャッシュする -- チャンクレベルとトークンレベルのキャッシュ戦略の両方が、ベンチマークで成功率を0-80%に低下させる。さらに、6000 LIBEROフレーム上のマルチビュー+時間プロジェクションヘッドを事前トレーニングし、ダウンストリーム初期化として利用可能な同タスク検索(ランダム36倍)の99.5%のk-NNリコール@1を達成する。すべてのコード、ckpt、トレーニングログ、再生スクリプトはhttps://github.com/lz-googlefycy/vla-lab.comで公開されている。

関連論文リスト

Latent Bridge: Feature Delta Prediction for Efficient Dual-System Vision-Language-Action Model Inference [22.977205925809134]
本稿では,VLM出力の時間差を推定する軽量モデルであるLatent Bridgeを提案する。ラテントブリッジは95-100%の性能維持を実現し、VLMコールを50-75%削減し、エピソード当たり1.65-1.73xネットのスピードアップを実現している。
論文参考訳（メタデータ） (2026-05-04T15:37:55Z)
A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。 A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文参考訳（メタデータ） (2026-04-07T10:18:40Z)
SnapFlow: One-Step Action Generation for Flow-Matching VLAs via Progressive Self-Distillation [18.319705014361908]
VLA(Vision-Language-Action)モデルは、最先端の汎用ロボット操作を実現する。最新のGPUでは、denoisingだけで、エンドツーエンドの推論時間の80%を占めています。本稿では,複数ステップのデノイングを1つの前方パスに圧縮する,プラグアンドプレイの自己蒸留法であるSnapFlowを提案する。
論文参考訳（メタデータ） (2026-04-07T09:56:03Z)
Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。 GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。 LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文参考訳（メタデータ） (2026-02-22T15:39:34Z)
Recurrent-Depth VLA: Implicit Test-Time Compute Scaling of Vision-Language-Action Models via Latent Iterative Reasoning [38.78160379823724]
リカレントディープスVLA(Recurrent-Depth VLA)は、明示的なトークン生成ではなく、遅延反復精製による計算適応性を実現するアーキテクチャである。 RD-VLAは、メモリフットプリントが一定である任意の推論深度をサポートするリカレントで重み付けされたアクションヘッドを使用している。
論文参考訳（メタデータ） (2026-02-08T07:21:01Z)
IVRA: Improving Visual-Token Relations for Robot Action Policy with Training-Free Hint-Based Guidance [35.90972175891154]
多くのVision-Language-Action (VLA)モデルは、画像パッチを1Dトークンシーケンスに平坦化し、正確な操作に必要な2D空間キューを弱める。我々は,モデルに組み込まれた視覚で既に利用可能な親和性ヒントを活用することにより,空間的理解を改善する軽量なトレーニング不要な手法を提案する。
論文参考訳（メタデータ） (2026-01-22T18:57:13Z)
Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文参考訳（メタデータ） (2025-12-02T14:42:54Z)
Dual-Stream Diffusion for World-Model Augmented Vision-Language-Action Model [62.889356203346985]
本稿では,モダリティ競合を処理する世界モデル拡張VLAフレームワークである Dual-STream diffusion (DUST) を提案する。 DUSTは標準のVLAベースラインと暗黙のワールドモデリングメソッドよりも最大6%向上する。 Franka Research 3による実世界のタスクでは、DUSTは成功率のベースラインを13%上回っている。
論文参考訳（メタデータ） (2025-10-31T16:32:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。