論文の概要: A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model
- arxiv url: http://arxiv.org/abs/2604.05672v2
- Date: Wed, 08 Apr 2026 08:24:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.101835
- Title: A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model
- Title(参考訳): A1: 完全透明なオープンソース、適応的で効率のよいトランシティブビジョン・ランゲージ・アクション・モデル
- Authors: Kaidong Zhang, Jian Zhang, Rongtao Xu, Yu Sun, Shuoshuo Xue, Youpeng Wen, Xiaoyu Guo, Minghao Guo, Weijia Liufu, Liu Zihou, Kangyi Ji, Yangsong Zhang, Jiarun Zhu, Jingzhi Liu, Zihang Li, Ruiyi Chen, Meng Cao, Jingming Zhang, Shen Zhao, Xiaojun Chang, Feng Zheng, Ivan Laptev, Xiaodan Liang,
- Abstract要約: VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
- 参考スコア(独自算出の注目度): 112.9420001646428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language-Action (VLA) models have emerged as a powerful paradigm for open-world robot manipulation, but their practical deployment is often constrained by cost: billion-scale VLM backbones and iterative diffusion/flow-based action heads incur high latency and compute, making real-time control expensive on commodity hardware. We present A1, a fully open-source and transparent VLA framework designed for low-cost, high-throughput inference without sacrificing manipulation success; Our approach leverages pretrained VLMs that provide implicit affordance priors for action generation. We release the full training stack (training code, data/data-processing pipeline, intermediate checkpoints, and evaluation scripts) to enable end-to-end reproducibility. Beyond optimizing the VLM alone, A1 targets the full inference pipeline by introducing a budget-aware adaptive inference scheme that jointly accelerates the backbone and the action head. Specifically, we monitor action consistency across intermediate VLM layers to trigger early termination, and propose Inter-Layer Truncated Flow Matching that warm-starts denoising across layers, enabling accurate actions with substantially fewer effective denoising iterations. Across simulation benchmarks (LIBERO, VLABench) and real robots (Franka, AgiBot), A1 achieves state-of-the-art success rates while significantly reducing inference cost (e.g., up to 72% lower per-episode latency for flow-matching inference and up to 76.6% backbone computation reduction with minor performance degradation). On RoboChallenge, A1 achieves an average success rate of 29.00%, outperforming baselines including pi0(28.33%), X-VLA (21.33%), and RDT-1B (15.00%).
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、その実践的展開はコストによって制約されることが多い。
本稿では,操作を犠牲にすることなく低コストで高スループットの推論が可能な,完全オープンソースかつ透過的なVLAフレームワークであるA1について述べる。
エンドツーエンドの再現性を実現するための完全なトレーニングスタック(トレーニングコード、データ/データ処理パイプライン、中間チェックポイント、評価スクリプト)をリリースします。
VLMのみを最適化する以外に、A1は、バックボーンとアクションヘッドを共同で高速化する予算対応適応推論スキームを導入することで、完全な推論パイプラインをターゲットにしている。
具体的には、中間VLM層間でのアクション一貫性を監視して早期終了を誘導し、階層間でのウォームスタートを行う階層間整合フローマッチングを提案する。
シミュレーションベンチマーク(LIBERO、VLABench)と実ロボット(Franka、AgiBot)のA1は、予測コストを著しく削減しつつ、最先端の成功率を達成する(例えば、フローマッチング推論において、エピソード当たりのレイテンシを最大72%削減し、パフォーマンスの低下を最大76.6%削減する)。
RoboChallengeでは、A1は平均成功率29.00%に達し、pi0(28.33%)、X-VLA(21.33%)、RTT-1B(15.00%)などのベースラインを上回っている。
関連論文リスト
- One-Step Flow Policy: Self-Distillation for Fast Visuomotor Policies [18.743330791557522]
ワンステップフローポリシー (One-Step Flow Policy, OFP) は、教師の訓練を受けずに高忠実でシングルステップのアクション生成を行うための自己蒸留フレームワークである。
56の多様なシミュレートされた操作タスクに対する評価は、一段階のOFPが最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2026-03-12T21:58:12Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - PRISM: Performer RS-IMLE for Single-pass Multisensory Imitation Learning [51.24484551729328]
PRISMは,IMLEのバッチ・グロバル・リジェクション・サンプリングに基づく単一パスポリシーである。
PRISMは、Performerアーキテクチャを用いた線形アテンション発生器と時間的マルチセンサエンコーダを結合する。
7-DoFアームD1を搭載したUnitree Go2を用いたロコマニピュレーションやUR5マニピュレータを用いたテーブルトップ操作など,PRISMの有効性を実証する。
論文 参考訳(メタデータ) (2026-02-02T17:57:37Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Think Twice, Act Once: Token-Aware Compression and Action Reuse for Efficient Inference in Vision-Language-Action Models [30.7855782696894]
VLA(Vision-Language-Action)モデルは、自然言語による汎用ロボット制御の強力なパラダイムとして登場した。
VLAモデルにおけるアクション再利用を可能にする最初のトレーニングフリーかつプラグアンドプレイアクセラレーションフレームワークであるFlashVLAを提案する。
論文 参考訳(メタデータ) (2025-05-27T13:47:18Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。