論文の概要: Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2606.05737v1
- Date: Thu, 04 Jun 2026 05:58:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.584315
- Title: Let It Be Simple: One-Step Action Generation for Vision-Language-Action Models
- Title(参考訳): シンプルにしよう:ビジョンランゲージ・アクションモデルのためのワンステップアクション生成
- Authors: Yitong Chen, Shiduo Zhang, Jingjing Gong, Xipeng Qiu,
- Abstract要約: 拡散に基づく視覚言語アクションモデルはしばしば画像生成ビューを継承する。
標準拡散訓練から強力なワンステップアクション生成が生ずることを示す。
- 参考スコア(独自算出の注目度): 48.13124286519152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based vision-language-action (VLA) models often inherit the image-generation view: actions are generated by iterative denoising. We argue that VLA action generation has a different condition-target structure: the policy is conditioned on rich observations, language, and state, but predicts only a compact, low-dimensional action chunk. Under this asymmetry, strong one-step action generation should not necessarily require the advanced one-step methods developed for image synthesis. We keep standard velocity prediction and add no teacher model, distillation stage, or auxiliary objective; in our main recipe, we simply bias the training time distribution toward high-noise states. We first isolate the effect in a controlled MNIST grid-to-sequence task, then test it with extensive robot-policy experiments. Across standard LIBERO, LIBERO-Plus, and LIBERO-Pro, one-step policies trained with high-noise biased schedules generally match ten-step decoding under the same recipe, and on standard LIBERO can exceed ten-step policies trained with a uniform time distribution. A real-robot bimanual YAM RSS evaluation gives a small-sample cross-architecture check of the same sampler trend. On a 1.4B VLM model with a 30M action head, one-step decoding reaches 95.6\% on LIBERO-Long. These results show that strong one-step VLA action generation can emerge from standard diffusion training, without importing the full few-step diffusion machinery developed for image generation.
- Abstract(参考訳): 拡散に基づく視覚言語アクション(VLA)モデルは、しばしば画像生成ビューを継承する。
VLAアクション生成は、リッチな観察、言語、状態に条件付けされているが、コンパクトで低次元のアクションチャンクのみを予測する。
この非対称性の下では、強いワンステップアクション生成は、画像合成のために開発された高度なワンステップメソッドを必ずしも必要とすべきではない。
我々は標準速度予測を保ち、教師モデル、蒸留段階、補助目標を付加しない。
まず、制御されたMNISTグリッド・ツー・シーケンスタスクにおいて、その効果を分離し、その後、広範なロボット政治実験で検証する。
標準のLIBERO, LIBERO-Plus, LIBERO-Proでは, 高雑音偏りのスケジュールでトレーニングされたワンステップポリシーは, 一般的に同じレシピで10ステップのデコードに一致し, 標準のLIBEROでは, 均一な時間分布でトレーニングされた10ステップのポリシーを超えることができる。
実ロボットの双方向YAM RSS評価は、同じサンプル傾向の小さなクロスアーキテクチャチェックを与える。
30Mアクションヘッドを持つ1.4B VLMモデルでは、ワンステップデコーディングはLIBERO-Long上で95.6\%に達する。
これらの結果は、画像生成のために開発された全数ステップの拡散機械をインポートすることなく、標準拡散訓練から強力なワンステップVLAアクション生成が実現可能であることを示している。
関連論文リスト
- D-OPSD: On-Policy Self-Distillation for Continuously Tuning Step-Distilled Diffusion Models [27.90064267850009]
ステップ蒸留拡散モデルのための新しい訓練パラダイムであるD-OPSDを提案する。
D-OPSDにより、モデルは元の数ステップのキャパシティを犠牲にすることなく、新しい概念、スタイルなどを学ぶことができる。
論文 参考訳(メタデータ) (2026-05-06T17:59:34Z) - S-VAM: Shortcut Video-Action Model by Self-Distilling Geometric and Semantic Foresight [42.690473567612116]
ビデオアクションモデル(VAM)は、ロボット学習のための有望なパラダイムとして登場した。
S-VAMは、1つのフォワードパスを介してコヒーレントな幾何学的および意味的表現を予測できるショートカットビデオアクションモデルである。
論文 参考訳(メタデータ) (2026-03-17T07:21:28Z) - BagelVLA: Enhancing Long-Horizon Manipulation via Interleaved Vision-Language-Action Generation [14.657523625592658]
VLA(Vision-Language-Action)モデルは通常、独立した言語計画や視覚予測に重点を置いている。
本研究では,言語計画,視覚予測,行動生成を統合した統一モデルBagelVLAを提案する。
大規模な実験により、BagelVLAは複数のシミュレーションおよび実世界のベンチマークで既存のベースラインを上回っていることが示されている。
論文 参考訳(メタデータ) (2026-02-10T14:54:01Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Unified Vision-Language-Action Model [86.68814779303429]
我々は、視覚、言語、行動信号を離散トークンシーケンスとして自動回帰モデル化する、統一的でネイティブなマルチモーダルVLAモデルUniVLAを提案する。
提案手法は, CALVIN, LIBERO, Simplenv-Bridge など, 広く使用されているシミュレーションベンチマークにまたがって, 最新の結果を設定する。
さらに、現実世界のALOHA操作と自律運転に適用可能であることを実証する。
論文 参考訳(メタデータ) (2025-06-24T17:59:57Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。