論文の概要: Offline Semantic Guidance for Efficient Vision-Language-Action Policy Distillation
- arxiv url: http://arxiv.org/abs/2605.16241v1
- Date: Fri, 15 May 2026 17:48:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.399293
- Title: Offline Semantic Guidance for Efficient Vision-Language-Action Policy Distillation
- Title(参考訳): 効率的なビジョンランゲージ・アクション・ポリシー蒸留のためのオフラインセマンティックガイダンス
- Authors: Jin Shi, Brady Zhang, Yishun Lu,
- Abstract要約: オフラインセマンティックスーパーバイザーとしてVision-Language Modelを用いた蒸留フレームワークである textbfVLA-AD を導入する。
低レベルのアクション模倣に頼る代わりに、VLA-ADは教師が提供する7-DoFアクションターゲットを高レベルのセマンティックガイダンスで強化する。
- 参考スコア(独自算出の注目度): 1.5718245345210466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Billion-parameter Vision-Language-Action (VLA) policies have recently shown impressive performance in robotic manipulation, yet their size and inference cost remain major obstacles for real-time closed-loop control. We introduce \textbf{VLA-AD}, a distillation framework that uses a Vision-Language Model as an offline semantic supervisor to transfer large VLA teachers into lightweight student policies. Instead of relying only on low-level action imitation, VLA-AD augments teacher-provided 7-DoF action targets with high-level semantic guidance, including task phase anchors and multi-frame operating-direction descriptions. These auxiliary signals are used only during training: at test time, the student policy runs independently, with neither the VLA teacher nor the VLM required. We evaluate VLA-AD on three LIBERO benchmark suites. Using OpenVLA-7B as the teacher, our method produces a 158M-parameter student, yielding a $44\times$ reduction in model size while matching the teacher with only a $0.27\%$ average relative gap. The resulting policy runs at 12.5 Hz on an RTX 4090, achieving a $3.28\times$ inference speedup over OpenVLA-7B. We further show that the same semantic distillation pipeline generalizes to a different $π_{0.5}$-4B teacher, where the student outperforms the teacher on two suites and remains within $0.53\%$ on \texttt{libero\_goal}. Additional analysis indicates that phase-level supervision and multi-frame directional cues make the student less sensitive to noisy teacher actions, such as erroneous high-frequency gripper changes. Overall, VLA-AD demonstrates that offline semantic guidance from VLMs can substantially improve the efficiency, robustness, and deployability of VLA policy distillation.
- Abstract(参考訳): VLA(Valsion-parameter Vision-Language-Action)ポリシーは、ロボット操作において目覚ましいパフォーマンスを示しているが、そのサイズと推論コストは、リアルタイムのクローズドループ制御の主要な障害である。
本稿では,大規模なVLA教師を軽量な学生政策に移行するためのオフラインセマンティックスーパーバイザとしてVision-Language Modelを用いた蒸留フレームワークである「textbf{VLA-AD}」を紹介する。
低レベルのアクション模倣のみに頼る代わりに、VLA-ADは教師が提供する7-DoFアクションターゲットを拡張し、タスクフェーズアンカーやマルチフレームの操作方向記述を含む高レベルのセマンティックガイダンスを提供する。
これらの補助信号は、訓練中のみ使用され、テスト時には、学生ポリシーは独立して実行され、VLA教師もVLMも必要としない。
3つの LIBERO ベンチマークスイート上で VLA-AD を評価する。
OpenVLA-7B を教師として用いて、158M パラメーターの学生を作製し、教師を0.27 % の平均相対ギャップでマッチングしながら、モデルサイズを4,4\times$に削減した。
その結果、RTX 4090上で12.5Hzで動作し、OpenVLA-7Bよりも3.28\times$推論スピードアップを達成した。
さらに、同じセマンティック蒸留パイプラインが異なる$π_{0.5}$-4Bの教師に一般化されることを示し、そこでは学生は2組のスイートで教師を上回り、なおも \texttt{libero\_goal} で$0.53\%以下である。
追加分析により、位相レベルの監督と多フレーム指向の方法により、生徒は、誤った高周波グリップの変化など、ノイズの多い教師の行動に敏感になりにくくなることが示された。
全体として、VLA-ADは、VLMからのオフラインセマンティックガイダンスが、VLAポリシー蒸留の効率、堅牢性、およびデプロイ性を大幅に改善できることを示した。
関連論文リスト
- A1: A Fully Transparent Open-Source, Adaptive and Efficient Truncated Vision-Language-Action Model [112.9420001646428]
VLA(Vision-Language-Action)モデルは、オープンワールドロボット操作の強力なパラダイムとして登場したが、実際の展開はコストに制約されることが多い。
我々は、低コストで高スループットな推論のために設計された、完全にオープンソースで透明なVLAフレームワークであるA1を提示する。
A1は最先端の成功率を達成すると同時に、推論コストを大幅に削減する。
論文 参考訳(メタデータ) (2026-04-07T10:18:40Z) - Adaptive Capacity Allocation for Vision Language Action Fine-tuning [30.782665306687992]
視覚言語アクションモデル(VLA)は、物理AIにますます使われているが、未確認環境に事前訓練されたVLAモデルをデプロイするには、まだ適応が必要である。
固定ランク更新を入力および層単位のキャパシティに置き換えるランク適応微調整法であるLoRA-SPを提案する。
目に見えないAgileX PiPERのアームで収集された4つの実ロボット操作タスクでは、LoRA-SPはトレーニング可能なパラメータがはるかに少ない完全な微調整にマッチするか、超える。
論文 参考訳(メタデータ) (2026-03-08T01:33:01Z) - VOLD: Reasoning Transfer from LLMs to Vision-Language Models via On-Policy Distillation [67.98620973023709]
VOLDは、テキストのみの教師モデルからVLMの学生モデルに推論機能を移行するためのフレームワークである。
VOLDはベースラインモデルよりも大幅に優れ,最先端技術よりもマージンが向上していることを示す。
論文 参考訳(メタデータ) (2025-10-27T16:32:12Z) - HyperVLA: Efficient Inference in Vision-Language-Action Models via Hypernetworks [28.849312355730405]
VLA(Vision-Language-Action)モデルは、汎用的なロボットポリシーを学ぶための有望なアプローチとして登場した。
HyperVLAは、推論中に小さなタスク固有のポリシーのみを活性化する、新しいハイパーネットワーク(HN)ベースのアーキテクチャを使用している。
HyperVLAはゼロショット一般化と少数ショット適応の両方において、同様のあるいはそれ以上の成功率を達成する。
論文 参考訳(メタデータ) (2025-10-06T15:15:38Z) - InstructVLA: Vision-Language-Action Instruction Tuning from Understanding to Manipulation [43.83789393525928]
InstructVLAは、大規模な視覚言語モデル(VLM)の柔軟な推論を保存し、主要な操作性能を提供するエンド・ツー・エンドの視覚言語モデルである。
InstructVLAは、新しいトレーニングパラダイムであるVision-Language-Action Instruction Tuning (VLA-IT)を導入している。
ドメイン内のSimplerEnvタスクでは、InstructVLAはSpatialVLAよりも30.5%改善されている。
論文 参考訳(メタデータ) (2025-07-23T13:57:06Z) - SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics [37.82471658370026]
視覚言語モデル(VLM)は、豊富な視覚的および言語的知識を符号化した大規模マルチモーダルデータセットで事前訓練された。
SmolVLAは、トレーニングと推論の両方のコストを大幅に削減する、小さく、効率的で、コミュニティ主導のVLAである。
論文 参考訳(メタデータ) (2025-06-02T16:30:19Z) - Refined Policy Distillation: From VLA Generalists to RL Experts [18.186499704928092]
本稿では,新しい強化学習型政策精錬法であるRefined Policy Distillation (RPD)を紹介する。
RPDはVision-Language-Action Models (VLA) を、コンパクトで高性能な専門家ポリシーに精錬・精錬する。
実験結果から,RL の学生は VLA の教師に対して,高密度かつ疎度な報酬設定で優れた専門家ポリシーを学習することができることがわかった。
論文 参考訳(メタデータ) (2025-03-06T12:52:11Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。