論文の概要: ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models
- arxiv url: http://arxiv.org/abs/2511.18082v1
- Date: Sat, 22 Nov 2025 14:44:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.618157
- Title: ActDistill: General Action-Guided Self-Derived Distillation for Efficient Vision-Language-Action Models
- Title(参考訳): Act Distill: 効率的な視覚・言語・行動モデルのための一般行動誘導型自己拡散蒸留法
- Authors: Wencheng Ye, Tianshi Wang, Lei Zhu, Fengling Li, Guoli Yang,
- Abstract要約: 本稿では,既存のVLAモデルの動作予測機能を軽量モデルに転送するフレームワークであるActDistillを提案する。
我々は教師としてよく訓練されたVLAモデルを採用し、グラフ構造化カプセル化戦略を導入し、行動予測の階層的進化を明示的にモデル化する。
具現化されたベンチマークの実験では、ActDistillはフルスケールのVLAモデルと同等または優れた性能を達成し、計算を最大1.67倍のスピードアップで50%以上削減した。
- 参考スコア(独自算出の注目度): 14.202025149504715
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent Vision-Language-Action (VLA) models have shown impressive flexibility and generalization, yet their deployment in robotic manipulation remains limited by heavy computational overhead and inference latency. In this work, we present ActDistill, a general action-guided self-derived distillation framework that transfers the action prediction capability of any existing VLA model to a lightweight counterpart. Unlike previous efficiency strategies that primarily emphasize vision-language correlations, ActDistill leverages action priors to guide knowledge transfer and model compression, achieving action-oriented efficiency for VLA models. Specifically, we employ a well-trained VLA model as the teacher and introduce a graph-structured encapsulation strategy to explicitly model the hierarchical evolution of action prediction. The student model, derived from the graph-encapsulated teacher, is further equipped with a dynamic router that adaptively selects computation paths based on action prediction demands, guided by hierarchical graph-informed supervision to ensure smooth and efficient evolution. During inference, graph-related auxiliary components are removed, allowing the student to execute only dynamically routed layers and predict high-precision actions with minimal computation and latency. Experiments on embodied benchmarks demonstrate that ActDistill achieves comparable or superior performance to full-scale VLA models while reducing computation by over 50% with up to 1.67 times speedup, thereby establishing a general paradigm toward efficient embodied intelligence.
- Abstract(参考訳): 近年のVision-Language-Action(VLA)モデルでは、柔軟性と一般化が目覚ましいが、ロボット操作への展開は、計算オーバーヘッドと推論遅延によって制限されている。
本稿では,既存のVLAモデルの動作予測能力を軽量に伝達する,一般的な行動誘導型自己抽出蒸留フレームワークであるActDistillを提案する。
ActDistillは、視覚言語間の相関を主に重視する従来の効率戦略とは異なり、知識伝達とモデル圧縮を導くために行動優先を利用して、VLAモデルのアクション指向効率を達成する。
具体的には、教師としてよく訓練されたVLAモデルを使用し、グラフ構造化カプセル化戦略を導入し、行動予測の階層的進化を明示的にモデル化する。
学生モデルは、グラフをカプセル化した教師から派生したもので、動的ルータを備えており、行動予測要求に基づいて計算経路を適応的に選択し、階層的なグラフインフォームド・インフォメーションによって誘導され、スムーズで効率的な進化を保証する。
推論中、グラフ関連補助コンポーネントは削除され、学生は動的にルーティングされた層のみを実行し、最小の計算とレイテンシで高精度なアクションを予測できる。
エンボディドベンチマークの実験では、ActDistillはフルスケールのVLAモデルと同等または優れた性能を達成し、計算を最大1.67倍のスピードアップで50%以上削減し、効率的なエンボディドインテリジェンスに向けた一般的なパラダイムを確立した。
関連論文リスト
- VITA-VLA: Efficiently Teaching Vision-Language Models to Act via Action Expert Distillation [76.13140980997508]
VLA(Vision-Language Action)モデルは、事前訓練された視覚言語モデル(VLM)の強い知覚能力を活用することにより、ロボット操作を著しく向上させる。
本稿では,VLMに事前訓練された小規模な行動モデルから知識を伝達することで,動作実行能力を持たせる,簡易かつ効果的な蒸留ベースフレームワークを提案する。
5つの操作課題にわたる実世界の実験において,本手法は教師モデルより一貫して優れ,82.0%の成功率(17%改善)を達成した。
論文 参考訳(メタデータ) (2025-10-10T17:59:56Z) - Progressive Weight Loading: Accelerating Initial Inference and Gradually Boosting Performance on Resource-Constrained Environments [8.020686883632594]
プログレッシブウェイトローディング(Progressive Weight Loading, PWL)は、最初は軽量の学生モデルをデプロイし、次にその層を事前訓練された教師モデルに置き換えることで、高速な初期推論を可能にする技術である。
VGG, ResNet, ViT アーキテクチャに関する実験により,PWL で訓練されたモデルは,教師層がロードされるにつれて,競争蒸留性能を維持し,徐々に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-26T13:19:32Z) - EdgeVLA: Efficient Vision-Language-Action Models [0.4005096060512278]
本稿では,VLA(Vision-Language-Action)モデルの推論速度を大幅に向上する新しい手法であるEdge VLAを紹介する。
1)エンドエフェクタ位置予測の自己回帰要求を排除し,推論の7倍の高速化を実現し,2)小言語モデル(SLM)の効率を向上する。
我々の初期の結果は、EVLAがOpenVLAに匹敵するトレーニング特性を達成し、推論速度とメモリ効率を大幅に向上させることを示した。
論文 参考訳(メタデータ) (2025-07-18T16:15:09Z) - SP-VLA: A Joint Model Scheduling and Token Pruning Approach for VLA Model Acceleration [70.72227437717467]
VLA(Vision-Language-Action)モデルは、その強力な制御能力に注目が集まっている。
計算コストが高く、実行頻度も低いため、ロボット操作や自律ナビゲーションといったリアルタイムタスクには適さない。
本稿では,共同スケジューリングモデルとプルーニングトークンにより,VLAモデルを高速化する統一フレームワークSP-VLAを提案する。
論文 参考訳(メタデータ) (2025-06-15T05:04:17Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - Feature Alignment-Based Knowledge Distillation for Efficient Compression of Large Language Models [4.737806982257592]
本研究では,大規模言語モデルと特徴アライメントに基づく知識蒸留アルゴリズムを提案する。
提案モデルは, パープレキシティ, BLEU, ROUGE, CER などの評価指標を用いて, 最先端の GPT-4 モデルに非常に近い性能を示す。
論文 参考訳(メタデータ) (2024-12-27T04:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。