論文の概要: SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning
- arxiv url: http://arxiv.org/abs/2509.05614v1
- Date: Sat, 06 Sep 2025 06:22:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.612562
- Title: SpecPrune-VLA: Accelerating Vision-Language-Action Models via Action-Aware Self-Speculative Pruning
- Title(参考訳): SpecPrune-VLA:行動を考慮した自己スペクティブ・プルーニングによる視覚・言語・行動モデルの高速化
- Authors: Hanzhen Wang, Jiaming Xu, Jiayi Pan, Yongkang Zhou, Guohao Dai,
- Abstract要約: 2レベルプルーニングとトークン制御を備えたトレーニング不要なSpecPrune-VLAを導入する。
LIBEROの実験では、NVIDIA A800のSpecPrune-VLA 1.46倍、NVIDIA GeForce 3090とOpenVLA-OFTの1.57倍のスピードアップがあり、成功率の損失は無視できる。
- 参考スコア(独自算出の注目度): 12.769883138858901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pruning accelerates compute-bound models by reducing computation. Recently applied to Vision-Language-Action (VLA) models, existing methods prune tokens using only local info from current action, ignoring global context from prior actions, causing >20% success rate drop and limited speedup. We observe high similarity across consecutive actions and propose leveraging both local (current) and global (past) info for smarter token selection. We introduce SpecPrune-VLA, a training-free method with two-level pruning and heuristic control: (1) Static pruning at action level: uses global history and local context to reduce visual tokens per action; (2) Dynamic pruning at layer level: prunes tokens per layer based on layer-specific importance; (3) Lightweight action-aware controller: classifies actions as coarse/fine-grained (by speed), adjusting pruning aggressiveness since fine-grained actions are pruning-sensitive. Experiments on LIBERO show SpecPrune-VLA achieves 1.46 times speedup on NVIDIA A800 and 1.57 times on NVIDIA GeForce RTX 3090 vs. OpenVLA-OFT, with negligible success rate loss.
- Abstract(参考訳): プルーニングは計算量を減らすことで計算バウンドモデルを加速する。
近年、Vision-Language-Action(VLA)モデルに適用され、既存の方法では、現在のアクションからのローカル情報のみを使用し、前アクションからのグローバルコンテキストを無視し、成功率の20%低下と制限されたスピードアップを引き起こしている。
連続した動作間で高い類似性を観察し、よりスマートなトークン選択のために局所的(現在の)情報とグローバル的(過去)情報の両方を活用することを提案する。
1 アクションレベルで静的プルーニング:グローバルヒストリとローカルコンテキストを用いてアクションごとの視覚トークンを削減; 2) レイヤーレベルでの動的プルーニング:層ごとのトークンを層ごとの重要度に基づいてプルースする; (3) 軽量アクション認識コントローラ: アクションを粗い/きめ細かい(速度による)ものとして分類し、きめ細かなアクションがプルーニングに敏感であるため、プルーニング攻撃性を調整する。
LIBEROの実験では、SpecPrune-VLAはNVIDIA A800で1.46倍、NVIDIA GeForce RTX 3090とOpenVLA-OFTで1.57倍のスピードアップを達成した。
関連論文リスト
- CogVLA: Cognition-Aligned Vision-Language-Action Model via Instruction-Driven Routing & Sparsification [48.81250395291505]
最近のVision-Language-Actionモデルは、広範な後トレーニングを必要とし、高い計算オーバーヘッドをもたらす。
命令駆動型ルーティングとスパーシフィケーションを利用して効率と性能を両立させるフレームワークであるCogVLAを提案する。
CogVLAは、それぞれ97.4%と70.0%の成功率で最先端のパフォーマンスを達成し、トレーニングコストを2.5倍に、推論遅延を2.8倍に削減した。
論文 参考訳(メタデータ) (2025-08-28T17:50:58Z) - HiPrune: Training-Free Visual Token Pruning via Hierarchical Attention in Vision-Language Models [6.306822764683807]
HiPruneは、ビジョンエンコーダのためのトレーニング不要でモデルに依存しないトークンプルーニングフレームワークである。
視覚エンコーダ内の階層的アテンション構造を利用する。
33.3%のトークンで99.3%のタスク精度を維持し、11.1%のトークンで99.5%の精度を維持している。
論文 参考訳(メタデータ) (2025-08-01T11:48:11Z) - GrAInS: Gradient-based Attribution for Inference-Time Steering of LLMs and VLMs [56.93583799109029]
GrAInSは推論時ステアリングのアプローチで、言語のみのモデルと視覚言語の両方のモデルとタスクで動作する。
推論中、GrAInSはトークンレベルの属性信号によって誘導されるトランスフォーマー層で隠されたアクティベーションを隠蔽し、アクティベーションを正規化し、表現スケールを保存する。
微調整と既存のステアリングベースラインの両方を一貫して上回る。
論文 参考訳(メタデータ) (2025-07-24T02:34:13Z) - CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。
CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文 参考訳(メタデータ) (2025-06-24T17:30:27Z) - Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。
われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。
実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文 参考訳(メタデータ) (2025-02-27T00:30:29Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z) - Weakly Supervised Temporal Action Localization Using Deep Metric
Learning [12.49814373580862]
本稿では,トレーニング中の映像レベルのアクションインスタンスのみを統括する時間的行動ローカライズ手法を提案する。
標準バックプロパゲーションアルゴリズムを用いて,バランスの取れた2進クロスエントロピー損失とメートル法損失を共同で最適化する。
IoU閾値0.5でTHUMOS14を6.5%mAP改善し,ActivityNet1.2の競合性能を実現した。
論文 参考訳(メタデータ) (2020-01-21T22:01:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。