論文の概要: SAFE-Pruner: Semantic Attention-Guided Future-Aware Token Pruning for Efficient Vision-Language-Action Manipulation
- arxiv url: http://arxiv.org/abs/2605.29662v1
- Date: Thu, 28 May 2026 09:23:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.133113
- Title: SAFE-Pruner: Semantic Attention-Guided Future-Aware Token Pruning for Efficient Vision-Language-Action Manipulation
- Title(参考訳): SAFE-Pruner:効率的な視覚・言語・アクション操作のための意味的注意誘導型未来型トーケンプルーニング(SAFE-Pruner)
- Authors: Shilin Ma, Chubin Zhang, Changyuan Wang, Yuji Wang, Yue Wu, Zixuan Wang, Jingqi Tian, Zheng Zhu, Yansong Tang,
- Abstract要約: SAFE-Prunerはプラグアンドプレイのプルーニングフレームワークで、将来のレイヤーの注意手順をプルーニング決定に組み込む。
本手法は成功率を1.7%以下に抑えながら最大1.89倍の高速化を実現し,最先端の手法を最大1.9%向上させることを示した。
- 参考スコア(独自算出の注目度): 71.91583446135651
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time inference of vision-language-action (VLA) models is essential for robotic control. While visual token pruning has shown strong potential for accelerating inference, most existing methods mainly base pruning decisions on shallow-layer cues and risk discarding visual information required by deep layers. To address this issue, we propose SAFE-Pruner, a plug-and-play pruning framework that incorporates attention cues of future layers into pruning decisions. Specifically, we identify semantic attention consistency, the tendency that VLA models concentrate their attention probability mass on the same semantic entity across execution steps. Based on this observation, we design a forward-looking strategy to forecast the token saliency in deep layers, which prevents the premature removal of critical tokens and leads to more stable acceleration. We further introduce an adaptive subtask division strategy to detect abrupt attention shifts, thereby improving forecasting accuracy and pruning reliability. Extensive experiments in simulation and real-world settings demonstrate that our method achieves up to 1.89x speedup with a minimal degradation in success rate of less than 1.7%, while outperforming state-of-the-art methods by up to 1.9%.
- Abstract(参考訳): ロボット制御には,視覚言語行動モデル(VLA)のリアルタイム推論が不可欠である。
視覚的トークンのプルーニングは推論を加速させる強い可能性を示しているが、既存の手法のほとんどは浅い層でのプルーニング決定と深い層が必要とする視覚情報を捨てるリスクである。
この問題に対処するため,プラグアンドプレイのプルーニングフレームワークであるSAFE-Prunerを提案する。
具体的には,VLAモデルのセマンティックアテンション・アテンションの整合性(セマンティックアテンション・アテンション・アテンション・アテンション・アテンション・アテンション)を,実行ステップを通じて同一のセマンティック・エンティティに集中させる傾向(セマンティックアテンション・アテンション・アテンション・アテンション・アテンション・アテンション・アテンション・コンテンス)を同定する。
この観測に基づいて、我々は、重要なトークンの早期除去を防止し、より安定した加速をもたらす、深層におけるトークンの塩分濃度を予測するための前方方向の戦略を設計する。
さらに,アダプティブなサブタスク分割戦略を導入して,突発的な注意変化を検知し,予測精度の向上と信頼性の向上を図る。
シミュレーションおよび実世界環境における大規模な実験により,本手法は最大1.89倍の高速化を実現し,成功率を1.7%以下に抑えるとともに,最先端手法を最大1.9%向上させることができた。
関連論文リスト
- Accelerating Vision Foundation Models with Drop-in Depthwise Convolution [51.50107862675191]
我々は、注目ヘッドのドロップイン代替として機能する、効率的な奥行き畳み込みベースの層を導入する。
画像分類とセグメンテーションの両方のタスクにおいて,提案手法は性能劣化を最小限に抑えながら17~20%の推論高速化を実現している。
論文 参考訳(メタデータ) (2026-05-21T08:07:23Z) - Towards Fine-Grained Robustness: Attention-Guided Test-Time Prompt Tuning for Vision-Language Models [22.43559255963294]
A-TPTはテスト時間適応のために設計されたセマンティックス保存法である。
まず、敵攻撃下で生存する意味的に意味のある領域を特定するために、勾配注意ロールアウト機構を改良する。
そこで我々は,空間的に異なる拡張強度と多視点アンサンブルを誘導し,迅速なチューニングと推論を行う。
論文 参考訳(メタデータ) (2026-05-19T15:10:06Z) - Uncertainty-Aware Exploratory Direct Preference Optimization for Multimodal Large Language Models [53.15468578562038]
マルチモーダル大言語モデル(MLLM)のための不確実性を考慮した探索的直接参照最適化(UE-DPO)手法を提案する。
まず、与えられた画像にトークン予測を根拠にしなかったモデルの不確かさを定量化する。
次に、好ましいサンプルにおいて、視覚的に不足したトークンに対する学習のプレッシャーを高め、非推奨サンプルにおける有益な知識の過度な報酬化を緩和する。
論文 参考訳(メタデータ) (2026-05-06T13:08:12Z) - A Progressive Training Strategy for Vision-Language Models to Counteract Spatio-Temporal Hallucinations in Embodied Reasoning [49.61652671596548]
「多像幻覚推論」では、前頭と時頭クエリ間の大規模なパフォーマンス低下は、真に理解するのではなく、表面的なショートカットへの依存を示す。
これを軽減するために、我々は、チェーンステップへの詳細な推論と決定的な判断に基づく、時間的連鎖構築という新しいデータセットを開発する。
実験により,本手法は精度を向上するだけでなく,70%以上から6.53%まで,前向きのパフォーマンスギャップも改善することが示された。
論文 参考訳(メタデータ) (2026-04-12T07:48:44Z) - POP: Prefill-Only Pruning for Efficient Large Model Inference [5.743318651374061]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は目覚ましい能力を示している。
既存の構造化プルーニング法はハードウェア効率が良いが、しばしばかなりの精度の劣化に悩まされる。
この失敗は、プリフィルとデコードステージの間の非対称的な役割を無視する、ステージに依存しないプルーニングアプローチに起因している、と我々は主張する。
論文 参考訳(メタデータ) (2026-02-03T09:22:26Z) - SwiftVLM: Efficient Vision-Language Model Inference via Cross-Layer Token Bypass [20.7003663809766]
視覚トークンプルーニングは、視覚言語モデルの計算コストを削減するための有望なアプローチである。
我々は、選択されていない視覚トークンを保存し、その後のプルーニングステージに転送する、バイパスと呼ばれる新しいプルーニングパラダイムを導入する。
このパラダイムに基づいて,強力な視覚トークン選択機能を備えたモデル固有の層でプルーニングを行う,単純かつトレーニング不要なSwiftVLMを提案する。
論文 参考訳(メタデータ) (2026-02-03T05:42:51Z) - Efficient Token Pruning for LLaDA-V [5.790228283932133]
LLaDA-Vのような拡散に基づく大規模マルチモーダルモデルは、視覚言語理解と生成において印象的な能力を示した。
我々は,自己回帰デコーダと異なり,LLaDA-Vは主に中間層から後期層に横断的な情報を集約する。
この観測により,我々はFastVに触発された構造化トークンプルーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-01-28T02:03:03Z) - Training-Free Token Pruning via Zeroth-Order Gradient Estimation in Vision-Language Models [16.540220733551823]
VLM(Large Vision-Language Models)は、強力なマルチモーダル推論を実現するが、冗長な視覚トークンから重い推論コストを発生させる。
注意に基づく手法は、しばしばレイヤやヘッド間で不安定な生の注意スコアに依存する。
簡単な直感に基づいて構築されたトレーニング不要のフレームワークとして,我々の提案する。
論文 参考訳(メタデータ) (2025-09-29T14:20:05Z) - Long-Sequence Recommendation Models Need Decoupled Embeddings [49.410906935283585]
我々は、既存の長期推薦モデルにおいて無視された欠陥を識別し、特徴付ける。
埋め込みの単一のセットは、注意と表現の両方を学ぶのに苦労し、これら2つのプロセス間の干渉につながります。
本稿では,2つの異なる埋め込みテーブルを別々に学習し,注意と表現を完全に分離する,DARE(Decoupled Attention and Representation Embeddings)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-03T15:45:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。