論文の概要: GM-Skip: Metric-Guided Transformer Block Skipping for Efficient Vision-Language Models
- arxiv url: http://arxiv.org/abs/2508.18227v1
- Date: Wed, 20 Aug 2025 14:53:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.88675
- Title: GM-Skip: Metric-Guided Transformer Block Skipping for Efficient Vision-Language Models
- Title(参考訳): GM-Skip:高能率ビジョンランゲージモデルのためのメトリックガイド型変圧器ブロックスキッピング
- Authors: Lianming Huang, Haibo Hu, Qiao Li, Xin He, Nan Guan, Chun Jason Xue,
- Abstract要約: GM-Skipは、Transformerブロックスキップのためのフレキシブルでメトリック適応的なフレームワークである。
出力品質を維持しながらVLM推論を高速化する。
自動運転車に統合された場合、単一物体検出において最大45.4%の遅延低減を実現する。
- 参考スコア(独自算出の注目度): 26.24554837046145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based Vision-Language Models (VLMs) have achieved impressive performance on tasks such as image captioning, object recognition, and visual reasoning, but their high computational cost hinders deployment in latency-sensitive applications like autonomous driving. We introduce GM-Skip, a flexible and metric-adaptive framework for Transformer block skipping that accelerates VLM inference while preserving output quality. GM-Skip features a greedy, metric-guided block selection strategy that uses metric feedback (e.g., accuracy, CIDEr) to identify redundant layers, along with a reverse-order deletion mechanism that preserves early foundational blocks to avoid performance collapse. To support diverse deployment needs, it incorporates a tunable trade-off between sparsity and performance via a score-sparsity balance objective. Experiments across multiple tasks and datasets, including COCO and CODA, show that GM-Skip consistently improves inference speed while maintaining task performance. On the COCO dataset, GM-Skip improves single-object classification accuracy on the Person category from 19.1 percent to 87.3 percent while skipping more than 40 percent of Transformer blocks. In real-world deployment, it achieves up to 45.4 percent latency reduction on single-object detection when integrated into an autonomous vehicle running Autoware.Universe, validating the effectiveness of its skip configurations and confirming its practical value in accelerating real-world inference.
- Abstract(参考訳): トランスフォーマーベースのVLM(Vision-Language Models)は、画像キャプション、オブジェクト認識、視覚的推論といったタスクにおいて、優れたパフォーマンスを実現しているが、その高い計算コストは、自律運転のような遅延に敏感なアプリケーションへのデプロイを妨げる。
GM-Skipは、出力品質を維持しながらVLM推論を高速化するトランスフォーマーブロックスキップのためのフレキシブルでメトリック適応的なフレームワークである。
GM-Skipは、メトリックフィードバック(例えば、精度、CIDEr)を使用して冗長なレイヤを識別する、フレディでメトリック誘導されたブロック選択戦略と、パフォーマンスの崩壊を避けるために初期の基本ブロックを保存するリバースオーダー削除機構を備えている。
多様なデプロイメントニーズをサポートするため、スコアとスパーシティのバランスの目的を通じて、スパーシティとパフォーマンスの間の調整可能なトレードオフが組み込まれている。
COCOやCODAを含む複数のタスクやデータセットに対する実験は、GM-Skipがタスクパフォーマンスを維持しながら推論速度を一貫して改善していることを示している。
COCOデータセットでは、GM-SkipはPersonカテゴリのシングルオブジェクト分類精度を19.1%から87.3%に改善し、Transformerブロックの40%以上をスキップする。
現実のデプロイメントでは、Autoware.Universeを実行する自律走行車に統合された場合、最大45.4%のレイテンシ削減を実現し、スキップ構成の有効性を検証するとともに、現実の推論を加速する実用的価値を確認する。
関連論文リスト
- AegisLLM: Scaling Agentic Systems for Self-Reflective Defense in LLM Security [74.22452069013289]
AegisLLMは、敵の攻撃や情報漏洩に対する協調的なマルチエージェント防御である。
テスト時のエージェント推論システムのスケーリングは,モデルの有用性を損なうことなく,ロバスト性を大幅に向上させることを示す。
アンラーニングやジェイルブレイクを含む主要な脅威シナリオに対する総合的な評価は、AegisLLMの有効性を示している。
論文 参考訳(メタデータ) (2025-04-29T17:36:05Z) - Semi-supervised Semantic Segmentation with Multi-Constraint Consistency Learning [81.02648336552421]
本稿では,エンコーダとデコーダの段階的拡張を容易にするためのマルチ制約一貫性学習手法を提案する。
自己適応型特徴マスキングとノイズ注入は、デコーダの堅牢な学習のための特徴を摂動させるために、インスタンス固有の方法で設計されている。
Pascal VOC2012およびCityscapesデータセットの実験結果から,提案したMCCLが新たな最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2025-03-23T03:21:33Z) - Transformer Meets Twicing: Harnessing Unattended Residual Information [2.1605931466490795]
トランスフォーマーベースのディープラーニングモデルは、多くの言語やビジョンタスクで最先端のパフォーマンスを達成した。
自己注意機構は複雑なデータパターンを扱えることが証明されているが、注意行列の表現能力はトランスフォーマー層間で著しく低下する。
本研究では,NLM平滑化の低パス動作を軽減するため,非パラメトリック回帰におけるカーネルツイシング手順を用いた新しいアテンション機構であるTwicing Attentionを提案する。
論文 参考訳(メタデータ) (2025-03-02T01:56:35Z) - GRAPE: Generalizing Robot Policy via Preference Alignment [58.419992317452376]
GRAPE: 優先度アライメントによるロボット政策の一般化について述べる。
GRAPEはドメイン内および未確認操作タスクにおける成功率をそれぞれ51.79%、58.20%向上させる。
GRAPEは安全性や効率、衝突速度の37.44%、ロールアウト長さの11.15%といった様々な目標に合わせることができる。
論文 参考訳(メタデータ) (2024-11-28T18:30:10Z) - Transforming In-Vehicle Network Intrusion Detection: VAE-based Knowledge Distillation Meets Explainable AI [0.0]
本稿では,変分オートエンコーダ(VAE)に基づく知識蒸留手法を用いて,KD-XVAEと呼ばれる高度な侵入検知システムを提案する。
本モデルでは,1669個のパラメータで処理し,バッチ毎に0.3msの推論時間を実現することにより,複雑性を大幅に低減する。
論文 参考訳(メタデータ) (2024-10-11T17:57:16Z) - DiFSD: Ego-Centric Fully Sparse Paradigm with Uncertainty Denoising and Iterative Refinement for Efficient End-to-End Self-Driving [55.53171248839489]
我々は、エンドツーエンドの自動運転のためのエゴ中心の完全スパースパラダイムであるDiFSDを提案する。
特に、DiFSDは主にスパース知覚、階層的相互作用、反復的な運動プランナーから構成される。
nuScenesとBench2Driveデータセットで実施された実験は、DiFSDの優れた計画性能と優れた効率を実証している。
論文 参考訳(メタデータ) (2024-09-15T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。