論文の概要: Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance
- arxiv url: http://arxiv.org/abs/2504.01690v2
- Date: Sun, 03 Aug 2025 14:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 14:07:56.581743
- Title: Token Pruning in Audio Transformers: Optimizing Performance and Decoding Patch Importance
- Title(参考訳): オーディオ変換器におけるトーケンプルーニング : 性能最適化とデコードパッチの重要性
- Authors: Taehan Lee, Hyukjun Lee,
- Abstract要約: We apply token pruning to ViT-based audio classification model using Mel-spectrograms。
パッチ内の信号の強度や変動にのみ基づくプルーニングは、顕著な精度低下につながることを示す。
- 参考スコア(独自算出の注目度): 0.48342038441006796
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision Transformers (ViTs) have achieved state-of-the-art performance across various computer vision tasks, but their high computational cost remains a challenge. Token pruning has been proposed to reduce this cost by selectively removing less important tokens. While effective in vision tasks by discarding non-object regions, applying this technique to audio tasks presents unique challenges, as distinguishing relevant from irrelevant regions in time-frequency representations is less straightforward. In this study, for the first time, we applied token pruning to ViT-based audio classification models using Mel-spectrograms and analyzed the trade-offs between model performance and computational cost: TopK token pruning can reduce MAC operations of AudioMAE and AST by 30-40%, with less than a 1% drop in accuracy. Our analysis reveals that while high-intensity or high-variation tokens contribute significantly to model accuracy, low-intensity or low variation tokens also remain important when token pruning is applied; pruning solely based on the intensity or variation of signals in a patch leads to a noticeable drop in accuracy. We support our claim by measuring high correlation between attention scores and these statistical features and by showing retained tokens consistently receive distinct attention compared to pruned ones. We also show that AudioMAE retains more low-intensity tokens than AST. This can be explained by AudioMAE's self-supervised reconstruction objective, which encourages attention to all patches, whereas AST's supervised training focuses on label-relevant tokens.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)は様々なコンピュータビジョンタスクで最先端のパフォーマンスを達成したが、高い計算コストは依然として課題である。
より重要でないトークンを選択的に除去することで、このコストを削減するために、トークンプルーニングが提案されている。
非対象領域を破棄することで視覚タスクに有効であるが、この手法を音声タスクに適用すると、時間周波数表現における無関係領域と区別することが簡単ではないため、ユニークな課題が提示される。
本研究では,Mel-spectrogramsを用いたVTベースの音声分類モデルにトークンプルーニングを適用し,モデル性能と計算コストのトレードオフを分析した。
分析の結果,高強度・高変量トークンはモデル精度に大きく寄与するが,低強度・低変量トークンはトークンプルーニングを適用した場合でも重要であり,パッチ内の信号の強度や変動にのみ基づくプルーニングは精度を著しく低下させることがわかった。
注意点とこれらの統計的特徴の相関関係を高く評価し,保持トークンが刈り取られたトークンと比較して常に異なる注意を得られることを示すことによって,我々の主張を支持している。
また,AudioMAEはASTよりも低強度のトークンを保有していることを示す。
これはAudioMAEの自己教師型再構築の目的によって説明できるが、ASTの教師型トレーニングはラベル関連トークンに焦点を当てている。
関連論文リスト
- Artifacts and Attention Sinks: Structured Approximations for Efficient Vision Transformers [8.486148475471271]
ビジョントランスフォーマーは幅広いアプリケーションにまたがる強力なツールとして登場したが、内部の動作は部分的にしか理解されていない。
大量のトークン – 注目シンクとして機能する極めて高いアクティベーション規範を持つトークン – と,推論中に副産物として現れるアーティファクトトークン – の現象について検討する。
我々は、線形時間と空間における自己注意を近似する訓練不要なFast Nystr"om Attention (FNA)を導入する。
論文 参考訳(メタデータ) (2025-07-21T19:29:03Z) - ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。
トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-24T15:47:49Z) - TopV: Compatible Token Pruning with Inference Time Optimization for Fast and Low-Memory Multimodal Vision Language Model [56.43860351559185]
高速かつ低メモリの textbfVLM に対する推論時間最適化を備えた textbfToken textbfPruning の互換性である textbfTopV を導入する。
我々のフレームワークは、各ソースの視覚的トークンの重要性を測定するために、視覚的なコスト関数を組み込んでおり、低重要トークンの効果的なプルーニングを可能にしている。
論文 参考訳(メタデータ) (2025-03-24T01:47:26Z) - When Less is Enough: Adaptive Token Reduction for Efficient Image Representation [2.2120851074630177]
より価値の低い特徴を、より価値の高いものから再構築できるという考えに基づいて、特徴ユーティリティを決定する新しい方法を提案する。
我々は、オートエンコーダとGumbel-Softmax選択機構を統合することで、この概念を実装した。
本結果は,適応的かつ効率的なマルチモーダルプルーニングに向けた有望な方向を示すものである。
論文 参考訳(メタデータ) (2025-03-20T19:17:08Z) - AttentionPredictor: Temporal Pattern Matters for Efficient LLM Inference [51.1972443343829]
本稿では,最初の学習に基づくクリティカルトークン識別手法であるAttentionPredictorを提案する。
注意予測器は、無視可能なメモリを消費しながら、注意スコアを正確に予測する。
また、トークン時間オーバーヘッドを隠蔽してデコードステージを高速化する、クロストークンクリティカルキャッシュプリフェッチフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:41:46Z) - Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。
高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - One-step Noisy Label Mitigation [86.57572253460125]
ノイズラベルのトレーニング過程に対する有害な影響の軽減がますます重要になっている。
モデルに依存しないノイズラベル緩和パラダイムである1ステップアンチノイズ(OSA)を提案する。
我々はOSAの優位性を実証的に実証し、トレーニングの堅牢性の向上、タスク転送性の向上、デプロイメントの容易性、計算コストの削減を強調した。
論文 参考訳(メタデータ) (2024-10-02T18:42:56Z) - Video Token Sparsification for Efficient Multimodal LLMs in Autonomous Driving [9.900979396513687]
MLLM(Multimodal large language model)は、自律運転システムにおけるシーン理解の促進に顕著な可能性を示している。
1つの大きな制限は、細粒度で長文の視覚情報を取得するのに必要な多数の視覚トークンから生じる。
本稿では,視覚トークンの総数を大幅に削減し,最も有能な情報を保存するためのビデオトークンスペーシフィケーション(VTS)を提案する。
論文 参考訳(メタデータ) (2024-09-16T05:31:01Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - Scene Adaptive Sparse Transformer for Event-based Object Detection [40.04162039970849]
イベントベースオブジェクト検出のためのSAST(Scene Adaptive Sparse Transformer)を提案する。
SASTはウィンドウツーケンコスパーシフィケーションを可能にし、フォールトトレランスを大幅に向上し、計算オーバーヘッドを低減する。
2つの大規模イベントベースのオブジェクト検出データセットのパフォーマンスと効率の両方において、他の高密度でスパースなネットワークよりも優れています。
論文 参考訳(メタデータ) (2024-04-02T12:15:25Z) - AiluRus: A Scalable ViT Framework for Dense Prediction [95.1313839257891]
視覚変換器 (ViT) は、その優れた性能のため、視覚タスクの一般的なアーキテクチャとして登場した。
本稿では,画像の異なる領域に対して,その重要度に応じて適応分解能を適用することを提案する。
提案手法を3つの異なるデータセット上で評価し,有望な性能を観察する。
論文 参考訳(メタデータ) (2023-11-02T12:48:43Z) - Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models [8.59772105902647]
NtUAは、雑音耐性のない教師なし適応器で、非競合なターゲットサンプルをほとんど持たない効果的なターゲットモデルの学習を可能にする。
NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、少数の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。
NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-26T13:35:31Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - Revisiting Token Pruning for Object Detection and Instance Segmentation [25.3324628669201]
オブジェクトとインスタンスのセグメンテーションの推論を高速化するトークンプルーニングについて検討する。
従来のトークンプルーニング法と比較して,ボックス・マスクともに1.5mAPから0.3mAPに低下した。
論文 参考訳(メタデータ) (2023-06-12T11:55:33Z) - Multi-Scale And Token Mergence: Make Your ViT More Efficient [3.087140219508349]
Vision Transformer (ViT) はコンピュータビジョン領域において一般的なモデルとして登場した。
より重要なトークンとマージすることで,非機密トークンからの情報を保持できる新しいトークンプルーニング手法を提案する。
提案手法は,DeiT-Sの精度は0.1%しか低下せず,計算コストの33%の大幅な削減を実現している。
論文 参考訳(メタデータ) (2023-06-08T02:58:15Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。