論文の概要: Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More
- arxiv url: http://arxiv.org/abs/2502.11494v1
- Date: Mon, 17 Feb 2025 06:56:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:45.236016
- Title: Stop Looking for Important Tokens in Multimodal Language Models: Duplication Matters More
- Title(参考訳): マルチモーダル言語モデルで重要なトークンを探すのをやめる - 重複はもっと重要だ
- Authors: Zichen Wen, Yifeng Gao, Shaobo Wang, Junyuan Zhang, Qintong Zhang, Weijia Li, Conghui He, Linfeng Zhang,
- Abstract要約: トークンがプルーニングされるべきかどうかを決定するのに、重要さは理想的な指標ではないことを示す。
DART(Duplication-Aware Reduction of Tokens)を提案する。
実験によると、DARTは88.9%の視覚トークンを出力でき、同等のパフォーマンスを維持している。
- 参考スコア(独自算出の注目度): 18.928285521147057
- License:
- Abstract: Vision tokens in multimodal large language models often dominate huge computational overhead due to their excessive length compared to linguistic modality. Abundant recent methods aim to solve this problem with token pruning, which first defines an importance criterion for tokens and then prunes the unimportant vision tokens during inference. However, in this paper, we show that the importance is not an ideal indicator to decide whether a token should be pruned. Surprisingly, it usually results in inferior performance than random token pruning and leading to incompatibility to efficient attention computation operators.Instead, we propose DART (Duplication-Aware Reduction of Tokens), which prunes tokens based on its duplication with other tokens, leading to significant and training-free acceleration. Concretely, DART selects a small subset of pivot tokens and then retains the tokens with low duplication to the pivots, ensuring minimal information loss during token pruning. Experiments demonstrate that DART can prune 88.9% vision tokens while maintaining comparable performance, leading to a 1.99$\times$ and 2.99$\times$ speed-up in total time and prefilling stage, respectively, with good compatibility to efficient attention operators. Our codes are available at https://github.com/ZichenWen1/DART.
- Abstract(参考訳): マルチモーダルな大言語モデルにおける視覚トークンは、言語的モダリティと比較して過度な長さのため、計算上のオーバーヘッドが大きいことが多い。
トークンプルーニング(トークンプルーニング)は、トークンの重要基準を最初に定義し、推論中に重要でない視覚トークンをプルークする手法である。
しかし,本論文では,トークンを刈り取るべきかどうかを判断する上で,その重要性は理想的な指標ではないことを示す。
意外なことに、これは通常ランダムトークンプルーニングよりも性能が劣り、効率的な注意計算演算子に不適合になる。代わりに、トークンと他のトークンとの重複に基づいてトークンを吐き出すDART(Duplication-Aware Reduction of Tokens)を提案する。
具体的には、DARTはピボットトークンの小さなサブセットを選択し、ピボットへの重複度が低いトークンを保持し、トークンのプルーニング時に最小限の情報損失を確実にする。
実験では、DARTは88.9%の視覚トークンを出力できるが、性能は同等であり、それぞれ1.99$\times$と2.99$\times$のスピードアップを実現している。
私たちのコードはhttps://github.com/ZichenWen1/DARTで公開されています。
関連論文リスト
- Multi-Stage Vision Token Dropping: Towards Efficient Multimodal Large Language Model [45.01871133425388]
ライフサイクル全体から各トークンの重要性を測定するため,マルチステージトークンドロップ(MustDrop)を提案する。
MustDropはLLaVAで約88.5%のFLOPを削減し、圧縮比は92.2%である。
論文 参考訳(メタデータ) (2024-11-16T13:45:33Z) - ToSA: Token Selective Attention for Efficient Vision Transformers [50.13756218204456]
ToSAはトークン選択型アテンションアプローチで、コンバータ層をスキップできるトークンだけでなく、参加する必要のあるトークンも識別できる。
ToSAは,ImageNet分類ベンチマークの精度を維持しながら,計算コストを大幅に削減できることを示す。
論文 参考訳(メタデータ) (2024-06-13T05:17:21Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Let's Think Dot by Dot: Hidden Computation in Transformer Language Models [30.972412126012884]
言語モデルの連鎖応答は、ほとんどのベンチマークのパフォーマンスを改善する。
変換器は、2つの難解なアルゴリズムタスクを解くための思考の連鎖の代わりに無意味なフィラートークンを使用できることを示す。
フィラートークンを使用する学習は困難であり、収束するためには、具体的で密集した監督が必要である。
論文 参考訳(メタデータ) (2024-04-24T09:30:00Z) - Tree Cross Attention [59.8891512435847]
Tree Cross Attention (TCA) は、Cross Attentionに基づくモジュールで、パラメータ $mathcalO(log(N))$ のトークン数からのみ情報を取得する。
さまざまな分類や不確実性回帰タスクに対して,TCAはクロスアテンションに匹敵する性能を示し,トークン効率は著しく向上した。
論文 参考訳(メタデータ) (2023-09-29T16:50:23Z) - Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation [89.88214896713846]
STAスコアは、時間的冗長性と意味的重要性の2つの重要な要因を考慮に入れている。
市販のビデオトランスフォーマーとビデオウィンにSTAモジュールを適用する。
結果: Kinetics-400 と something-Something V2 は 30% のオーバーシェルフ削減を実現し,0.2% の精度低下を実現した。
論文 参考訳(メタデータ) (2023-08-08T19:38:15Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully
Exploiting Self-Attention [36.90363317158731]
最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法では,DeiT-Sのスループットを50%向上し,トップ1の精度は0.2%低下した。
論文 参考訳(メタデータ) (2022-09-28T03:07:32Z) - Token-level Adaptive Training for Neural Machine Translation [84.69646428587548]
異なるトークンが異なる周波数で現れるため、自然言語にはトークンの不均衡現象が存在する。
バニラNMTモデルは、通常、異なる周波数のターゲットトークンに対して、自明な等重の目的を採用する。
低周波トークンは、無視された後に翻訳品質に影響を与える重要な意味情報を運ぶことができる。
論文 参考訳(メタデータ) (2020-10-09T05:55:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。