論文の概要: CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference
- arxiv url: http://arxiv.org/abs/2404.08567v1
- Date: Tue, 2 Apr 2024 04:35:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-21 20:14:16.626093
- Title: CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference
- Title(参考訳): CATP: 精度保存型マルチモーダルモデル推論のためのクロスアテンショントケンプルーニング
- Authors: Ruqi Liao, Chuqing Zhao, Jin Li, Weiqi Feng,
- Abstract要約: 本稿では,高精度なトークンプルーニング手法であるクロスアテンショントークンプルーニング(CATP)を紹介する。
評価では、CATPは既存のトークンプルーニング法と比較して最大12.1倍高い精度を達成する。
- 参考スコア(独自算出の注目度): 5.592224613673458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In response to the rising interest in large multimodal models, we introduce Cross-Attention Token Pruning (CATP), a precision-focused token pruning method. Our approach leverages cross-attention layers in multimodal models, exemplified by BLIP-2, to extract valuable information for token importance determination. CATP employs a refined voting strategy across model heads and layers. In evaluations, CATP achieves up to 12.1X higher accuracy compared to existing token pruning methods, addressing the trade-off between computational efficiency and model precision.
- Abstract(参考訳): 大規模マルチモーダルモデルへの関心が高まり,高精度なトークンプルーニング手法であるクロスアテンショントークンプルーニング(CATP)を導入する。
本手法は,BLIP-2で実証したマルチモーダルモデルのクロスアテンション層を利用して,トークンの重要度決定に有用な情報を抽出する。
CATPはモデルヘッドと層をまたいだ洗練された投票戦略を採用している。
評価において、CATPは既存のトークンプルーニング法と比較して最大12.1倍の精度を達成し、計算効率とモデル精度のトレードオフに対処する。
関連論文リスト
- Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。
視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。
実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文 参考訳(メタデータ) (2024-10-10T17:02:48Z) - MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。
MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。
また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文 参考訳(メタデータ) (2024-06-11T17:55:25Z) - Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
空間性と量子化は、モデル精度を保ちながら計算量とメモリフットプリントの大幅な削減を個別に示す2つの顕著な圧縮手法である。
これら2つの手法間の相互作用を調査し、それらの組み合わせが最終的なモデルの精度に影響を及ぼすかどうかを評価する。
我々の研究結果は、リソース制限された計算プラットフォームにおける大規模モデルの効率的なデプロイと、サービスコストの削減にまで及んでいる。
論文 参考訳(メタデータ) (2024-05-31T15:34:13Z) - Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。
提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2024-01-09T03:42:08Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - PruMUX: Augmenting Data Multiplexing with Model Compression [42.89593283051397]
本稿では、構造化プルーニングとデータ多重化という2つの手法を組み合わせて、どちらの手法でも得られる高速化ゲインを合成する。
我々のアプローチであるPruMUXは、精度が80%から74%のBERTベースモデルよりも7.5-29.5倍のスループット向上を実現している。
我々は,所望の精度損失予算を条件として,プルーニングと多重化の高性能パラメータを予測できるメタレベルモデルであるAuto-PruMUXを提案する。
論文 参考訳(メタデータ) (2023-05-24T04:22:38Z) - Mitigating Spurious Correlations in Multi-modal Models during
Fine-tuning [18.45898471459533]
モデル一般化を低下させたり、間違った理由でモデルが正しいことを導いたという豪華な相関は、現実世界のデプロイメントにおいて大きな堅牢性に関する懸念の1つです。
本稿では,特定の関心領域の微調整において,刺激的な相関に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-08T05:20:33Z) - IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint
Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。
我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文 参考訳(メタデータ) (2023-03-01T15:16:56Z) - Learning to Perform Downlink Channel Estimation in Massive MIMO Systems [72.76968022465469]
大規模マルチインプット・マルチアウトプット(MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。
一般的なアプローチは、チャネル硬化によって動機付けられた推定値として平均値を使用することである。
本稿では2つの新しい推定法を提案する。
論文 参考訳(メタデータ) (2021-09-06T13:42:32Z) - Scaling Bayesian inference of mixed multinomial logit models to very
large datasets [9.442139459221785]
本稿では,バックプロパゲーション,自動微分,GPU加速計算を活用するアモルティファイド変分推論手法を提案する。
本研究では, 後部近似の柔軟性を高めるために, フローの正規化がいかに有効かを示す。
論文 参考訳(メタデータ) (2020-04-11T15:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。