Fugu-MT 論文翻訳(概要): CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference

論文の概要: CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference

arxiv url: http://arxiv.org/abs/2404.08567v1
Date: Tue, 2 Apr 2024 04:35:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-21 20:14:16.626093
Title: CATP: Cross-Attention Token Pruning for Accuracy Preserved Multimodal Model Inference
Title（参考訳）: CATP: 精度保存型マルチモーダルモデル推論のためのクロスアテンショントケンプルーニング
Authors: Ruqi Liao, Chuqing Zhao, Jin Li, Weiqi Feng,
Abstract要約: 本稿では,高精度なトークンプルーニング手法であるクロスアテンショントークンプルーニング(CATP)を紹介する。評価では、CATPは既存のトークンプルーニング法と比較して最大12.1倍高い精度を達成する。
参考スコア（独自算出の注目度）: 5.592224613673458
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In response to the rising interest in large multimodal models, we introduce Cross-Attention Token Pruning (CATP), a precision-focused token pruning method. Our approach leverages cross-attention layers in multimodal models, exemplified by BLIP-2, to extract valuable information for token importance determination. CATP employs a refined voting strategy across model heads and layers. In evaluations, CATP achieves up to 12.1X higher accuracy compared to existing token pruning methods, addressing the trade-off between computational efficiency and model precision.
Abstract（参考訳）: 大規模マルチモーダルモデルへの関心が高まり,高精度なトークンプルーニング手法であるクロスアテンショントークンプルーニング(CATP)を導入する。本手法は,BLIP-2で実証したマルチモーダルモデルのクロスアテンション層を利用して,トークンの重要度決定に有用な情報を抽出する。 CATPはモデルヘッドと層をまたいだ洗練された投票戦略を採用している。評価において、CATPは既存のトークンプルーニング法と比較して最大12.1倍の精度を達成し、計算効率とモデル精度のトレードオフに対処する。

関連論文リスト

Draft-based Approximate Inference for LLMs [7.287280338330983]
本稿では,大規模言語モデル推論のための新しいフレームワークを提案する。提案手法の2つのインスタンス化について述べる: (i) SpecKV, ドラフトアウトプットを利用してKVペアの重要性を正確に評価し, より効率的なKVキャッシュダウンを実現する方法, (ii) SpecPC, ドラフトモデルのアテンションアクティベーションを使用して重要でないプロンプトトークンを識別・破棄する手法。我々の手法は、メモリ使用量、レイテンシ、スループットが同じ改善を保ちながら、既存のベースラインよりも常に高い精度を達成する。
論文参考訳（メタデータ） (2025-06-10T02:37:46Z)
CaliciBoost: Performance-Driven Evaluation of Molecular Representations for Caco-2 Permeability Prediction [2.6621416538504827]
Caco-2の透過性は、初期薬物発見時の薬物候補の経口吸収を予測する重要なin vitro指標となる。本研究では,2D/3D記述子,構造指紋,深層学習に基づく埋め込みを含む8種類の分子的特徴表現の影響について検討した。 PaDELとMordredの両方の表現に対して、3Dディスクリプタは2D機能のみを使用する場合に比べて15.73%削減された。
論文参考訳（メタデータ） (2025-06-09T07:30:28Z)
RSQ: Learning from Important Tokens Leads to Better Quantized LLMs [65.5558181902098]
レイヤーワイド量子化は、高価なリトレーニングなしで大きなモデルを効率的に圧縮するための重要な技術である。モデルに回転を適用して外乱を緩和するRSQ(Rotate, Scale, then Quantize)を提案する。 RSQは、複数の下流タスクと3つのモデルファミリーで、ベースラインメソッドを一貫して上回っていることを実証する。
論文参考訳（メタデータ） (2025-03-03T18:46:33Z)
Stepwise Perplexity-Guided Refinement for Efficient Chain-of-Thought Reasoning in Large Language Models [56.37421741507468]
CoT推論は大規模言語モデル(LLM)の性能を大幅に向上させた。本稿では,その重要性の尺度としてパープレキシティを用いた批判的推論ステップの同定手法を提案する。
論文参考訳（メタデータ） (2025-02-18T20:04:51Z)
Active Data Curation Effectively Distills Large-Scale Multimodal Models [66.23057263509027]
知識蒸留(KD)は、大規模モデルをより小さなものに圧縮するデファクトスタンダードである。本研究では, 対照的なマルチモーダル事前学習のための効果的な蒸留法として, 能動的データキュレーションの代替として, 簡単なアプローチを探求する。我々の単純なオンラインバッチ選択方法であるACIDは、さまざまなモデル、データ、計算構成において、強力なKDベースラインよりも優れています。
論文参考訳（メタデータ） (2024-11-27T18:50:15Z)
Q-VLM: Post-training Quantization for Large Vision-Language Models [73.19871905102545]
本稿では,大規模視覚言語モデル(LVLM)の学習後量子化フレームワークを提案する。視覚言語モデル全体の離散化誤差に大きな影響を及ぼす層間依存関係を抽出し、この依存関係を最適な量子化戦略に組み込む。実験の結果,提案手法はメモリを2.78倍圧縮し,出力速度を約13B LLaVAモデルで1.44倍向上させることができた。
論文参考訳（メタデータ） (2024-10-10T17:02:48Z)
MAP: Low-compute Model Merging with Amortized Pareto Fronts via Quadratic Approximation [80.47072100963017]
Amortized Pareto Front (MAP) を用いた新しい低演算アルゴリズム Model Merging を導入する。 MAPは、複数のモデルをマージするためのスケーリング係数のセットを効率的に識別し、関連するトレードオフを反映する。また,タスク数が比較的少ないシナリオではベイジアンMAP,タスク数の多い状況ではNested MAPを導入し,計算コストを削減した。
論文参考訳（メタデータ） (2024-06-11T17:55:25Z)
Effective Interplay between Sparsity and Quantization: From Theory to Practice [33.697590845745815]
空間性と量子化は、モデル精度を保ちながら計算量とメモリフットプリントの大幅な削減を個別に示す2つの顕著な圧縮手法である。これら2つの手法間の相互作用を調査し、それらの組み合わせが最終的なモデルの精度に影響を及ぼすかどうかを評価する。我々の研究結果は、リソース制限された計算プラットフォームにおける大規模モデルの効率的なデプロイと、サービスコストの削減にまで及んでいる。
論文参考訳（メタデータ） (2024-05-31T15:34:13Z)
Memory-Efficient Fine-Tuning for Quantized Diffusion Model [12.875837358532422]
本稿では,量子化拡散モデルのためのメモリ効率の良い微調整手法であるTuneQDMを紹介する。提案手法は, 単目的/多目的の両方の世代において, ベースラインを一貫して上回る。
論文参考訳（メタデータ） (2024-01-09T03:42:08Z)
The Languini Kitchen: Enabling Language Modelling Research at Different Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文参考訳（メタデータ） (2023-09-20T10:31:17Z)
Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文参考訳（メタデータ） (2023-06-27T05:43:47Z)
PruMUX: Augmenting Data Multiplexing with Model Compression [42.89593283051397]
本稿では、構造化プルーニングとデータ多重化という2つの手法を組み合わせて、どちらの手法でも得られる高速化ゲインを合成する。我々のアプローチであるPruMUXは、精度が80%から74%のBERTベースモデルよりも7.5-29.5倍のスループット向上を実現している。我々は,所望の精度損失予算を条件として,プルーニングと多重化の高性能パラメータを予測できるメタレベルモデルであるAuto-PruMUXを提案する。
論文参考訳（メタデータ） (2023-05-24T04:22:38Z)
Mitigating Spurious Correlations in Multi-modal Models during Fine-tuning [18.45898471459533]
モデル一般化を低下させたり、間違った理由でモデルが正しいことを導いたという豪華な相関は、現実世界のデプロイメントにおいて大きな堅牢性に関する懸念の1つです。本稿では,特定の関心領域の微調整において,刺激的な相関に対処する新しい手法を提案する。
論文参考訳（メタデータ） (2023-04-08T05:20:33Z)
IPCC-TP: Utilizing Incremental Pearson Correlation Coefficient for Joint Multi-Agent Trajectory Prediction [73.25645602768158]
IPCC-TPはインクリメンタルピアソン相関係数に基づく新しい関連認識モジュールであり,マルチエージェントインタラクションモデリングを改善する。我々のモジュールは、既存のマルチエージェント予測手法に便利に組み込んで、元の動き分布デコーダを拡張することができる。
論文参考訳（メタデータ） (2023-03-01T15:16:56Z)
Learning to Perform Downlink Channel Estimation in Massive MIMO Systems [72.76968022465469]
大規模マルチインプット・マルチアウトプット(MIMO)システムにおけるダウンリンク(DL)チャネル推定について検討する。一般的なアプローチは、チャネル硬化によって動機付けられた推定値として平均値を使用することである。本稿では2つの新しい推定法を提案する。
論文参考訳（メタデータ） (2021-09-06T13:42:32Z)
Scaling Bayesian inference of mixed multinomial logit models to very large datasets [9.442139459221785]
本稿では,バックプロパゲーション,自動微分,GPU加速計算を活用するアモルティファイド変分推論手法を提案する。本研究では, 後部近似の柔軟性を高めるために, フローの正規化がいかに有効かを示す。
論文参考訳（メタデータ） (2020-04-11T15:30:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。