論文の概要: PuMer: Pruning and Merging Tokens for Efficient Vision Language Models
- arxiv url: http://arxiv.org/abs/2305.17530v1
- Date: Sat, 27 May 2023 17:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:39:10.599716
- Title: PuMer: Pruning and Merging Tokens for Efficient Vision Language Models
- Title(参考訳): PuMer: 効率的なビジョン言語モデルのためのプルングとマージトークン
- Authors: Qingqing Cao, Bhargavi Paranjape, Hannaneh Hajishirzi
- Abstract要約: PuMerは、テキストインフォームされたPruningとModality-aware Merging戦略を使用して、入力画像とテキストのトークンを段階的に削減するフレームワークである。
PuMer推論はスループットを最大2倍にし、メモリフットプリントを50%以上削減し、精度を1%以下に低下させる。
- 参考スコア(独自算出の注目度): 41.81484883647005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision language (VL) models use Transformers to perform
cross-modal interactions between the input text and image. These cross-modal
interactions are computationally expensive and memory-intensive due to the
quadratic complexity of processing the input image and text. We present PuMer:
a token reduction framework that uses text-informed Pruning and modality-aware
Merging strategies to progressively reduce the tokens of input image and text,
improving model inference speed and reducing memory footprint. PuMer learns to
keep salient image tokens related to the input text and merges similar textual
and visual tokens by adding lightweight token reducer modules at several
cross-modal layers in the VL model. Training PuMer is mostly the same as
finetuning the original VL model but faster. Our evaluation for two vision
language models on four downstream VL tasks shows PuMer increases inference
throughput by up to 2x and reduces memory footprint by over 50% while incurring
less than a 1% accuracy drop.
- Abstract(参考訳): 大規模視覚言語(vl)モデルは、トランスフォーマーを使用して入力テキストと画像間のクロスモーダルインタラクションを実行する。
これらのクロスモーダルな相互作用は計算コストが高く、入力画像とテキストを処理する2次的な複雑さのためにメモリ集約的です。
入力画像とテキストのトークンを段階的に削減し,モデル推論速度を改善し,メモリフットプリントを削減するために,テキストインフォームドプルーニングとモダリティ対応マージ戦略を用いたトークン削減フレームワークPuMerを提案する。
PuMerは入力テキストに関連する適切な画像トークンを保持し、VLモデル内のいくつかのクロスモーダル層に軽量なトークンリデューサモジュールを追加することで、同様のテキストおよびビジュアルトークンをマージする。
PuMerのトレーニングは、オリジナルのVLモデルを微調整したものとほとんど同じだが、高速である。
下流VLタスクにおける2つの視覚言語モデルの評価では、PuMerは推論スループットを最大2倍に向上し、メモリフットプリントを50%以上削減し、精度を1%以下に抑えた。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment [40.63340635482609]
視覚言語モデル(VLM)における既存の画像-テキストのモダリティアライメントは、各テキストトークンを自己回帰的に等しく扱う。
我々は、その視覚的相関に基づいて、各テキストトークンに対して異なるコントリビューションを割り当てることを提唱する。
コントラストアライメント(Contrastive ALignment, CAL)は、視覚的に相関したトークンのトレーニングを優先する、シンプルで効果的な再重み付け戦略である。
論文 参考訳(メタデータ) (2024-05-28T06:44:13Z) - Accelerating Transformers with Spectrum-Preserving Token Merging [43.463808781808645]
PiToMeは、エネルギースコアと呼ばれる追加のメトリックを使用して、情報トークンの保存を優先する。
実験の結果,PiToMeはベースモデルの40~60%のFLOPから保存されていた。
論文 参考訳(メタデータ) (2024-05-25T09:37:01Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - COTS: Collaborative Two-Stream Vision-Language Pre-Training Model for
Cross-Modal Retrieval [59.15034487974549]
画像テキスト検索のための新しいコラボレーティブな2ストリームビジョン言語事前学習モデルCOTSを提案する。
我々のCOTSは,2ストリーム方式の中で最も高い性能を達成し,推論の速度は10,800倍に向上した。
重要なことは、我々のCOTSはテキストからビデオへの検索にも適用でき、広く使われているMSR-VTTデータセットに新たな最先端技術をもたらすことである。
論文 参考訳(メタデータ) (2022-04-15T12:34:47Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。