論文の概要: PuMer: Pruning and Merging Tokens for Efficient Vision Language Models
- arxiv url: http://arxiv.org/abs/2305.17530v1
- Date: Sat, 27 May 2023 17:16:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 18:39:10.599716
- Title: PuMer: Pruning and Merging Tokens for Efficient Vision Language Models
- Title(参考訳): PuMer: 効率的なビジョン言語モデルのためのプルングとマージトークン
- Authors: Qingqing Cao, Bhargavi Paranjape, Hannaneh Hajishirzi
- Abstract要約: PuMerは、テキストインフォームされたPruningとModality-aware Merging戦略を使用して、入力画像とテキストのトークンを段階的に削減するフレームワークである。
PuMer推論はスループットを最大2倍にし、メモリフットプリントを50%以上削減し、精度を1%以下に低下させる。
- 参考スコア(独自算出の注目度): 41.81484883647005
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale vision language (VL) models use Transformers to perform
cross-modal interactions between the input text and image. These cross-modal
interactions are computationally expensive and memory-intensive due to the
quadratic complexity of processing the input image and text. We present PuMer:
a token reduction framework that uses text-informed Pruning and modality-aware
Merging strategies to progressively reduce the tokens of input image and text,
improving model inference speed and reducing memory footprint. PuMer learns to
keep salient image tokens related to the input text and merges similar textual
and visual tokens by adding lightweight token reducer modules at several
cross-modal layers in the VL model. Training PuMer is mostly the same as
finetuning the original VL model but faster. Our evaluation for two vision
language models on four downstream VL tasks shows PuMer increases inference
throughput by up to 2x and reduces memory footprint by over 50% while incurring
less than a 1% accuracy drop.
- Abstract(参考訳): 大規模視覚言語(vl)モデルは、トランスフォーマーを使用して入力テキストと画像間のクロスモーダルインタラクションを実行する。
これらのクロスモーダルな相互作用は計算コストが高く、入力画像とテキストを処理する2次的な複雑さのためにメモリ集約的です。
入力画像とテキストのトークンを段階的に削減し,モデル推論速度を改善し,メモリフットプリントを削減するために,テキストインフォームドプルーニングとモダリティ対応マージ戦略を用いたトークン削減フレームワークPuMerを提案する。
PuMerは入力テキストに関連する適切な画像トークンを保持し、VLモデル内のいくつかのクロスモーダル層に軽量なトークンリデューサモジュールを追加することで、同様のテキストおよびビジュアルトークンをマージする。
PuMerのトレーニングは、オリジナルのVLモデルを微調整したものとほとんど同じだが、高速である。
下流VLタスクにおける2つの視覚言語モデルの評価では、PuMerは推論スループットを最大2倍に向上し、メモリフットプリントを50%以上削減し、精度を1%以下に抑えた。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Enhancing Multimodal Large Language Models Complex Reason via Similarity Computation [7.742746565876165]
LVLMの解釈可能性はまだ未調査領域である。
LLaVA1.5のようなモデルでは、テキストと意味的に関連付けられた画像トークンは、情報フローの収束度が高い。
本稿では,LVLMの複雑な推論能力の向上を目的とした画像トークン削減手法であるSimignoreを提案する。
論文 参考訳(メタデータ) (2024-12-13T03:13:44Z) - The Narrow Gate: Localized Image-Text Communication in Vision-Language Models [36.33608889682152]
画像とテキストの両方を生成する視覚言語モデル(VLM)と、テキストのみを出力するモデルを比較する。
マルチモーダルな出力を持つモデルでは、画像とテキストの埋め込みは残留ストリーム内でより分離される。
対照的に、画像生成とテキスト生成のために訓練されたモデルは、視覚情報の狭いゲートとして機能する単一のトークンに依存している。
論文 参考訳(メタデータ) (2024-12-09T16:39:40Z) - iLLaVA: An Image is Worth Fewer Than 1/3 Input Tokens in Large Multimodal Models [24.0346607116299]
iLLaVAは、現在のLVLM(Large Vision-Language Models)にシームレスにデプロイできるシンプルな方法である。
iLLaVAは、冗長トークンを正確で高速なアルゴリズムで発見し、徐々にマージすることでこれを達成している。
単一イメージ、マルチイメージ、ビデオを含むさまざまな領域にわたるタスクにおいて、iLLaVAは一貫して有望な効率で強力な一般化性を示す。
論文 参考訳(メタデータ) (2024-12-09T07:22:19Z) - AdaptVision: Dynamic Input Scaling in MLLMs for Versatile Scene Understanding [96.01726275876548]
本稿では,様々な解像度の入力画像を動的に処理するマルチモーダルな大規模言語モデルAdaptVisionを提案する。
画像のサイズやアスペクト比に応じて視覚トークンの数を調整する動的画像分割モジュールを考案する。
私たちのモデルは、解像度1008倍の1008ドルまでの画像を処理できます。
論文 参考訳(メタデータ) (2024-08-30T03:16:49Z) - Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - LeMeViT: Efficient Vision Transformer with Learnable Meta Tokens for Remote Sensing Image Interpretation [37.72775203647514]
本稿では,学習可能なメタトークンを用いてスパーストークンを定式化し,キー情報を効果的に学習し,推論速度を向上させることを提案する。
視覚トークンが密集した早期にデュアル・クロス・アテンション(DCA)を用いることで,様々な大きさの階層型アーキテクチャLeMeViTが得られる。
分類と密接な予測タスクの実験結果は、LeMeViTがベースラインモデルと比較して1.7倍のスピードアップ、少ないパラメータ、競争性能を持っていることを示している。
論文 参考訳(メタデータ) (2024-05-16T03:26:06Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。