論文の概要: Matryoshka Query Transformer for Large Vision-Language Models
- arxiv url: http://arxiv.org/abs/2405.19315v2
- Date: Fri, 7 Jun 2024 03:39:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:58:44.772376
- Title: Matryoshka Query Transformer for Large Vision-Language Models
- Title(参考訳): 大規模視覚言語モデルのためのMathryoshka Query Transformer
- Authors: Wenbo Hu, Zi-Yi Dou, Liunian Harold Li, Amita Kamath, Nanyun Peng, Kai-Wei Chang,
- Abstract要約: 我々は,Materyoshka Query Transformer (MQT)を導入し,推論中に画像をmビジュアルトークンにエンコードする。
単一のモデルを一度トレーニングし、フレキシブルかつ劇的に、推論時の視覚トークンの数を削減します。
MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
- 参考スコア(独自算出の注目度): 103.84600181927884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) typically encode an image into a fixed number of visual tokens (e.g., 576) and process these tokens with a language model. Despite their strong performance, LVLMs face challenges in adapting to varying computational constraints. This raises the question: can we achieve flexibility in the number of visual tokens to suit different tasks and computational resources? We answer this with an emphatic yes. Inspired by Matryoshka Representation Learning, we introduce the Matryoshka Query Transformer (MQT), capable of encoding an image into m visual tokens during inference, where m can be any number up to a predefined maximum. This is achieved by employing a query transformer with M latent query tokens to compress the visual embeddings. During each training step, we randomly select m <= M latent query tokens and train the model using only these first m tokens, discarding the rest. Combining MQT with LLaVA, we train a single model once, and flexibly and drastically reduce the number of inference-time visual tokens while maintaining similar or better performance compared to training independent models for each number of tokens. Our model, MQT-LLAVA, matches LLaVA-1.5 performance across 11 benchmarks using a maximum of 256 tokens instead of LLaVA's fixed 576. Reducing to 16 tokens (8x less TFLOPs) only sacrifices the performance by 2.4 points on MMBench. On certain tasks such as ScienceQA and MMMU, we can even go down to only 2 visual tokens with performance drops of just 3% and 6% each. Our exploration of the trade-off between the accuracy and computational cost brought about by the number of visual tokens facilitates future research to achieve the best of both worlds.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は通常、画像を一定数の視覚トークン(例:576)にエンコードし、言語モデルでこれらのトークンを処理する。
強い性能にもかかわらず、LVLMは様々な計算制約に適応する上で困難に直面している。
異なるタスクや計算リソースに合うように、視覚トークンの数で柔軟性を達成できますか?
私たちはこれを強調して答える。
本研究では,Materyoshka Query Transformer (MQT) を導入し,m が最大値まで任意の数になるような推論中に,画像を m の視覚トークンにエンコードする手法を提案する。
これは、M遅延クエリトークンを持つクエリトランスフォーマーを使用して、視覚的な埋め込みを圧縮することで実現される。
各トレーニングステップでは、m <= M 遅延クエリトークンをランダムに選択し、これらの最初の m トークンのみを使用してモデルをトレーニングし、残りを破棄する。
MQTとLLaVAを組み合わせることで、単一のモデルを一度にトレーニングし、各トークン数の独立したモデルをトレーニングするのに比べて、同様のあるいは優れたパフォーマンスを維持しながら、推論時の視覚トークンの数を柔軟かつ劇的に削減します。
MQT-LLAVAは,LLaVAの固定576の代わりに最大256トークンを用いて,11ベンチマークでLLaVA-1.5のパフォーマンスと一致した。
トークンを16個(TFLOPを8倍少なくする)に減らすと、MMBenchでは2.4ポイントしかパフォーマンスを犠牲にしません。
ScienceQAやMMMUのようなタスクでは、パフォーマンスが3%と6%の2つの視覚トークンにダウンすることも可能です。
視覚トークンの数によって引き起こされる精度と計算コストのトレードオフを探索することで、将来の研究が両世界のベストを達成するのに役立つ。
関連論文リスト
- Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Morphing Tokens Draw Strong Masked Image Models [28.356863521946607]
Masked Image Modeling (MIM)は、ビジョントランスフォーマーをトレーニングするための有望なオプションである。
DTM(Dynamic Token Morphing)と呼ばれる新しい自己超越信号を導入する。
DTMはコンテキスト関連トークンを動的に集約し、コンテキスト化ターゲットを生成する。
論文 参考訳(メタデータ) (2023-12-30T14:53:09Z) - LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models [66.40252169137447]
本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。
LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。
このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-11-28T18:53:43Z) - Make A Long Image Short: Adaptive Token Length for Vision Transformers [5.723085628967456]
本稿では、長い画像の短縮によるViTモデルを高速化するための革新的なアプローチを提案する。
具体的には、テスト時に各画像に対してトークン長を適応的に割り当て、推論速度を高速化する手法を提案する。
論文 参考訳(メタデータ) (2023-07-05T08:10:17Z) - PuMer: Pruning and Merging Tokens for Efficient Vision Language Models [41.81484883647005]
PuMerは、テキストインフォームされたPruningとModality-aware Merging戦略を使用して、入力画像とテキストのトークンを段階的に削減するフレームワークである。
PuMer推論はスループットを最大2倍にし、メモリフットプリントを50%以上削減し、精度を1%以下に低下させる。
論文 参考訳(メタデータ) (2023-05-27T17:16:27Z) - Vision Transformer with Super Token Sampling [93.70963123497327]
多くの視覚タスクにおいて、視覚変換器は印象的なパフォーマンスを達成した。
浅い層のために局所的な特徴を捉える際に、高い冗長性に悩まされる可能性がある。
スーパートークンは、視覚的コンテンツの意味的に意味のあるテッセルレーションを提供しようとする。
論文 参考訳(メタデータ) (2022-11-21T03:48:13Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - FCM: Forgetful Causal Masking Makes Causal Language Models Better
Zero-Shot Learners [139.6321017962092]
本稿では,計算コストを増大させることなく,大規模言語モデルの性能を大幅に向上させる簡単な手法を提案する。
我々のキーとなる観察は、ランダムに選択された過去のトークンをマスクアウトした次のトークン予測タスクを実行することで、学習された表現の品質を向上させることができることである。
実験結果から,本手法は多種多様なタスクに対して,PALMのゼロおよび少数ショット性能も向上することが示された。
論文 参考訳(メタデータ) (2022-10-24T17:46:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。