論文の概要: QG-VTC: Question-Guided Visual Token Compression in MLLMs for Efficient VQA
- arxiv url: http://arxiv.org/abs/2504.00654v1
- Date: Tue, 01 Apr 2025 11:07:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:56.376280
- Title: QG-VTC: Question-Guided Visual Token Compression in MLLMs for Efficient VQA
- Title(参考訳): QG-VTC:効率的なVQAのためのMLLMにおける質問ガイド型ビジュアルトーケン圧縮
- Authors: Shuai Li, Jian Xu, Xiao-Hui Li, Chao Deng, Lin-Lin Huang,
- Abstract要約: 画像はテキストよりも冗長な情報が多く、視覚的な詳細が特定の質問に関係しているわけではない。
MLLMに基づくVQAタスクのための新しい質問誘導型ビジュアルトークン圧縮手法であるQG-VTCを提案する。
QG-VTCは、事前訓練されたテキストエンコーダと学習可能なフィードフォワード層を使用して、ユーザ質問を視覚エンコーダの機能空間に埋め込む。
- 参考スコア(独自算出の注目度): 16.494799458292
- License:
- Abstract: Recent advances in Multi-modal Large Language Models (MLLMs) have shown significant progress in open-world Visual Question Answering (VQA). However, integrating visual information increases the number of processed tokens, leading to higher GPU memory usage and computational overhead. Images often contain more redundant information than text, and not all visual details are pertinent to specific questions. To address these challenges, we propose QG-VTC, a novel question-guided visual token compression method for MLLM-based VQA tasks. QG-VTC employs a pretrained text encoder and a learnable feed-forward layer to embed user questions into the vision encoder's feature space then computes correlation scores between the question embeddings and visual tokens. By selecting the most relevant tokens and softly compressing others, QG-VTC ensures fine-tuned relevance to user needs. Additionally, a progressive strategy applies this compression across different vision encoder layers, gradually reducing token numbers. This approach maximizes retention of question-relevant information while discarding irrelevant details. Experimental results show that our method achieves performance on par with uncompressed models using just 1/8 of the visual tokens. The code and model will be publicly available on GitHub.
- Abstract(参考訳): MLLM(Multi-modal Large Language Models)の最近の進歩は、VQA(Visual Question Answering)において大きな進歩を見せている。
しかし、視覚情報の統合は、処理されたトークンの数を増やし、GPUメモリ使用量の増加と計算オーバーヘッドにつながる。
画像はテキストよりも冗長な情報が多く、視覚的な詳細が特定の質問に関係しているわけではない。
これらの課題に対処するために、MLLMベースのVQAタスクのための新しい質問誘導型ビジュアルトークン圧縮手法であるQG-VTCを提案する。
QG-VTCは、事前訓練されたテキストエンコーダと学習可能なフィードフォワード層を使用して、ユーザ質問を視覚エンコーダの機能空間に埋め込む。
最も関連性の高いトークンを選択し、他のトークンをソフトに圧縮することで、QG-VTCはユーザニーズに対する微調整された関連性を保証する。
さらに、プログレッシブ戦略では、異なる視覚エンコーダ層にこの圧縮を適用し、トークン数を徐々に減少させる。
このアプローチは、無関係な詳細を破棄しながら、質問関連情報の保持を最大化する。
実験の結果,視覚トークンの1/8のみを用いて,圧縮されていないモデルと同等の性能が得られることがわかった。
コードとモデルはGitHubで公開されている。
関連論文リスト
- Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - AdaCoder: Adaptive Prompt Compression for Programmatic Visual Question Answering [23.169961738978614]
本稿では,視覚的質問応答モデルのための適応的プロンプト圧縮フレームワークであるAdaCoderを提案する。
AdaCoderは圧縮フェーズと推論フェーズの2つのフェーズで動作する。
視覚的質問応答の性能を維持・改善しつつ,トークン長を71.1%削減できることを実証した。
論文 参考訳(メタデータ) (2024-07-28T06:23:06Z) - LookupViT: Compressing visual information to a limited number of tokens [36.83826969693139]
ビジョントランスフォーマー (ViT) は、多くの業界グレードのビジョンソリューションのデファクト選択として登場した。
しかし、それらの推論コストは、トークン数の複雑さに悩まされる各レイヤにおける自己注意を計算するため、多くの設定で禁止される可能性がある。
本研究では、この情報空間を利用してViT推論コストを削減するLookupViTを紹介する。
論文 参考訳(メタデータ) (2024-07-17T17:22:43Z) - VoCo-LLaMA: Towards Vision Compression with Large Language Models [31.398537194299752]
VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
論文 参考訳(メタデータ) (2024-06-18T05:05:12Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z) - LLaMA-VID: An Image is Worth 2 Tokens in Large Language Models [66.40252169137447]
本稿では,視覚言語モデル(VLM)において,LLaMA-VIDと呼ばれるビデオおよび画像理解のためのトークン生成に挑戦する新しい手法を提案する。
LLaMA-VIDは、各フレームを2つの異なるトークン、すなわちコンテキストトークンとコンテントトークンで表現することでこの問題に対処する。
このデュアルトークン戦略は、重要な情報を保持しながら、長いビデオのオーバーロードを大幅に削減する。
論文 参考訳(メタデータ) (2023-11-28T18:53:43Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - VIMPAC: Video Pre-Training via Masked Token Prediction and Contrastive
Learning [82.09856883441044]
ビデオ理解は、内部接続をモデル化するグローバルコンテンツを認識することに依存している。
空間領域と時間領域の両方で隣接するビデオトークンをマスクするブロックワイズ戦略を提案する。
また、グローバルコンテンツをさらにキャプチャするために、拡張不要なコントラスト学習手法も追加する。
論文 参考訳(メタデータ) (2021-06-21T16:48:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。