論文の概要: VoCo-LLaMA: Towards Vision Compression with Large Language Models
- arxiv url: http://arxiv.org/abs/2406.12275v1
- Date: Tue, 18 Jun 2024 05:05:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-19 20:45:27.805758
- Title: VoCo-LLaMA: Towards Vision Compression with Large Language Models
- Title(参考訳): VoCo-LLaMA:大規模言語モデルによる視覚圧縮を目指して
- Authors: Xubing Ye, Yukang Gan, Xiaoke Huang, Yixiao Ge, Ying Shan, Yansong Tang,
- Abstract要約: VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
提案手法は, 576$times$の圧縮比で最小性能損失を達成し, 最大94.8$%のFLOPと69.6$%の高速化を実現した。
- 参考スコア(独自算出の注目度): 56.20788367278211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have achieved remarkable success in various multi-modal tasks, but they are often bottlenecked by the limited context window and high computational cost of processing high-resolution image inputs and videos. Vision compression can alleviate this problem by reducing the vision token count. Previous approaches compress vision tokens with external modules and force LLMs to understand the compressed ones, leading to visual information loss. However, the LLMs' understanding paradigm of vision tokens is not fully utilised in the compression learning process. We propose VoCo-LLaMA, the first approach to compress vision tokens using LLMs. By introducing Vision Compression tokens during the vision instruction tuning phase and leveraging attention distillation, our method distill how LLMs comprehend vision tokens into their processing of VoCo tokens. VoCo-LLaMA facilitates effective vision compression and improves the computational efficiency during the inference stage. Specifically, our method achieves minimal performance loss with a compression ratio of 576$\times$, resulting in up to 94.8$\%$ fewer FLOPs and 69.6$\%$ acceleration in inference time. Furthermore, through continuous training using time-series compressed token sequences of video frames, VoCo-LLaMA demonstrates the ability to understand temporal correlations, outperforming previous methods on popular video question-answering benchmarks. Our approach presents a promising way to unlock the full potential of VLMs' contextual window, enabling more scalable multi-modal applications. The project page, along with the associated code, can be accessed via $\href{https://yxxxb.github.io/VoCo-LLaMA-page/}{\text{this https URL}}$.
- Abstract(参考訳): VLM(Vision-Language Models)は、様々なマルチモーダルタスクにおいて顕著な成功を収めている。
視覚圧縮は、視覚トークン数を減らすことでこの問題を軽減することができる。
以前のアプローチでは、視覚トークンを外部モジュールで圧縮し、LLMに圧縮されたトークンを理解するように強制し、視覚情報を失う。
しかし、LLMの視覚トークンの理解パラダイムは、圧縮学習プロセスで完全に活用されていない。
LLMを用いて視覚トークンを圧縮する最初の方法であるVoCo-LLaMAを提案する。
視覚訓練の段階で視覚圧縮トークンを導入し、注意蒸留を活用することにより、LLMが視覚トークンをVoCoトークンの処理にどのように理解するかを精査する。
VoCo-LLaMAは効率的な視覚圧縮を促進し、推論段階での計算効率を向上させる。
具体的には、圧縮比576$\times$で最小性能損失を達成し、最大94.8$\%$少ないFLOPと69.6$\%$の推論時間で加速する。
さらに,ビデオフレームの時系列圧縮トークンシーケンスを用いた連続的なトレーニングを通じて,VoCo-LLaMAは時間相関を理解する能力を示し,ビデオ質問応答ベンチマークにおいて従来の手法よりも優れていた。
我々のアプローチは、VLMのコンテキストウィンドウの可能性を最大限に活用し、よりスケーラブルなマルチモーダルアプリケーションを実現するための有望な方法である。
プロジェクトページは関連するコードとともに、$\href{https://yxxxb.github.io/VoCo-LLaMA-page/}{\text{this https URL}}$でアクセスすることができる。
関連論文リスト
- ReTaKe: Reducing Temporal and Knowledge Redundancy for Long Video Understanding [55.320254859515714]
長時間ビデオ理解のための時間的視覚的冗長性と知識的冗長性を両立させるトレーニングフリー手法である$bfReTaKe$を導入する。
DPSelectは、人間の映像知覚と密接に一致している視覚的特徴に基づいて、局所的な最大ピーク距離を持つビデオを特定する。
PivotKVはピボットとしてVideoBenchsを使用し、注意スコアの低い非テキストトークンに対してKVキャッシュ圧縮を実行する。
論文 参考訳(メタデータ) (2024-12-29T15:42:24Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - Efficient Multi-modal Large Language Models via Visual Token Grouping [55.482198808206284]
高解像度の画像やビデオは、彼らの広く普及するための障壁となる。
MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。
本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
論文 参考訳(メタデータ) (2024-11-26T09:36:02Z) - DyCoke: Dynamic Compression of Tokens for Fast Video Large Language Models [28.379533608574814]
トークン表現の最適化とビデオ大言語モデルの高速化を目的とした,トレーニング不要なトークン圧縮手法であるDyCokeを提案する。
DyCokeは、フレーム間で冗長トークンをマージすることによって、時間的冗長性を最小化するために、プラグインとプレイの時間的圧縮モジュールを組み込んでいる。
各デコードステップでクリティカルトークンを動的に保持することで、高品質な推論を保証する。
論文 参考訳(メタデータ) (2024-11-22T15:55:19Z) - Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。
VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。
高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文 参考訳(メタデータ) (2024-11-05T18:54:21Z) - LongVU: Spatiotemporal Adaptive Compression for Long Video-Language Understanding [65.46303012350207]
LongVUは、長いビデオの視覚的詳細を保存しながら、ビデオトークンの数を減らす適応圧縮機構である。
DINOv2の機能を利用して、高い類似性を示す冗長なフレームを削除します。
時間的依存関係に基づいて,フレーム間の空間トークン削減を行う。
論文 参考訳(メタデータ) (2024-10-22T21:21:37Z) - VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。
提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文 参考訳(メタデータ) (2024-08-29T17:21:58Z) - LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。
近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。
我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文 参考訳(メタデータ) (2024-03-22T17:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。