Fugu-MT 論文翻訳(概要): LLaVA-Zip: Adaptive Visual Token Compression with Intrinsic Image Information

論文の概要: LLaVA-Zip: Adaptive Visual Token Compression with Intrinsic Image Information

arxiv url: http://arxiv.org/abs/2412.08771v1
Date: Wed, 11 Dec 2024 20:46:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:55.982961
Title: LLaVA-Zip: Adaptive Visual Token Compression with Intrinsic Image Information
Title（参考訳）: LLaVA-Zip:固有画像情報を用いた適応型視覚トーケン圧縮
Authors: Ke Wang, Hong Xuan,
Abstract要約: LLaVA-1.5に基づく動的特徴マップ削減(DFMR)を提案し、視覚的トークンオーバーロードの課題に対処する。 DFMRは視覚トークンを動的に圧縮し、トークン容量を解放する。実験の結果, DFMRをLLaVA-1.5に統合することで, 各種視覚トークン長におけるLLaVAの性能が著しく向上することが示された。
参考スコア（独自算出の注目度）: 4.33464415015353
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multi-modal large language models (MLLMs) utilizing instruction-following data, such as LLaVA, have achieved great progress in the industry. A major limitation in these models is that visual tokens consume a substantial portion of the maximum token limit in large language models (LLMs), leading to increased computational demands and decreased performance when prompts include multiple images or videos. Industry solutions often mitigate this issue by increasing computational power, but this approach is less feasible in academic environments with limited resources. In this study, we propose Dynamic Feature Map Reduction (DFMR) based on LLaVA-1.5 to address the challenge of visual token overload. DFMR dynamically compresses the visual tokens, freeing up token capacity. Our experimental results demonstrate that integrating DFMR into LLaVA-1.5 significantly improves the performance of LLaVA in varied visual token lengths, offering a promising solution for extending LLaVA to handle multi-image and video scenarios in resource-constrained academic environments and it can also be applied in industry settings for data augmentation to help mitigate the scarcity of open-domain image-text pair datasets in the continued pretraining stage.
Abstract（参考訳）: LLaVAのような命令追従データを利用したマルチモーダル大規模言語モデル(MLLM)は、業界において大きな進歩を遂げている。これらのモデルにおける大きな制限は、視覚トークンが大きな言語モデル(LLM)の最大トークン制限のかなりの部分を消費していることである。産業ソリューションはしばしば計算能力の増大によってこの問題を軽減するが、限られた資源を持つ学術環境では、このアプローチは実現不可能である。本研究では,LLaVA-1.5に基づく動的特徴マップ削減(DFMR)を提案する。 DFMRは視覚トークンを動的に圧縮し、トークン容量を解放する。実験の結果, DFMRをLLaVA-1.5に統合することにより, LLaVAを資源制約のある学術環境におけるマルチイメージ・ビデオシナリオに拡張するための有望なソリューションとして, LLaVAの性能が大幅に向上することが示された。

関連論文リスト

Co-Training Vision Language Models for Remote Sensing Multi-task Learning [68.15604397741753]
視覚言語モデル(VLM)は、RS画像理解、グラウンド化、超高解像度(UHR)画像推論において有望な結果を得た。本稿では,RSMTLのための簡易かつ柔軟なVLMベースラインであるRSCoVLMを提案する。本稿では、RS画像に固有の多様な画像スケールに対処する、統一された動的解像度戦略を提案する。
論文参考訳（メタデータ） (2025-11-26T10:55:07Z)
A Comprehensive Study on Visual Token Redundancy for Discrete Diffusion-based Multimodal Large Language Models [85.30893355216486]
我々は,異なるdMLLMアーキテクチャとタスクを用いて,視覚的トークン冗長性がどのように進化するかを検討する。本研究により, 視覚的冗長性は, 長時間のタスクを処理しながら, オフスクラッチdMLLMでのみ現れることが明らかとなった。層スキッピングはAR-to-diffusion dMLLMの加速に有効であるのに対し、プログレッシブプルーニングやレイトステッププルーニングはストクラッチdMLLMよりも効果的である。
論文参考訳（メタデータ） (2025-11-19T04:13:36Z)
Variation-aware Vision Token Dropping for Faster Large Vision-Language Models [24.952668143243542]
大規模視覚言語モデル(LVLM)はマルチモーダル理解タスクにおいて顕著な機能を示した。トーケン圧縮は、処理されるトークンの数を減らすことにより、計算効率を向上させることにより、直接的な解を提供する。我々は,LVLM推論中に最小限の変動を伴う視覚トークンを段階的に除去する,変分認識型視覚トークンドロップ(textiti.e., textbfV$2$Drop)を提案する。
論文参考訳（メタデータ） (2025-09-01T15:28:44Z)
DyMU: Dynamic Merging and Virtual Unmerging for Efficient VLMs [124.52164183968145]
視覚言語モデル(VLM)の計算負担を軽減する,効率的なトレーニング不要なフレームワークであるDyMUを提案する。まず、動的トークンマージ(DToMe)は、画像の複雑さに基づいて類似のトークンをマージすることで、視覚トークンの埋め込み数を削減します。第二に、仮想トークンアンマージ(VTU)は、大きな言語モデル(LLM)の期待トークンシーケンスを、フルシーケンスの注意ダイナミクスを効率的に再構築することでシミュレートする。
論文参考訳（メタデータ） (2025-04-23T18:38:18Z)
InternVL-X: Advancing and Accelerating InternVL Series with Efficient Visual Token Compression [1.8893427856534721]
InternVL-Xは、性能と効率の両方で、InternVLモデルより優れている。 20%以下のビジュアルトークンを利用することで、InternVL-Xは7つのパブリックMLLMベンチマークで最先端のパフォーマンスを達成し、12タスクの平均メトリックを2.34%改善する。
論文参考訳（メタデータ） (2025-03-27T09:31:35Z)
Dynamic Pyramid Network for Efficient Multimodal Large Language Model [11.864416286283399]
MLLM(Multimodal large language model)は様々な視覚言語(VL)タスクにおいて顕著な性能を示す。近年の取り組みは、MLLMの計算コストを抑えるために視覚的特徴を圧縮することを目的としている。効率的なMLLMのための新しい動的ピラミッドネットワーク(DPN)を提案する。
論文参考訳（メタデータ） (2025-03-26T08:44:11Z)
Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文参考訳（メタデータ） (2025-03-06T06:17:38Z)
AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。最小限の設計により,本手法はビデオと画像の両方に応用できる。同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文参考訳（メタデータ） (2024-12-04T11:47:57Z)
LLaVA-MR: Large Language-and-Vision Assistant for Video Moment Retrieval [14.136397687227111]
モーメント検索のためのLarge Language-and-Vision Assistant(LLaVA-MR)を提案する。 LLaVA-MRはマルチモーダル大言語モデル(MLLM)を用いたビデオにおける正確なモーメント検索と文脈グラウンド化を可能にする Charades-STAやQVHighlightsのようなベンチマークによる評価は、LLaVA-MRが11の最先端メソッドより優れていることを示している。
論文参考訳（メタデータ） (2024-11-21T09:34:23Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See [37.7015406019386]
MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
論文参考訳（メタデータ） (2024-10-08T16:13:24Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Efficient Large Multi-modal Models via Visual Context Compression [23.966237939194514]
本稿では,視覚トークンに関する冗長性の解析と,大規模言語モデルにおける効率的な訓練について述べる。最初の実験では、単に平均プーリングによってテスト段階で最大70%の視覚トークンを除去することは、視覚的質問応答精度の最小3%の低下にしか至らないことが示された。 GQAベンチマークにビジュアルコンテキストを導入し、視覚トークンの数を減らし、性能を犠牲にすることなくトレーニングと推論効率を向上させる。
論文参考訳（メタデータ） (2024-06-28T17:57:14Z)
Chain-of-Spot: Interactive Reasoning Improves Large Vision-Language Models [81.71651422951074]
CoS(Chain-of-Spot)法は,注目領域に着目して特徴抽出を強化する手法である。この技術により、LVLMは元の画像解像度を変更することなく、より詳細な視覚情報にアクセスすることができる。実験の結果,LVLMの視覚的内容の理解と推論能力は著しく改善した。
論文参考訳（メタデータ） (2024-03-19T17:59:52Z)
An Image is Worth 1/2 Tokens After Layer 2: Plug-and-Play Inference Acceleration for Large Vision-Language Models [65.37846460916042]
視覚的トークンに対する注意計算は,LVLMの深い層において極めて非効率であることがわかった。本稿では,計算効率の最適化を目的とした多用途プラグアンドプレイ方式であるFastVを紹介する。
論文参考訳（メタデータ） (2024-03-11T14:35:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。