Fugu-MT 論文翻訳(概要): Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

論文の概要: Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See

arxiv url: http://arxiv.org/abs/2410.06169v2
Date: Fri, 15 Nov 2024 18:43:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:35.250026
Title: Treat Visual Tokens as Text? But Your MLLM Only Needs Fewer Efforts to See
Title（参考訳）: テキストとしてビジュアルトークンを扱う? でもMLLMは、見る努力が少なすぎるだけ
Authors: Zeliang Zhang, Phu Pham, Wentian Zhao, Kun Wan, Yu-Jhe Li, Jianing Zhou, Daniel Miranda, Ajinkya Kale, Chenliang Xu,
Abstract要約: MLLM(Multimodal Large Language Models)は、視覚エンコーダからの視覚トークンをテキストトークンとして扱う。トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは効率のボトルネックをもたらす。本研究では,LLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討する。
参考スコア（独自算出の注目度）: 37.7015406019386
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: By treating visual tokens from visual encoders as text tokens, Multimodal Large Language Models (MLLMs) have achieved remarkable progress across diverse visual understanding tasks, leveraging the robust architectures of Large Language Models (LLMs). However, as token counts grow, the quadratic scaling of computation in LLMs introduces a significant efficiency bottleneck, impeding further scalability. Although recent approaches have explored pruning visual tokens or employing lighter LLM architectures, the computational overhead from an increasing number of visual tokens remains a substantial challenge. In this study, we investigate the redundancy in visual computation at both the parameter and computational pattern levels within LLaVA, a representative MLLM, and introduce a suite of streamlined strategies to enhance efficiency. These include neighbor-aware visual token attention, pruning of inactive visual attention heads, and selective layer dropping for visual computations. By implementing these strategies in LLaVA, we achieve a reduction in computational demands of 88% while maintaining model performance across key benchmarks. Additionally, we validate the existence of visual computational redundancy in other MLLMs, such as Qwen2-VL-7B and InternVL-2.0-4B/8B/26B. These results present a novel pathway for MLLMs to handle dense visual tokens with minimal computational costs. Code and model checkpoints will be released to support further research.
Abstract（参考訳）: 視覚的エンコーダからの視覚的トークンをテキストトークンとして扱うことで、MLLM(Multimodal Large Language Models)は、大規模言語モデル(LLM)の堅牢なアーキテクチャを活用しながら、様々な視覚的理解タスクにおいて顕著な進歩を遂げた。しかし、トークンの数が増加するにつれて、LLMにおける計算の2次スケーリングは大幅な効率のボトルネックをもたらし、さらなるスケーラビリティを阻害する。近年のアプローチでは、より軽量なLCMアーキテクチャのプルーニングや、より軽量なLCMアーキテクチャの導入が検討されているが、多くのビジュアルトークンからの計算オーバーヘッドは依然として大きな課題である。本研究では,代表的MLLMであるLLaVAにおけるパラメータと計算パターンの両レベルでの視覚計算の冗長性について検討し,効率を高めるための一連の合理化戦略を提案する。これには、隣接する視覚トークンの注意、非アクティブな視覚アテンションヘッドのプルーニング、視覚計算のための選択層ドロップが含まれる。 LLaVAでこれらの戦略を実装することで、主要なベンチマークにおけるモデル性能を維持しながら、計算要求の88%を削減できる。さらに、Qwen2-VL-7BやInternVL-2.0-4B/8B/26Bといった他のMLLMにおける視覚的冗長性の存在を検証する。これらの結果は、MLLMが最小の計算コストで高密度な視覚トークンを扱うための新しい経路を示す。コードとモデルチェックポイントは、さらなる研究をサポートするためにリリースされる。

関連論文リスト

Revisit What You See: Disclose Language Prior in Vision Tokens for Efficient Guided Decoding of LVLMs [8.97780713904412]
本稿では、視覚トークンを参照してLVLM(Large Vision-Language Models)におけるテキスト生成プロセスのガイドを行う、シンプルで効果的な復号法であるReVisiTを紹介する。提案手法は,テキストトークン分布空間に投影し,制約付き発散最小化により,各復号ステップにおいて最も関連性の高い視覚トークンを動的に選択することにより,視覚トークン内に埋め込まれた意味情報を活用する。
論文参考訳（メタデータ） (2025-06-11T08:46:55Z)
CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms [16.41418610688371]
性能劣化を最小限に抑えた視覚トークン量を大幅に削減するCrossLMMを提案する。また,テキスト・ツー・ビジュアル・クロスアテンション機構を導入し,テキスト・トークンを元のビジュアル・トークンとのインタラクションによって拡張する。提案手法は,多様なビデオベース大規模言語モデルベンチマークにおいて,同等あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2025-05-22T17:59:53Z)
[CLS] Token Tells Everything Needed for Training-free Efficient MLLMs [66.5266435598799]
MLLM(Multi- Language Large Language Models)は、最近、広範囲の視覚タスクにおいて強力なパフォーマンスを示した。しかし、その効率的なデプロイメントは、高い計算コストとメモリ要求のため、依然として大きな課題である。本稿では,VTC圧縮という,列車不要の視覚圧縮のための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2024-12-08T05:29:39Z)
Accelerating Multimodal Large Language Models via Dynamic Visual-Token Exit and the Empirical Findings [69.35226485836641]
既存のMultimoal Large Language Models (MLLM) における視覚トークンの過剰使用は、しばしば明らかな冗長性を示し、非常に高価な計算をもたらす。 DyVTE(Dynamic visual-token exit)と呼ばれるMLLMの効率を改善するための簡易かつ効果的な手法を提案する。 DyVTEは軽量なハイパーネットワークを使用して、テキストトークンの状態を認識し、特定のレイヤの後にすべてのビジュアルトークンを削除する。
論文参考訳（メタデータ） (2024-11-29T11:24:23Z)
Enhancing Instruction-Following Capability of Visual-Language Models by Reducing Image Redundancy [37.471419716572086]
LLM(Large Language Model)とMLLM(Multimodal Large Language Model)の命令追従能力には大きなギャップがある。本稿では,このギャップを軽減するために,VMTC(Visual-Modality Token Compression)とCMAI(Cross-Modality Attention Inhibition)戦略を提案する。
論文参考訳（メタデータ） (2024-11-23T05:03:32Z)
Inference Optimal VLMs Need Only One Visual Token but Larger Models [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。 VLMは、大量の入力トークンを処理するのに必要な計算量が多いため、推論中に高いレイテンシで制約されることが多い。高いトークン圧縮設定に適したアプローチを構築するために、最初のステップを踏み出します。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
Balancing Performance and Efficiency: A Multimodal Large Language Model Pruning Method based Image Text Interaction [6.467840081978855]
マルチモーダル大規模言語モデル(MM-LLM)は多くのマルチモーダルタスクにおいて大きな成功を収めているが、その高い計算コストはさらなる促進と応用を制限している。 MM-LLMの視覚的トークンについて検討し,この問題に対処するための動的プルーニングアルゴリズムを設計した。提案手法は,平均22%のトークン量を使用する場合,元のトークン量と競合する性能を実現する。
論文参考訳（メタデータ） (2024-09-02T10:49:10Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
ControlMLLM: Training-Free Visual Prompt Learning for Multimodal Large Language Models [73.34709921061928]
マルチモーダル大言語モデル(MLLM)に視覚的参照を注入する学習自由手法を提案する。 MLLMにおけるテキストプロンプトトークンと視覚トークンの関係を観察する。我々は,エネルギー関数に基づいて学習可能な視覚トークンを最適化し,注目マップにおける参照領域の強度を高める。
論文参考訳（メタデータ） (2024-07-31T11:40:29Z)
Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文参考訳（メタデータ） (2024-07-05T17:43:30Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
Boosting Multimodal Large Language Models with Visual Tokens Withdrawal for Rapid Inference [59.91176945361035]
高速推論のためにMLLMを高速化するプラグイン・アンド・プレイモジュールであるVisual Tokens Withdrawal (VTW)を紹介した。私たちのアプローチは、私たちが観察した2つの興味深い現象にインスピレーションを受けています。我々のVTWアプローチは、性能を維持しながら、様々なマルチモーダルタスクで計算オーバーヘッドを40%以上削減できる。
論文参考訳（メタデータ） (2024-05-09T14:38:53Z)
LLaVA-PruMerge: Adaptive Token Reduction for Efficient Large Multimodal Models [35.88374542519597]
大規模マルチモーダルモデル(LMM)は、視覚エンコーダと大きな言語モデルとを接続することで、視覚的推論能力を示す。近年のLMMには、高解像度の画像やビデオなど、より複雑な視覚入力が組み込まれており、視覚トークンの数が大幅に増加する。我々は,LMMの性能を損なうことなく,視覚トークンの数を著しく削減する適応型視覚トークン削減戦略であるPruMergeを提案する。
論文参考訳（メタデータ） (2024-03-22T17:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。