Fugu-MT 論文翻訳(概要): Efficient Multi-modal Large Language Models via Visual Token Grouping

論文の概要: Efficient Multi-modal Large Language Models via Visual Token Grouping

arxiv url: http://arxiv.org/abs/2411.17773v1
Date: Tue, 26 Nov 2024 09:36:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-01 15:52:53.393007
Title: Efficient Multi-modal Large Language Models via Visual Token Grouping
Title（参考訳）: 視覚的トーケングルーピングによるマルチモーダル大言語モデル
Authors: Minbin Huang, Runhui Huang, Han Shi, Yimeng Chen, Chuanyang Zheng, Xiangguo Sun, Xin Jiang, Zhenguo Li, Hong Cheng,
Abstract要約: 高解像度の画像やビデオは、彼らの広く普及するための障壁となる。 MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。本稿では,事前学習した視覚エンコーダの能力を利用して類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。
参考スコア（独自算出の注目度）: 55.482198808206284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The development of Multi-modal Large Language Models (MLLMs) enhances Large Language Models (LLMs) with the ability to perceive data formats beyond text, significantly advancing a range of downstream applications, such as visual question answering and image captioning. However, the substantial computational costs associated with processing high-resolution images and videos pose a barrier to their broader adoption. To address this challenge, compressing vision tokens in MLLMs has emerged as a promising approach to reduce inference costs. While existing methods conduct token reduction in the feature alignment phase. In this paper, we introduce VisToG, a novel grouping mechanism that leverages the capabilities of pre-trained vision encoders to group similar image segments without the need for segmentation masks. Specifically, we concatenate semantic tokens to represent image semantic segments after the linear projection layer before feeding into the vision encoder. Besides, with the isolated attention we adopt, VisToG can identify and eliminate redundant visual tokens utilizing the prior knowledge in the pre-trained vision encoder, which effectively reduces computational demands. Extensive experiments demonstrate the effectiveness of VisToG, maintaining 98.1% of the original performance while achieving a reduction of over 27\% inference time.
Abstract（参考訳）: MLLM(Multi-modal Large Language Models)の開発により、テキスト以外のデータフォーマットを知覚できる大規模言語モデル(LLM)が強化され、視覚的質問応答や画像キャプションなど、下流のアプリケーションも大幅に進歩した。しかし、高解像度の画像やビデオの処理に伴うかなりの計算コストは、より広範な採用にとって障壁となる。この課題に対処するため、MLLMにおける視覚トークンの圧縮は、推論コストを削減するための有望なアプローチとして現れている。既存の手法では、特徴アライメントフェーズにおいてトークンの削減を行う。本稿では,事前学習した視覚エンコーダの機能を利用して,セグメンテーションマスクを必要とせずに類似画像セグメントをグループ化する,新たなグループ化機構であるVisToGを紹介する。具体的には、視覚エンコーダに入力する前に、線形投影層の後の画像意味セグメントを表現するために意味トークンを結合する。さらに、私たちが採用している孤立した注意により、VisToGは、事前学習された視覚エンコーダの事前知識を利用して、冗長な視覚トークンを識別・排除し、計算要求を効果的に低減することができる。大規模な実験では、VisToGの有効性を実証し、元の性能の98.1%を維持しつつ、27.5%以上の推論時間を短縮した。

関連論文リスト

ToDRE: Visual Token Pruning via Diversity and Task Awareness for Efficient Large Vision-Language Models [59.47738955960352]
ToDREは、2段階でトレーニング不要なトークン圧縮フレームワークである。トークンの多様性とトークン-タスク関連性に基づいてトークンをプルーニングすることで、優れたパフォーマンスを実現する。
論文参考訳（メタデータ） (2025-05-24T15:47:49Z)
CrossLMM: Decoupling Long Video Sequences from LMMs via Dual Cross-Attention Mechanisms [16.41418610688371]
性能劣化を最小限に抑えた視覚トークン量を大幅に削減するCrossLMMを提案する。また,テキスト・ツー・ビジュアル・クロスアテンション機構を導入し,テキスト・トークンを元のビジュアル・トークンとのインタラクションによって拡張する。提案手法は,多様なビデオベース大規模言語モデルベンチマークにおいて,同等あるいは優れた性能を実現する。
論文参考訳（メタデータ） (2025-05-22T17:59:53Z)
Lifting the Veil on Visual Information Flow in MLLMs: Unlocking Pathways to Faster Inference [28.24397677839652]
マルチモーダル大規模言語モデル(MLLM)は、事前訓練された視覚エンコーダの視覚的特徴を大規模言語モデルに統合することにより、視覚言語タスクの性能を向上させる。 MLLMがどのように処理し、どのように視覚情報を利用するかは、まだ不明である。階層型モダリティ・アウェア・プルーニング(HiMAP, Hierarchical Modality-Aware Pruning)を提案する。
論文参考訳（メタデータ） (2025-03-17T12:31:23Z)
AdaFV: Rethinking of Visual-Language alignment for VLM acceleration [7.9213473377478865]
偏りのあるVLMの自己アテンションに応じて視覚トークンを減らすいくつかのアプローチは、不正確な応答をもたらす。本稿では,視覚的満足度とテキスト・ツー・イメージの類似性の有効性を動的に活用する,自己適応型クロスモーダリティ・アテンション・ミックス機構を提案する。提案手法は,特に縮小速度が十分に大きい場合,最先端のトレーニング不要なVLM加速性能を実現する。
論文参考訳（メタデータ） (2025-01-16T13:34:33Z)
FoPru: Focal Pruning for Efficient Large Vision-Language Models [11.36025001578531]
本稿では、視覚エンコーダから導出される注目に基づくトークンの重要度に基づいて、視覚トークンを抽出する訓練不要なFocal Pruning(FoPru)を提案する。提案手法は,高い精度を維持しつつ多数の冗長トークンを抽出し,推論効率を大幅に向上させる。
論文参考訳（メタデータ） (2024-11-21T14:22:38Z)
Inference Optimal VLMs Need Fewer Visual Tokens and More Parameters [54.01228554126122]
視覚言語モデル(VLM)は、様々な視覚的理解と推論タスクにまたがる強力な能力を示している。推論コストを削減するために、LLM(Large Language Models)を縮小するか、イメージを表すのに必要な入力トークンの数を削減できる。高速圧縮に適したトークン圧縮アルゴリズムを設計する第一歩を踏み出す。
論文参考訳（メタデータ） (2024-11-05T18:54:21Z)
ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文参考訳（メタデータ） (2024-10-14T07:56:51Z)
VideoLLM-MoD: Efficient Video-Language Streaming with Mixture-of-Depths Vision Computation [66.00245701441547]
我々は、視覚トークンの数を減らさずに、冗長な視覚トークンを「スキップ層」として活用することで、視覚計算を減らし、新しいアプローチを導入する。提案手法であるVideoLLM-MoDは深度混合LLMにインスパイアされ,長期・ストリーミングビデオにおける多数の視覚トークンの課題に対処する。
論文参考訳（メタデータ） (2024-08-29T17:21:58Z)
Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。 SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文参考訳（メタデータ） (2024-06-07T17:55:43Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。