Fugu-MT 論文翻訳(概要): $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

論文の概要: $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models

arxiv url: http://arxiv.org/abs/2410.13859v1
Date: Thu, 17 Oct 2024 17:59:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.11574
Title: $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models
Title（参考訳）: $γ-$MoD:マルチモーダル大言語モデルに対するMixture-of-Depth Adaptationの探索
Authors: Yaxin Luo, Gen Luo, Jiayi Ji, Yiyi Zhou, Xiaoshuai Sun, Zhiqiang Shen, Rongrong Ji,
Abstract要約: 我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。 $gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。 MLLMの計算空間を最大化する2つの新しい設計法を提案する。
参考スコア（独自算出の注目度）: 87.43596173378913
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the significant progress in multimodal large language models (MLLMs), their high computational cost remains a barrier to real-world deployment. Inspired by the mixture of depths (MoDs) in natural language processing, we aim to address this limitation from the perspective of ``activated tokens''. Our key insight is that if most tokens are redundant for the layer computation, then can be skipped directly via the MoD layer. However, directly converting the dense layers of MLLMs to MoD layers leads to substantial performance degradation. To address this issue, we propose an innovative MoD adaptation strategy for existing MLLMs called $\gamma$-MoD. In $\gamma$-MoD, a novel metric is proposed to guide the deployment of MoDs in the MLLM, namely rank of attention maps (ARank). Through ARank, we can effectively identify which layer is redundant and should be replaced with the MoD layer. Based on ARank, we further propose two novel designs to maximize the computational sparsity of MLLM while maintaining its performance, namely shared vision-language router and masked routing learning. With these designs, more than 90% dense layers of the MLLM can be effectively converted to the MoD ones. To validate our method, we apply it to three popular MLLMs, and conduct extensive experiments on 9 benchmark datasets. Experimental results not only validate the significant efficiency benefit of $\gamma$-MoD to existing MLLMs but also confirm its generalization ability on various MLLMs. For example, with a minor performance drop, i.e., -1.5%, $\gamma$-MoD can reduce the training and inference time of LLaVA-HR by 31.0% and 53.2%, respectively.
Abstract（参考訳）: マルチモーダルな大規模言語モデル (MLLM) の大幅な進歩にもかかわらず、その高い計算コストは実世界の展開の障壁である。自然言語処理における深度(MoDs)の混合にインスパイアされた我々は,この制限に '`activated tokens''' の観点から対処することを目指している。私たちのキーとなる洞察は、ほとんどのトークンが層計算に冗長であれば、MoD層を介して直接スキップできるということです。しかし、MLLMの高密度層を直接MoD層に変換すると、性能が大幅に低下する。この問題に対処するために、既存のMLLMに対して$\gamma$-MoDという革新的なMoD適応戦略を提案する。 $\gamma$-MoD では、MLLM における MoD の配置、すなわち注意マップのランク (ARank) を導くための新しい計量法が提案されている。 ARankを通じて、どのレイヤが冗長で、MoD層に置き換えるべきなのかを効果的に特定できます。さらに,ARankをベースとして,MLLMの計算空間幅を最大化しつつ,その性能,すなわち共有視覚言語ルータとマスク付きルーティング学習を両立させる2つの新しい設計を提案する。これらの設計により、MLLMの90%以上の高密度層を効果的にMoD層に変換することができる。提案手法を3つのMLLMに適用し,9つのベンチマークデータセットに対して広範な実験を行った。実験結果は,既存のMLLMに対する$\gamma$-MoDの有効性だけでなく,MLLMの一般化能力も検証した。例えば、小さなパフォーマンス低下、すなわち-1.5%の$\gamma$-MoDは、LLaVA-HRのトレーニング時間と推論時間をそれぞれ31.0%、53.2%削減することができる。

関連論文リスト

Dynamic Pyramid Network for Efficient Multimodal Large Language Model [11.864416286283399]
MLLM(Multimodal large language model)は様々な視覚言語(VL)タスクにおいて顕著な性能を示す。近年の取り組みは、MLLMの計算コストを抑えるために視覚的特徴を圧縮することを目的としている。効率的なMLLMのための新しい動的ピラミッドネットワーク(DPN)を提案する。
論文参考訳（メタデータ） (2025-03-26T08:44:11Z)
p-MoD: Building Mixture-of-Depths MLLMs via Progressive Ratio Decay [18.958138693220704]
そこで我々は,Mixture-of-Depths (MoD) 機構を利用して,効率的なマルチモーダル大言語モデル(MLLM)を構築することを提案する。我々は、Tanh-gateweight normalization (TanhNorm) と symmetric token reweighting (STRing) の2つの新しい設計でMoDモジュールを適応する。我々のモデルであるp-MoDは、ベースラインモデルの性能にマッチまたは超え、推論時に55.6%のTFLOPと53.8%のKVキャッシュストレージ、トレーニング時に77.7%のGPU時間しか持たない。
論文参考訳（メタデータ） (2024-12-05T18:58:03Z)
LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文参考訳（メタデータ） (2024-10-21T17:41:28Z)
MoDification: Mixture of Depths Made Easy [36.3113087767816]
深さの混合(MoD)は、遅延とメモリの両方を減少させるのに最適である。 MoDificationは、レイテンシの最大1.2倍の高速化とメモリの1.8倍の削減を実現している。
論文参考訳（メタデータ） (2024-10-18T08:22:07Z)
LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文参考訳（メタデータ） (2024-08-28T15:52:23Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Octavius: Mitigating Task Interference in MLLMs via LoRA-MoE [83.00018517368973]
LLM(Large Language Models)は、命令チューニングを通じて、ゼロショット能力をマルチモーダル学習に拡張することができる。ネガティブな対立や干渉はパフォーマンスに悪影響を及ぼすかもしれない我々は、よく知られたMixture-of-Experts(MoE)と代表的なPEFT技法の1つであるLoRA(LoRA-MoE)を組み合わせて、マルチモーダル学習のための新しいLLMベースのデコーダ(LoRA-MoE)を設計する。
論文参考訳（メタデータ） (2023-11-05T15:48:29Z)
MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。本稿では,MLLM 評価ベンチマーク MME について述べる。知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文参考訳（メタデータ） (2023-06-23T09:22:36Z)
LLM-Pruner: On the Structural Pruning of Large Language Models [65.02607075556742]
大規模言語モデル(LLM)は、言語理解と生成において顕著な能力を示している。タスク非依存であり、元のトレーニングデータセットへの依存を最小限に抑えるという2つの制約の範囲内でLLMの圧縮に取り組む。 LLM-Prunerという名前のこの手法は、非臨界結合構造を選択的に除去する構造プルーニングを採用する。
論文参考訳（メタデータ） (2023-05-19T12:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。