論文の概要: Sparse Training Scheme for Multimodal LLM
- arxiv url: http://arxiv.org/abs/2509.18150v1
- Date: Tue, 16 Sep 2025 11:33:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.422563
- Title: Sparse Training Scheme for Multimodal LLM
- Title(参考訳): マルチモーダルLDMのためのスパーストレーニング方式
- Authors: Kean Shi, Liang Chen, Haozhe Zhao, Baobao Chang,
- Abstract要約: MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。
スパース・トレーニング・スキーム(STS)と呼ばれるスパース表現に基づく新しい学習効率向上フレームワークを提案する。
このスキームは、ビジュアルトークンを圧縮することで情報負荷を削減するVisual Tokenと、前方および後方の両方で言語モデルの不要なレイヤをスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
- 参考スコア(独自算出の注目度): 26.81140959413325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) have demonstrated outstanding performance across a variety of domains. However, training MLLMs is often inefficient due to the significantly longer input sequences introduced by multimodal data and the low utilization of inter-layer computations. To address this challenge, we shift the focus to the training process itself and propose a novel training-efficient framework based on sparse representations, termed the Sparse Training Scheme (STS). This scheme consists of two key components: the Visual Token Compressor, which reduces the information load by compressing visual tokens, and the Layer Dynamic Skipper, which mitigates the computational overhead by dynamically skipping unnecessary layers in the language model during both forward and backward passes. Our approach is broadly applicable to diverse MLLM architectures and has been extensively evaluated on multiple benchmarks, demonstrating its effectiveness and efficiency.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、様々な領域において優れた性能を示す。
しかし、マルチモーダルデータによって導入される入力シーケンスが著しく長く、層間計算の少ないため、MLLMのトレーニングは非効率であることが多い。
この課題に対処するために、私たちはトレーニングプロセス自体に焦点を移し、スパーストレーニングスキーム(STS)と呼ばれるスパース表現に基づく新しいトレーニング効率のフレームワークを提案します。
このスキームは、ビジュアルトークンを圧縮することで情報負荷を低減するVisual Token Compressorと、前方と後方の両方で言語モデルの不要なレイヤを動的にスキップすることで計算オーバーヘッドを軽減するLayer Dynamic Skipperの2つの重要なコンポーネントで構成されている。
本手法は多種多様なMLLMアーキテクチャに適用可能であり,その有効性と効率性を実証し,複数のベンチマークで広く評価されている。
関連論文リスト
- Discrete Tokenization for Multimodal LLMs: A Comprehensive Survey [69.45421620616486]
本研究は、大規模言語モデル(LLM)用に設計された離散トークン化手法の最初の構造的分類と解析である。
古典的および近代的なパラダイムにまたがる8つの代表的なVQ変種を分類し、アルゴリズムの原理を分析し、力学を訓練し、LLMパイプラインとの統合に挑戦する。
コードブックの崩壊、不安定な勾配推定、モダリティ固有の符号化制約など、重要な課題を特定する。
論文 参考訳(メタデータ) (2025-07-21T10:52:14Z) - PUMA: Layer-Pruned Language Model for Efficient Unified Multimodal Retrieval with Modality-Adaptive Learning [54.73049408950049]
モーダリティ適応型学習を伴う効率的な統一マルチモーダル検索のための階層型言語モデルを提案する。
本手法は,構造的,学習的両面からの統合的マルチモーダル検索を改善する。
論文 参考訳(メタデータ) (2025-07-10T16:47:25Z) - Efficient Multi-modal Long Context Learning for Training-free Adaptation [96.21248144937627]
本稿では,マルチモーダル長文脈学習(EMLoC)について紹介する。
モデル入力に直接デモ例を埋め込む。
長いコンテキストのマルチモーダル入力をコンパクトでタスク固有のメモリ表現に凝縮する。
論文 参考訳(メタデータ) (2025-05-26T10:49:44Z) - TAMP: Token-Adaptive Layerwise Pruning in Multimodal Large Language Models [23.916205754112774]
MLLM(Multimodal Large Language Models)は多様なマルチモーダルデータやタスクを理解する上で,優れた汎用性を示している。
本稿では,MLLMに適した簡易かつ効果的な刈取フレームワークであるTAMPを提案する。
我々は、視覚言語タスク用に設計されたLLaVA-NeXTと、音声、視覚、言語モーダルを処理可能なVideoLLaMA2の2つの最先端MLLMに対して、本手法の有効性を検証する。
論文 参考訳(メタデータ) (2025-04-14T05:44:38Z) - Mono-InternVL: Pushing the Boundaries of Monolithic Multimodal Large Language Models with Endogenous Visual Pre-training [48.455597568212944]
マルチモーダル・ミックス・オブ・エキスパート構造を用いて視覚専門家の集合をシームレスに統合するモノリシックMLLMであるMono-InternVLを提案する。
特に、EViPは、ノイズの多いデータから高品質なデータへの視覚的知識を完全に活用することを目的とした、視覚専門家のための進歩的な学習プロセスとして設計されている。
論文 参考訳(メタデータ) (2024-10-10T17:59:22Z) - EE-MLLM: A Data-Efficient and Compute-Efficient Multimodal Large Language Model [15.449472477182061]
視覚と言語相互作用の現在のアプローチは、自己注意に基づく方法と、相互注意に基づく方法の2つのカテゴリに分類される。
MLLMの自己注意機構を複合注意機構に変更した。
EE-MLLMは、限られたトレーニングデータでFlamingoを著しく上回り、H800 GPUでプリフィル時間を79msに短縮する。
本稿では,EE-MLLM-Fという学習不要な変種について述べる。
論文 参考訳(メタデータ) (2024-08-21T17:36:37Z) - SoupLM: Model Integration in Large Language and Multi-Modal Models [51.12227693121004]
大規模言語モデル(LLM)の訓練には、かなりの計算資源が必要である。
既存の公開LLMは通常、さまざまなタスクにまたがる、多種多様なプライベートにキュレートされたデータセットで事前トレーニングされる。
論文 参考訳(メタデータ) (2024-07-11T05:38:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。