論文の概要: Understanding and Harnessing Sparsity in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2512.02351v1
- Date: Tue, 02 Dec 2025 02:47:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.69457
- Title: Understanding and Harnessing Sparsity in Unified Multimodal Models
- Title(参考訳): 統一マルチモーダルモデルにおける空間の理解と調和
- Authors: Shwai He, Chaorui Deng, Ang Li, Shen Yan,
- Abstract要約: 大規模なマルチモーダルモデルは、理解と生成の両方において顕著な進歩を遂げた。
最近の取り組みは、単一のフレームワーク内で両方の機能をサポートするために異種コンポーネントを統合する統合マルチモーダルモデルを模索している。
しかし、これらの非効率性がどのように異なるコンポーネントにまたがって現れるかという体系的な理解は依然として限られている。
- 参考スコア(独自算出の注目度): 32.09095929575726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large multimodal models have achieved remarkable progress in both understanding and generation. Recent efforts pursue unified multimodal models that integrate heterogeneous components to support both capabilities within a single framework. However, such unification introduces inference inefficiencies, e.g., specific tasks or samples may not require the full knowledge or capacity of the unified model. Yet, a systematic understanding of how these inefficiencies manifest across different components remains limited. In this work, we first conduct a systematic analysis of unified multimodal model components using training-free pruning as a probing methodology, considering both depth pruning and width reduction. Our study reveals that the understanding component exhibits notable compressibility in both understanding and generation tasks, which is more pronounced in the latter. In contrast, the generation components are highly sensitive to compression, with performance deteriorating sharply even under moderate compression ratios. To address this limitation, we propose the Mixture-of-Experts (MoE) Adaptation, inspired by the dynamic activation patterns observed across different samples. This approach partitions the generation module into multiple experts and enables sparse activation to restore generation quality. We validate the effectiveness of sparse activation through expert-frozen tuning and further demonstrate that a fully trainable adaptation delivers additional gains. As a result, the adapted BAGEL model achieves performance comparable to the full model while activating only about half of its parameters. The code is released at \href{https://github.com/Shwai-He/SparseUnifiedModel}{this link}.
- Abstract(参考訳): 大規模なマルチモーダルモデルは、理解と生成の両方において顕著な進歩を遂げた。
最近の取り組みは、単一のフレームワーク内で両方の機能をサポートするために異種コンポーネントを統合する統合マルチモーダルモデルを模索している。
しかし、そのような統合は推論の非効率性、例えば特定のタスクやサンプルは統一モデルの完全な知識や能力を必要としないかもしれない。
しかし、これらの非効率性がどのように異なるコンポーネントにまたがって現れるかという体系的な理解は依然として限られている。
本研究では,まず,深度プルーニングと幅縮小の両方を考慮して,トレーニングフリープルーニングを探索手法として用いた統一マルチモーダルモデルコンポーネントの系統的解析を行う。
本研究により, 理解コンポーネントは, 理解タスクと生成タスクの両方において顕著な圧縮性を示すことが明らかとなった。
対照的に、生成部品は圧縮に非常に敏感であり、中程度の圧縮比でも性能が著しく低下する。
この制限に対処するために、異なるサンプル間で観察される動的アクティベーションパターンに着想を得たMixture-of-Experts (MoE) Adaptationを提案する。
このアプローチでは、生成モジュールを複数の専門家に分割し、スパースアクティベーションによって生成品質の回復を可能にする。
我々は、エキスパートフリーズチューニングによるスパースアクティベーションの有効性を検証し、さらに、完全にトレーニング可能な適応が追加の利得をもたらすことを実証する。
結果として、適応されたBAGELモデルは、そのパラメータの約半分を活性化しながら、フルモデルに匹敵するパフォーマンスを達成する。
コードは \href{https://github.com/Shwai-He/SparseUnifiedModel}{this link} でリリースされる。
関連論文リスト
- Filling the Gaps: A Multitask Hybrid Multiscale Generative Framework for Missing Modality in Remote Sensing Semantic Segmentation [28.992992584085787]
マルチモーダル学習は、通常の単調モデルと比較して大きな性能向上を示した。
現実のシナリオでは、センサーの故障と悪天候のためにマルチモーダル信号が欠落する可能性がある。
本稿では,これらの制約に対処するために,GEMMNet(Generative-Enhanced MultiModal Learning Network)を提案する。
論文 参考訳(メタデータ) (2025-09-14T05:40:35Z) - OneCAT: Decoder-Only Auto-Regressive Model for Unified Understanding and Generation [91.45421429922506]
OneCATは、理解、生成、編集をシームレスに統合する統合マルチモーダルモデルである。
我々のフレームワークは、推論中に視覚変換器(ViT)や視覚トークン化器などの外部コンポーネントを不要にする。
論文 参考訳(メタデータ) (2025-09-03T17:29:50Z) - Scaling Laws for Native Multimodal Models [53.490942903659565]
我々は、ネイティブマルチモーダルモデルのアーキテクチャ設計を再考し、広範なスケーリング法の研究を行う。
我々の調査では、早期核融合アーキテクチャよりも後期核融合アーキテクチャに固有の利点は示されていない。
モデルにMixture of Experts(MoEs)を組み込むことで、モデルがモダリティ固有の重みを学習し、性能を著しく向上できることを示す。
論文 参考訳(メタデータ) (2025-04-10T17:57:28Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。