論文の概要: Shaping Initial State Prevents Modality Competition in Multi-modal Fusion: A Two-stage Scheduling Framework via Fast Partial Information Decomposition
- arxiv url: http://arxiv.org/abs/2509.20840v1
- Date: Thu, 25 Sep 2025 07:27:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.753832
- Title: Shaping Initial State Prevents Modality Competition in Multi-modal Fusion: A Two-stage Scheduling Framework via Fast Partial Information Decomposition
- Title(参考訳): マルチモーダル核融合における初期状態の形成によるモダリティ競争:高速部分情報分解による2段階スケジューリングフレームワーク
- Authors: Jiaqi Tang, Yinsong Xu, Yang Liu, Qingchao Chen,
- Abstract要約: マルチモーダル・フュージョンは、関節トレーニング中にしばしばモダリティ・コンペティションに悩まされる。
共同トレーニングの前に一助訓練により初期状態を形作るための2段階トレーニングフレームワークを導入する。
- 参考スコア(独自算出の注目度): 20.41496828333741
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-modal fusion often suffers from modality competition during joint training, where one modality dominates the learning process, leaving others under-optimized. Overlooking the critical impact of the model's initial state, most existing methods address this issue during the joint learning stage. In this study, we introduce a two-stage training framework to shape the initial states through unimodal training before the joint training. First, we propose the concept of Effective Competitive Strength (ECS) to quantify a modality's competitive strength. Our theoretical analysis further reveals that properly shaping the initial ECS by unimodal training achieves a provably tighter error bound. However, ECS is computationally intractable in deep neural networks. To bridge this gap, we develop a framework comprising two core components: a fine-grained computable diagnostic metric and an asynchronous training controller. For the metric, we first prove that mutual information(MI) is a principled proxy for ECS. Considering MI is induced by per-modality marginals and thus treats each modality in isolation, we further propose FastPID, a computationally efficient and differentiable solver for partial information decomposition, which decomposes the joint distribution's information into fine-grained measurements: modality-specific uniqueness, redundancy, and synergy. Guided by these measurements, our asynchronous controller dynamically balances modalities by monitoring uniqueness and locates the ideal initial state to start joint training by tracking peak synergy. Experiments on diverse benchmarks demonstrate that our method achieves state-of-the-art performance. Our work establishes that shaping the pre-fusion models' initial state is a powerful strategy that eases competition before it starts, reliably unlocking synergistic multi-modal fusion.
- Abstract(参考訳): マルチモーダル融合は、あるモダリティが学習過程を支配し、他のモダリティが過度に最適化されたままである共同訓練において、しばしばモダリティ競争に悩まされる。
モデルの初期状態の重大な影響を見越すと、既存のほとんどの方法は、共同学習の段階でこの問題に対処する。
本研究では,共同トレーニングの前に一助訓練により初期状態を形成するための2段階トレーニングフレームワークを提案する。
まず,モダリティの競合強度を定量化するために,実効競争力(ECS)の概念を提案する。
理論解析により, 初期ECSを適度に整形することで, より厳密な誤差境界が得られることが明らかになった。
しかし、ECSはディープニューラルネットワークでは計算処理が可能である。
このギャップを埋めるために、我々は2つのコアコンポーネント(きめ細かい計算可能な診断基準と非同期トレーニングコントローラ)からなるフレームワークを開発する。
計量について、まず相互情報(MI)がECSの原則的プロキシであることを証明する。
さらに, MI はモダリティごとの限界によって誘導されるので, それぞれのモダリティを分離して処理する。FastPID は, 計算効率が良く, 偏微分可能な部分情報分解解法であり, 関節分布の情報を細粒度に分解し, モーダリティ固有の特異性, 冗長性, シナジーの2つに分解する。
これらの測定によって導かれた非同期制御器は、特異性を監視してモダリティを動的にバランスさせ、ピークシナジーを追跡することでジョイントトレーニングを開始するための理想的な初期状態を特定する。
各種ベンチマーク実験により,本手法が最先端性能を実現することを示す。
我々の研究は、プレフュージョンモデルの初期状態を形成することが、開始前に競争を緩和し、シナジスティックなマルチモーダル核融合を確実に解き放つ強力な戦略であることを証明している。
関連論文リスト
- Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - Will Pre-Training Ever End? A First Step Toward Next-Generation Foundation MLLMs via Self-Improving Systematic Cognition [89.50068130832635]
自己改善認知 (SIcog) は、マルチモーダル知識によって次世代のMLLMを構築するための自己学習フレームワークである。
ステップバイステップの視覚的理解のためのChain-of-Descriptionを提案し、詳細なマルチモーダル推論をサポートするために構造化されたChain-of-Thought(CoT)推論を統合する。
実験は、マルチモーダル認知を増強したMLLMの開発におけるSIcogの有効性を示す。
論文 参考訳(メタデータ) (2025-03-16T00:25:13Z) - Multimodal Fusion Balancing Through Game-Theoretic Regularization [22.959030061257533]
アンサンブルのような単純なベースラインを超越したマルチモーダルモデルの訓練には,現在のバランス手法が苦戦していることを示す。
マルチモーダルトレーニングにおけるすべてのモダリティが十分にトレーニングされていること、新しいモダリティからの学習が一貫してパフォーマンスを改善することを保証するにはどうすればよいのか?
本稿では,相互情報(MI)分解にインスパイアされた新たな損失成分であるMCRを提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Simplifying Distributed Neural Network Training on Massive Graphs:
Randomized Partitions Improve Model Aggregation [23.018715954992352]
本稿では、前述のコスト操作に依存しない分散GNNトレーニングのための簡易フレームワークを提案する。
具体的には,トレーニンググラフの局所的に利用可能な部分の局所モデルを非同期に学習する独立したトレーナーを編成する。
最大13億エッジのソーシャルおよびeコマースネットワークの実験において、提案したRandomTMAおよびSuperTMAアプローチは、最速のベースラインと比較して最先端のパフォーマンスと2.31倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2023-05-17T01:49:44Z) - CoopInit: Initializing Generative Adversarial Networks via Cooperative
Learning [50.90384817689249]
CoopInitは、協力的な学習ベースの戦略で、GANにとって良い出発点を素早く学べる。
本稿では,画像生成における提案手法の有効性を示す。
論文 参考訳(メタデータ) (2023-03-21T07:49:32Z) - Modality Competition: What Makes Joint Training of Multi-modal Network
Fail in Deep Learning? (Provably) [75.38159612828362]
最高のユニモーダルネットワークは、共同で訓練されたマルチモーダルネットワークよりも優れていることが観察されている。
この研究は、ニューラルネットワークにおけるそのようなパフォーマンスギャップの出現に関する理論的な説明を提供する。
論文 参考訳(メタデータ) (2022-03-23T06:21:53Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。