論文の概要: BTW: A Non-Parametric Variance Stabilization Framework for Multimodal Model Integration
- arxiv url: http://arxiv.org/abs/2508.18551v1
- Date: Mon, 25 Aug 2025 23:00:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.623327
- Title: BTW: A Non-Parametric Variance Stabilization Framework for Multimodal Model Integration
- Title(参考訳): BTW:マルチモーダルモデル統合のための非パラメトリック変数安定化フレームワーク
- Authors: Jun Hou, Le Wang, Xuan Wang,
- Abstract要約: トレーニング中のモダリティ重要度を動的に調整するために,BTW(Beyond Two-modality Weighting)を提案する。
BTWは、各ユニモーダルと現在のマルチモーダル予測とのばらつきを測定することで、サンプル毎のKL重みを計算する。
本手法は回帰性能と多クラス分類精度を大幅に向上させる。
- 参考スコア(独自算出の注目度): 20.600001069987318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Mixture-of-Experts (MoE) models have become increasingly powerful in multimodal learning by enabling modular specialization across modalities. However, their effectiveness remains unclear when additional modalities introduce more noise than complementary information. Existing approaches, such as the Partial Information Decomposition, struggle to scale beyond two modalities and lack the resolution needed for instance-level control. We propose Beyond Two-modality Weighting (BTW), a bi-level, non-parametric weighting framework that combines instance-level Kullback-Leibler (KL) divergence and modality-level mutual information (MI) to dynamically adjust modality importance during training. Our method does not require additional parameters and can be applied to an arbitrary number of modalities. Specifically, BTW computes per-example KL weights by measuring the divergence between each unimodal and the current multimodal prediction, and modality-wide MI weights by estimating global alignment between unimodal and multimodal outputs. Extensive experiments on sentiment regression and clinical classification demonstrate that our method significantly improves regression performance and multiclass classification accuracy.
- Abstract(参考訳): マルチモーダル学習において,Mixture-of-Experts (MoE) モデルはモジュラリティをまたいだモジュラー特殊化を実現することで,ますます強力になっている。
しかし、追加のモーダルティが相補的な情報よりも多くのノイズをもたらすのかは、まだ不明である。
部分情報分解(Partial Information Decomposition)のような既存のアプローチでは、2つのモダリティを超えてスケールするのが難しく、インスタンスレベルの制御に必要な解決方法が欠如している。
本研究では,2段階の非パラメトリック重み付けフレームワークであるBeyond Two-modality Weighting (BTW)を提案する。
我々の方法は追加のパラメータを必要とせず、任意の数のモダリティに適用できる。
具体的には、BTWは、各ユニモーダルと現在のマルチモーダル予測のばらつきを測定し、一モーダルとマルチモーダルのアウトプットのグローバルアライメントを推定することによって、各ユニモーダルと現在のマルチモーダル予測のばらつきを測定する。
感情回帰および臨床分類に関する広範囲な実験により,本手法は回帰性能と多クラス分類精度を著しく向上させることが示された。
関連論文リスト
- A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition [17.332141776831513]
マルチモーダル感情認識(MER)は、実用上不完全なマルチモーダルに遭遇することが多い。
そこで本研究では,MCULoRA(MCULoRA)と命名されたモダリティの組み合わせに基づく,一様疎結合な動的低ランク適応手法を提案する。
論文 参考訳(メタデータ) (2025-07-15T11:15:35Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - DynCIM: Dynamic Curriculum for Imbalanced Multimodal Learning [15.524342129628957]
DynCIMは、サンプルとモダリティの両方の観点から固有の不均衡を定量化するために設計された、新しい動的カリキュラム学習フレームワークである。
DynCIMは、予測偏差、一貫性、安定性に応じて各サンプルの難易度を動的に評価するために、サンプルレベルのカリキュラムを使用している。
モダリティレベルのカリキュラムは、グローバルおよびローカルからのモダリティ貢献を測定する。
論文 参考訳(メタデータ) (2025-03-09T05:30:15Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。