論文の概要: Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process
- arxiv url: http://arxiv.org/abs/2510.20736v1
- Date: Thu, 23 Oct 2025 16:53:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:18.431525
- Title: Amplifying Prominent Representations in Multimodal Learning via Variational Dirichlet Process
- Title(参考訳): 変分ディリクレプロセスによるマルチモーダル学習における顕著な表現の増幅
- Authors: Tsai Hor Chan, Feng Wu, Yihang Chen, Guosheng Yin, Lequan Yu,
- Abstract要約: ディリクレ過程(DP)混合モデルは、最も顕著な特徴を増幅できる強力な非パラメトリック法である。
本稿では,DP駆動型マルチモーダル学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 55.91649771370862
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Developing effective multimodal fusion approaches has become increasingly essential in many real-world scenarios, such as health care and finance. The key challenge is how to preserve the feature expressiveness in each modality while learning cross-modal interactions. Previous approaches primarily focus on the cross-modal alignment, while over-emphasis on the alignment of marginal distributions of modalities may impose excess regularization and obstruct meaningful representations within each modality. The Dirichlet process (DP) mixture model is a powerful Bayesian non-parametric method that can amplify the most prominent features by its richer-gets-richer property, which allocates increasing weights to them. Inspired by this unique characteristic of DP, we propose a new DP-driven multimodal learning framework that automatically achieves an optimal balance between prominent intra-modal representation learning and cross-modal alignment. Specifically, we assume that each modality follows a mixture of multivariate Gaussian distributions and further adopt DP to calculate the mixture weights for all the components. This paradigm allows DP to dynamically allocate the contributions of features and select the most prominent ones, leveraging its richer-gets-richer property, thus facilitating multimodal feature fusion. Extensive experiments on several multimodal datasets demonstrate the superior performance of our model over other competitors. Ablation analysis further validates the effectiveness of DP in aligning modality distributions and its robustness to changes in key hyperparameters. Code is anonymously available at https://github.com/HKU-MedAI/DPMM.git
- Abstract(参考訳): 効果的なマルチモーダル・フュージョン・アプローチの開発は、医療や金融など多くの現実のシナリオにおいてますます重要になっている。
重要な課題は、モーダル間の相互作用を学習しながら、各モーダルにおける特徴表現性を維持する方法である。
それまでのアプローチは、主にモダリティ間のアライメントに焦点を当てていたが、モダリティの限界分布のアライメントに対する過剰な強調は、過剰な正規化を課し、各モダリティ内の有意義な表現を妨害する可能性がある。
ディリクレ過程(DP)混合モデルは、よりリッチ・ゲッツ・リッチな性質によって最も顕著な特徴を増幅できる強力なベイズ非パラメトリック法である。
DPの特徴に着想を得た新しいDP駆動型マルチモーダル学習フレームワークを提案する。
具体的には、各モジュラリティは多変量ガウス分布の混合に従うと仮定し、さらにDPを用いて全ての成分の混合重みを計算する。
このパラダイムにより、DPは機能への貢献を動的に割り当て、最も顕著なものを選択することができ、よりリッチなゲット・リッチなプロパティを活用し、マルチモーダルな特徴融合を容易にする。
複数のマルチモーダルデータセットに対する大規模な実験は、我々のモデルが他の競合より優れていることを示す。
アブレーション解析により,鍵超パラメータの変化に対するモダリティ分布の整合性およびロバスト性に対するDPの有効性がさらに検証される。
コードはhttps://github.com/HKU-MedAI/DPMM.gitで匿名で入手できる。
関連論文リスト
- Mixup Helps Understanding Multimodal Video Better [12.281180208753021]
マルチモーダルモデルは、学習を支配し、弱いモダリティの貢献を抑制する強力なモダリティを過度に適合させる傾向がある。
本稿では,多モード特徴量レベルでのMultimodal Mixup(MM)戦略を適用し,オーバーフィッティングを緩和する手法を提案する。
また,学習目標に対する相対的貢献に基づいて,各モードの混合比を動的に調整するバランスド・マルチモーダル・ミックスアップ(B-MM)を導入する。
論文 参考訳(メタデータ) (2025-10-13T03:53:25Z) - Principled Multimodal Representation Learning [70.60542106731813]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。
最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。
複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文 参考訳(メタデータ) (2025-07-23T09:12:25Z) - DecAlign: Hierarchical Cross-Modal Alignment for Decoupled Multimodal Representation Learning [18.066105354135058]
マルチモーダル表現学習は、複数のモーダルをまたいだ共有情報と相補的セマンティック情報の両方をキャプチャすることを目的としている。
マルチモーダル表現をモダリティ・ユニク(異種)とモダリティ・コモン(異種)に分離するために設計された,新しい階層的クロスモーダルアライメントフレームワークであるDecAlignを紹介する。
広く使われている4つのマルチモーダルベンチマーク実験により、DecAlignは既存の最先端手法を一貫して上回っていることが示された。
論文 参考訳(メタデータ) (2025-03-14T21:47:48Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Balancing Multimodal Training Through Game-Theoretic Regularization [26.900302082724295]
マルチモーダル学習は、データソース間の依存関係をキャプチャすることで、よりリッチな情報抽出を約束する。
しかし、現在のトレーニング手法は、しばしばモダリティの競争によって性能が低下する。
本稿では、相互情報分解(MI)に触発されたMCR(Multimodal Competition Regularizer)を提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。