論文の概要: PMR: Prototypical Modal Rebalance for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2211.07089v1
- Date: Mon, 14 Nov 2022 03:36:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-15 19:08:50.939245
- Title: PMR: Prototypical Modal Rebalance for Multimodal Learning
- Title(参考訳): PMR:マルチモーダルラーニングのための原型モーダルリバランス
- Authors: Yunfeng Fan, Wenchao Xu, Haozhao Wang, Junxiao Wang, and Song Guo
- Abstract要約: 本稿では,PMR(Prototypeal Modality Re Balance)を提案する。
本手法は,各モードの表現にのみ依存し,モデル構造や融合法からの制約を伴わない。
- 参考スコア(独自算出の注目度): 11.5547414386921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal learning (MML) aims to jointly exploit the common priors of
different modalities to compensate for their inherent limitations. However,
existing MML methods often optimize a uniform objective for different
modalities, leading to the notorious "modality imbalance" problem and
counterproductive MML performance. To address the problem, some existing
methods modulate the learning pace based on the fused modality, which is
dominated by the better modality and eventually results in a limited
improvement on the worse modal. To better exploit the features of multimodal,
we propose Prototypical Modality Rebalance (PMR) to perform stimulation on the
particular slow-learning modality without interference from other modalities.
Specifically, we introduce the prototypes that represent general features for
each class, to build the non-parametric classifiers for uni-modal performance
evaluation. Then, we try to accelerate the slow-learning modality by enhancing
its clustering toward prototypes. Furthermore, to alleviate the suppression
from the dominant modality, we introduce a prototype-based entropy
regularization term during the early training stage to prevent premature
convergence. Besides, our method only relies on the representations of each
modality and without restrictions from model structures and fusion methods,
making it with great application potential for various scenarios.
- Abstract(参考訳): マルチモーダルラーニング (MML) は、異なるモダリティの共通の先行を共同で活用し、それらの固有の制約を補うことを目的としている。
しかし、既存のMML手法は、しばしば異なるモダリティに対して一様目的を最適化し、悪名高い「モダリティの不均衡」問題と反生産的なMML性能をもたらす。
この問題に対処するため、既存の手法では、より優れたモダリティに支配される融合モダリティに基づいて学習ペースを変調し、最終的には悪いモダリティを限定的に改善する。
マルチモーダルの特徴をよりうまく活用するため,我々は,他のモダリティに干渉することなく,特定のスローラーニングモダリティに対する刺激を行うためのpmr(prototypical modality rebalance)を提案する。
具体的には、各クラスの一般的な特徴を表すプロトタイプを紹介し、ユニモーダル性能評価のための非パラメトリック分類器を構築する。
次に,プロトタイプへのクラスタリングを強化することで,学習速度の遅いモダリティを加速する。
さらに,支配的モダリティからの抑制を緩和するため,早期学習期にプロトタイプベースのエントロピー正規化項を導入し,早期収束を防ぐ。
さらに,本手法は各モダリティの表現にのみ依存し,モデル構造や融合手法の制約を伴わないため,様々なシナリオに適用できる可能性も高い。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multimodal Classification via Modal-Aware Interactive Enhancement [6.621745547882088]
モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。
具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。
そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:32:07Z) - Dealing with All-stage Missing Modality: Towards A Universal Model with Robust Reconstruction and Personalization [14.606035444283984]
現在のアプローチでは、推論中にモダリティ不完全入力を処理するモデルの開発に重点を置いている。
本稿では、モダリティ再構成とモデルパーソナライゼーションを備えた頑健な普遍モデルを提案する。
本手法は2つの脳腫瘍セグメンテーションベンチマークで広範囲に検証されている。
論文 参考訳(メタデータ) (2024-06-04T06:07:24Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Permutation Invariant Policy Optimization for Mean-Field Multi-Agent
Reinforcement Learning: A Principled Approach [128.62787284435007]
本稿では,平均場近似ポリシ最適化(MF-PPO)アルゴリズムを提案する。
我々は,MF-PPOが収束のサブ線形速度で世界的最適政策を達成することを証明した。
特に、置換不変ニューラルアーキテクチャによって引き起こされる誘導バイアスは、MF-PPOが既存の競合より優れていることを示す。
論文 参考訳(メタデータ) (2021-05-18T04:35:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。