論文の概要: Deep Metric Loss for Multimodal Learning
- arxiv url: http://arxiv.org/abs/2308.10486v1
- Date: Mon, 21 Aug 2023 06:04:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 14:58:30.976161
- Title: Deep Metric Loss for Multimodal Learning
- Title(参考訳): マルチモーダル学習のためのDeep Metric Loss
- Authors: Sehwan Moon and Hyunju Lee
- Abstract要約: マルチモーダル学習のための新しいテキストマルチモーダル損失パラダイムを提案する。
textMultiModal Losは、過剰適合による非効率な学習を防止し、マルチモーダルモデルを効率的に最適化する。
我々の損失は、最近のモデルの性能向上を実証的に示す。
- 参考スコア(独自算出の注目度): 3.8979646385036175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning often outperforms its unimodal counterparts by exploiting
unimodal contributions and cross-modal interactions. However, focusing only on
integrating multimodal features into a unified comprehensive representation
overlooks the unimodal characteristics. In real data, the contributions of
modalities can vary from instance to instance, and they often reinforce or
conflict with each other. In this study, we introduce a novel \text{MultiModal}
loss paradigm for multimodal learning, which subgroups instances according to
their unimodal contributions. \text{MultiModal} loss can prevent inefficient
learning caused by overfitting and efficiently optimize multimodal models. On
synthetic data, \text{MultiModal} loss demonstrates improved classification
performance by subgrouping difficult instances within certain modalities. On
four real multimodal datasets, our loss is empirically shown to improve the
performance of recent models. Ablation studies verify the effectiveness of our
loss. Additionally, we show that our loss generates a reliable prediction score
for each modality, which is essential for subgrouping. Our \text{MultiModal}
loss is a novel loss function to subgroup instances according to the
contribution of modalities in multimodal learning and is applicable to a
variety of multimodal models with unimodal decisions. Our code is available at
https://github.com/SehwanMoon/MultiModalLoss.
- Abstract(参考訳): マルチモーダル学習は、単一モーダル貢献と相互モーダル相互作用を利用して、そのユニモーダル学習よりも優れていることが多い。
しかし、マルチモーダルな特徴を統一的な包括的表現に統合することのみに焦点が当てられている。
実データでは、モダリティの貢献はインスタンスによって異なり、それらはしばしば互いに強化または衝突する。
本研究では,マルチモーダル学習のための新しい\text{multimodal}ロスパラダイムを導入し,そのユニモーダルな貢献に応じてインスタンスをサブグループ化する。
\text{multimodal} 損失は、過剰フィッティングによる非効率な学習を防止し、マルチモーダルモデルを効率的に最適化する。
合成データ上では、 \text{MultiModal} の損失は特定のモダリティ内で難しいインスタンスをサブグループ化することで分類性能の向上を示す。
4つの実マルチモーダルデータセットにおいて,最近のモデルの性能向上を実証的に示す。
アブレーション研究は我々の損失の有効性を検証する。
さらに, この損失は, サブグループ化に欠かせない各モダリティに対して, 信頼性の高い予測スコアを生成することを示す。
我々の‘text{MultiModal}損失は、マルチモーダル学習におけるモダリティの寄与によるサブグループインスタンスに対する新しい損失関数であり、一様決定を伴う様々なマルチモーダルモデルに適用できる。
私たちのコードはhttps://github.com/SehwanMoon/MultiModalLossで利用可能です。
関連論文リスト
- Modality Invariant Multimodal Learning to Handle Missing Modalities: A Single-Branch Approach [29.428067329993173]
そこで本研究では,モダリティの欠落の影響を受けにくい多モーダル学習手法を提案する。
性能を最大化するためにモダリティ間表現を学ぶために、複数のモダリティにまたがる重みを共有するシングルブランチネットワークで構成されている。
提案手法は,すべてのモダリティが存在する場合や,既存の最先端手法と比較して,トレーニングやテスト中にモダリティが欠落する場合に優れた性能が得られる。
論文 参考訳(メタデータ) (2024-08-14T10:32:16Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance [10.580712937465032]
従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。
MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。
また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
論文 参考訳(メタデータ) (2024-05-28T01:19:13Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Robust Multimodal Learning with Missing Modalities via Parameter-Efficient Adaptation [16.17270247327955]
本稿では,事前学習型マルチモーダルネットワークに対するシンプルでパラメータ効率の良い適応手法を提案する。
このような適応は、モダリティの欠如による性能低下を部分的に補うことができることを示す。
提案手法は,様々なタスクやデータセットにまたがる汎用性を実証し,モダリティの欠如による頑健なマルチモーダル学習法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T03:04:21Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - A Study of Syntactic Multi-Modality in Non-Autoregressive Machine
Translation [144.55713938260828]
非自己回帰的翻訳モデルでは、ターゲット翻訳のマルチモーダル分布を捉えることは困難である。
我々はこれを短距離および長距離の構文的マルチモーダルに分解し、高度な損失関数を持つ最近のNATアルゴリズムを評価した。
我々は,実世界のデータセットにおいて,複雑な構文的多モード性を扱うために,新たな損失関数を設計する。
論文 参考訳(メタデータ) (2022-07-09T06:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。