論文の概要: MIDAS: Misalignment-based Data Augmentation Strategy for Imbalanced Multimodal Learning
- arxiv url: http://arxiv.org/abs/2509.25831v1
- Date: Tue, 30 Sep 2025 06:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.039597
- Title: MIDAS: Misalignment-based Data Augmentation Strategy for Imbalanced Multimodal Learning
- Title(参考訳): MIDAS:不均衡型マルチモーダル学習のためのミスアライメントに基づくデータ強化戦略
- Authors: Seong-Hyeon Hwang, Soyoung Choi, Steven Euijong Whang,
- Abstract要約: マルチモーダルモデルは、しばしば支配的なモダリティに過度に頼り、最適な性能を達成できなかった。
提案するMIDASは,意味的に整合性のないクロスモーダル情報を用いて,ミスアライメントされたサンプルを生成する新しいデータ拡張戦略である。
複数のマルチモーダル分類ベンチマークの実験により、MIDASはモダリティの不均衡に対処する上で、関連するベースラインを著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 14.06705718861471
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal models often over-rely on dominant modalities, failing to achieve optimal performance. While prior work focuses on modifying training objectives or optimization procedures, data-centric solutions remain underexplored. We propose MIDAS, a novel data augmentation strategy that generates misaligned samples with semantically inconsistent cross-modal information, labeled using unimodal confidence scores to compel learning from contradictory signals. However, this confidence-based labeling can still favor the more confident modality. To address this within our misaligned samples, we introduce weak-modality weighting, which dynamically increases the loss weight of the least confident modality, thereby helping the model fully utilize weaker modality. Furthermore, when misaligned features exhibit greater similarity to the aligned features, these misaligned samples pose a greater challenge, thereby enabling the model to better distinguish between classes. To leverage this, we propose hard-sample weighting, which prioritizes such semantically ambiguous misaligned samples. Experiments on multiple multimodal classification benchmarks demonstrate that MIDAS significantly outperforms related baselines in addressing modality imbalance.
- Abstract(参考訳): マルチモーダルモデルは、しばしば支配的なモダリティに過度に頼り、最適な性能を達成できなかった。
以前の作業では、トレーニング目標や最適化手順の変更に重点を置いていたが、データ中心のソリューションはいまだ検討されていない。
矛盾信号からの学習を強制するために,単調な信頼度スコアを用いてラベル付けされた意味的不整合なクロスモーダル情報で不整合サンプルを生成する新しいデータ拡張戦略MIDASを提案する。
しかし、この自信に基づくラベリングは、より自信のあるモダリティを好むことができる。
これを解決するために, 弱モード重み付けを導入し, 信頼性の低いモダリティの損失重み付けを動的に増加させ, モデルがより弱いモダリティを完全に活用できるようにする。
さらに、アライメントされた特徴がアライメントされた特徴とより類似している場合、これらのアライメントされたサンプルはより大きな課題を生じさせ、モデルがクラスをよりよく区別できるようにする。
これを活用するために,このような意味的不明瞭なミスアライメントを優先するハードサンプル重み付けを提案する。
複数のマルチモーダル分類ベンチマークの実験により、MIDASはモダリティの不均衡に対処する上で、関連するベースラインを著しく上回っていることが示された。
関連論文リスト
- Confidence-Aware Self-Distillation for Multimodal Sentiment Analysis with Incomplete Modalities [15.205192581534973]
マルチモーダル感情分析は、マルチモーダルデータを通して人間の感情を理解することを目的としている。
既存のモダリティの欠如を扱う方法は、データ再構成や共通部分空間投影に基づいている。
マルチモーダルな確率的埋め込みを効果的に組み込んだ信頼性認識型自己蒸留(CASD)戦略を提案する。
論文 参考訳(メタデータ) (2025-06-02T09:48:41Z) - Modality Equilibrium Matters: Minor-Modality-Aware Adaptive Alternating for Cross-Modal Memory Enhancement [13.424541949553964]
そこで本研究では,微調整を適応的に優先順位付けしてバランスを保ち,融合を促進させるシェープリー誘導型交互訓練フレームワークを提案する。
我々は4つのマルチモーダル・ベンチマーク・データセットのバランスと精度の両面での性能評価を行い,その手法がSOTA(State-of-the-art)の結果を達成した。
論文 参考訳(メタデータ) (2025-05-26T02:02:57Z) - PAL: Prompting Analytic Learning with Missing Modality for Multi-Modal Class-Incremental Learning [42.00851701431368]
マルチモーダルクラスインクリメンタルラーニング(MMCIL)は、音声と視覚、画像とテキストのペアのようなマルチモーダルデータを活用する。
重要な課題は、漸進的な学習フェーズにおけるモダリティの欠如である。
PALは, MMCILに適合した, モダリティの欠如を前提とした, 斬新なフレームワークである。
論文 参考訳(メタデータ) (2025-01-16T08:04:04Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。