論文の概要: Mixup Helps Understanding Multimodal Video Better
- arxiv url: http://arxiv.org/abs/2510.10986v1
- Date: Mon, 13 Oct 2025 03:53:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.190852
- Title: Mixup Helps Understanding Multimodal Video Better
- Title(参考訳): Mixupはマルチモーダルビデオの理解を深める
- Authors: Xiaoyu Ma, Ding Ding, Hao Chen,
- Abstract要約: マルチモーダルモデルは、学習を支配し、弱いモダリティの貢献を抑制する強力なモダリティを過度に適合させる傾向がある。
本稿では,多モード特徴量レベルでのMultimodal Mixup(MM)戦略を適用し,オーバーフィッティングを緩和する手法を提案する。
また,学習目標に対する相対的貢献に基づいて,各モードの混合比を動的に調整するバランスド・マルチモーダル・ミックスアップ(B-MM)を導入する。
- 参考スコア(独自算出の注目度): 12.281180208753021
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal video understanding plays a crucial role in tasks such as action recognition and emotion classification by combining information from different modalities. However, multimodal models are prone to overfitting strong modalities, which can dominate learning and suppress the contributions of weaker ones. To address this challenge, we first propose Multimodal Mixup (MM), which applies the Mixup strategy at the aggregated multimodal feature level to mitigate overfitting by generating virtual feature-label pairs. While MM effectively improves generalization, it treats all modalities uniformly and does not account for modality imbalance during training. Building on MM, we further introduce Balanced Multimodal Mixup (B-MM), which dynamically adjusts the mixing ratios for each modality based on their relative contributions to the learning objective. Extensive experiments on several datasets demonstrate the effectiveness of our methods in improving generalization and multimodal robustness.
- Abstract(参考訳): マルチモーダルビデオ理解は、異なるモーダルからの情報を組み合わせることで、行動認識や感情分類といったタスクにおいて重要な役割を果たす。
しかし、マルチモーダルモデルは、学習を支配し、弱いモダリティの貢献を抑えることができる強力なモダリティを過度に適合させる傾向がある。
この課題に対処するために、我々はまずMultimodal Mixup(MM)を提案し、これは仮想特徴ラベルペアを生成することでオーバーフィッティングを軽減するために、集約されたマルチモーダル特徴レベルでMixup戦略を適用している。
MMは効果的に一般化を改善するが、全てのモダリティを均一に扱い、トレーニング中にモダリティの不均衡を考慮しない。
さらに,MMに基づいて,学習目標に対する相対的貢献に基づいて,各モードに対する混合比を動的に調整するバランスド・マルチモーダル・ミックスアップ(B-MM)を導入する。
いくつかのデータセットに対する大規模な実験により、一般化とマルチモーダルロバスト性を改善する方法の有効性が示された。
関連論文リスト
- A Robust Incomplete Multimodal Low-Rank Adaptation Approach for Emotion Recognition [17.332141776831513]
マルチモーダル感情認識(MER)は、実用上不完全なマルチモーダルに遭遇することが多い。
そこで本研究では,MCULoRA(MCULoRA)と命名されたモダリティの組み合わせに基づく,一様疎結合な動的低ランク適応手法を提案する。
論文 参考訳(メタデータ) (2025-07-15T11:15:35Z) - Asymmetric Reinforcing against Multi-modal Representation Bias [59.685072206359855]
マルチモーダル表現バイアス(ARM)に対する非対称強化法を提案する。
我々のARMは、条件付き相互情報を通じて支配的なモダリティを表現する能力を維持しながら、弱いモダリティを動的に強化する。
我々はマルチモーダル学習の性能を著しく改善し、不均衡なマルチモーダル学習の軽減に顕著な進展をもたらした。
論文 参考訳(メタデータ) (2025-01-02T13:00:06Z) - Balancing Multimodal Training Through Game-Theoretic Regularization [26.900302082724295]
マルチモーダル学習は、データソース間の依存関係をキャプチャすることで、よりリッチな情報抽出を約束する。
しかし、現在のトレーニング手法は、しばしばモダリティの競争によって性能が低下する。
本稿では、相互情報分解(MI)に触発されたMCR(Multimodal Competition Regularizer)を提案する。
論文 参考訳(メタデータ) (2024-11-11T19:53:05Z) - On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multimodal Instruction Tuning with Conditional Mixture of LoRA [51.58020580970644]
本稿では,Low-Rank Adaption (LoRA) とマルチモーダル命令チューニングを統合した新しい手法を提案する。
各入力インスタンスのユニークな要求に合わせた低ランク適応行列を動的に構築することで、LoRAを革新する。
様々なマルチモーダル評価データセットの実験結果から、MixLoRAは従来のLoRAを同等以上のランクで上回るだけでなく、性能も向上していることが示された。
論文 参考訳(メタデータ) (2024-02-24T20:15:31Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。