論文の概要: Improving Multimodal Learning with Multi-Loss Gradient Modulation
- arxiv url: http://arxiv.org/abs/2405.07930v2
- Date: Mon, 14 Oct 2024 08:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:03:27.919520
- Title: Improving Multimodal Learning with Multi-Loss Gradient Modulation
- Title(参考訳): マルチロスグラディエント変調によるマルチモーダル学習の改善
- Authors: Konstantinos Kontras, Christos Chatzichristos, Matthew Blaschko, Maarten De Vos,
- Abstract要約: 我々は,マルチロス目標を導入し,バランスプロセスをさらに洗練することにより,従来の作業を改善する。
CREMA-Dでは、ResNetエンコーダのバックボーンを持つモデルが、以前の最高値を1.9%から12.4%上回っている。
- 参考スコア(独自算出の注目度): 3.082715511775795
- License:
- Abstract: Learning from multiple modalities, such as audio and video, offers opportunities for leveraging complementary information, enhancing robustness, and improving contextual understanding and performance. However, combining such modalities presents challenges, especially when modalities differ in data structure, predictive contribution, and the complexity of their learning processes. It has been observed that one modality can potentially dominate the learning process, hindering the effective utilization of information from other modalities and leading to sub-optimal model performance. To address this issue the vast majority of previous works suggest to assess the unimodal contributions and dynamically adjust the training to equalize them. We improve upon previous work by introducing a multi-loss objective and further refining the balancing process, allowing it to dynamically adjust the learning pace of each modality in both directions, acceleration and deceleration, with the ability to phase out balancing effects upon convergence. We achieve superior results across three audio-video datasets: on CREMA-D, models with ResNet backbone encoders surpass the previous best by 1.9% to 12.4%, and Conformer backbone models deliver improvements ranging from 2.8% to 14.1% across different fusion methods. On AVE, improvements range from 2.7% to 7.7%, while on UCF101, gains reach up to 6.1%.
- Abstract(参考訳): 音声やビデオなどの複数のモダリティからの学習は、補完的な情報を活用し、堅牢性を高め、文脈理解とパフォーマンスを改善する機会を提供する。
しかし、このようなモダリティを組み合わせることは、特にデータ構造、予測的貢献、学習過程の複雑さが異なる場合の課題となる。
1つのモダリティが学習プロセスを支配する可能性があり、他のモダリティからの情報の有効利用を妨げ、サブ最適モデルの性能をもたらすことが観察されている。
この問題に対処するために、以前のほとんどの研究は、単調な貢献を評価し、トレーニングを平等にするために動的に調整することを提案している。
我々は,多孔性目標を導入し,バランスプロセスをさらに洗練し,収束に伴うバランス効果を段階的に解消し,方向・加速度・減速の両モードの学習速度を動的に調整することで,従来の作業を改善する。
CREMA-Dでは、ResNetのバックボーンエンコーダを持つモデルが1.9%から12.4%、コンバータのバックボーンモデルは2.8%から14.1%の異なるフュージョンメソッドで改善を提供する。
AVEでは2.7%から7.7%、UCF101では6.1%に向上している。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Multimodal Classification via Modal-Aware Interactive Enhancement [6.621745547882088]
モーダル・アウェア・インタラクティブ・エンハンスメント(MIE)と呼ばれる新しいマルチモーダル学習手法を提案する。
具体的には、まず、シャープネス認識最小化(SAM)に基づく最適化戦略を用いて、前フェーズにおける学習目標の円滑化を図る。
そこで, SAMの幾何学的性質の助けを借りて, 逆相における異なるモード間の影響を加味するための勾配修正戦略を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:32:07Z) - Efficient Multiscale Multimodal Bottleneck Transformer for Audio-Video
Classification [6.341420717393898]
我々は,新しいマルチスケールオーディオトランス (MAT) とマルチスケールビデオトランス (MMT) を開発した。
提案されたMATは、3つの公開ベンチマークデータセットでAST[28]を22.2%、4.4%、4.7%で大幅に上回っている。
FLOPの数に基づいて約3%効率が良く、GPUメモリ使用量に基づいて9.8%効率が良い。
論文 参考訳(メタデータ) (2024-01-08T17:02:25Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - RA-DIT: Retrieval-Augmented Dual Instruction Tuning [90.98423540361946]
Retrieval-augmented Language Model (RALMs) は、外部データストアからロングテールおよび最新の知識にアクセスすることで、パフォーマンスを向上させる。
既存のアプローチでは、LM事前トレーニングに高価な検索固有の修正が必要になるか、あるいは、最適以下のパフォーマンスをもたらすデータストアのポストホック統合を使用する必要がある。
本稿では,第3の選択肢を提供する軽量な微調整手法であるRetrieval-Augmented Dual Instruction Tuning (RA-DIT)を紹介する。
論文 参考訳(メタデータ) (2023-10-02T17:16:26Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Weighted Ensemble Self-Supervised Learning [67.24482854208783]
組み立ては、モデルパフォーマンスを高めるための強力なテクニックであることが証明されている。
我々は,データ依存型重み付きクロスエントロピー損失を許容するフレームワークを開発した。
提案手法は、ImageNet-1K上での複数の評価指標において、両者に優れる。
論文 参考訳(メタデータ) (2022-11-18T02:00:17Z) - Diversified Mutual Learning for Deep Metric Learning [42.42997713655545]
相互学習は、一般化を改善するためのアンサンブルトレーニング戦略である。
本研究では,多種多元多元学習(diversified Mutual Metric Learning)と呼ばれる,深層多元学習のための効果的な相互学習手法を提案する。
本手法は個々のモデルとアンサンブルを大幅に改善する。
論文 参考訳(メタデータ) (2020-09-09T09:00:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。