論文の概要: Boosting Multi-modal Model Performance with Adaptive Gradient Modulation
- arxiv url: http://arxiv.org/abs/2308.07686v1
- Date: Tue, 15 Aug 2023 10:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:22:30.582614
- Title: Boosting Multi-modal Model Performance with Adaptive Gradient Modulation
- Title(参考訳): 適応勾配変調によるマルチモーダルモデルの性能向上
- Authors: Hong Li, Xingyu Li, Pengbo Hu, Yinuo Lei, Chunxiao Li, Yi Zhou
- Abstract要約: マルチモーダルモデルの性能を向上させる適応的勾配変調法を提案する。
競争力を測定するための新しい指標も導入する。
我々の結果は、変調がモデルにより情報的モダリティに依存するように促すという直感を裏付けるものである。
- 参考スコア(独自算出の注目度): 16.14273066202982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While the field of multi-modal learning keeps growing fast, the deficiency of
the standard joint training paradigm has become clear through recent studies.
They attribute the sub-optimal performance of the jointly trained model to the
modality competition phenomenon. Existing works attempt to improve the jointly
trained model by modulating the training process. Despite their effectiveness,
those methods can only apply to late fusion models. More importantly, the
mechanism of the modality competition remains unexplored. In this paper, we
first propose an adaptive gradient modulation method that can boost the
performance of multi-modal models with various fusion strategies. Extensive
experiments show that our method surpasses all existing modulation methods.
Furthermore, to have a quantitative understanding of the modality competition
and the mechanism behind the effectiveness of our modulation method, we
introduce a novel metric to measure the competition strength. This metric is
built on the mono-modal concept, a function that is designed to represent the
competition-less state of a modality. Through systematic investigation, our
results confirm the intuition that the modulation encourages the model to rely
on the more informative modality. In addition, we find that the jointly trained
model typically has a preferred modality on which the competition is weaker
than other modalities. However, this preferred modality need not dominate
others. Our code will be available at
https://github.com/lihong2303/AGM_ICCV2023.
- Abstract(参考訳): マルチモーダル学習の分野は急速に成長しているが,最近の研究により,標準合同学習パラダイムの欠如が明らかになっている。
彼らは、合同訓練モデルの最適性能をモダリティ競争現象と定義している。
既存の作業は、トレーニングプロセスを調整することによって、合同訓練モデルを改善することを試みる。
有効性にもかかわらず、これらの手法は後期融合モデルにしか適用できない。
さらに重要なことは、モダリティ競争のメカニズムは未解明のままである。
本稿では,様々な融合戦略を持つ多モードモデルの性能を向上させる適応的勾配変調法を提案する。
実験の結果,提案手法は既存の変調法を超越していることがわかった。
さらに,モダリティ競争の定量的理解と,変調法の有効性の背景となるメカニズムを考察するために,競技強度を測定するための新しい指標を導入する。
この計量はモノモダルの概念に基づいており、モダリティの競合のない状態を表すように設計された関数である。
系統的調査を通じて,変調がモデルにより有意義なモダリティに依存するよう促すという直観を検証した。
さらに、共同で訓練されたモデルは典型的には、競合が他のモダリティよりも弱い、好ましいモダリティを持つ。
しかし、この好ましいモダリティは他のものを支配する必要はない。
私たちのコードはhttps://github.com/lihong2303/agm_iccv2023で利用可能です。
関連論文リスト
- On-the-fly Modulation for Balanced Multimodal Learning [53.616094855778954]
マルチモーダル学習は、異なるモーダルからの情報を統合することでモデル性能を向上させることが期待されている。
広く使われている共同トレーニング戦略は、不均衡で最適化されていないユニモーダル表現につながる。
そこで本研究では,OGM(On-the-fly Prediction Modulation)とOGM(On-the-fly Gradient Modulation)の戦略を提案する。
論文 参考訳(メタデータ) (2024-10-15T13:15:50Z) - Leveraging Weak Cross-Modal Guidance for Coherence Modelling via Iterative Learning [66.28872204574648]
クロスモーダル・コヒーレンス・モデリングは、知的なシステムが情報を整理し構造化するのに不可欠である。
クロスモーダル・コヒーレンス・モデリングに関するこれまでの研究は、目標モーダルのコヒーレンス回復を支援するために、他のモーダルからの順序情報を活用することを試みた。
本報告では,コヒーレンシーに金のラベルを付けることなく,クロスモーダルガイダンスを活用する新しい手法について検討する。
論文 参考訳(メタデータ) (2024-08-01T06:04:44Z) - ReconBoost: Boosting Can Achieve Modality Reconcilement [89.4377895465204]
我々は、調和を達成するために、モダリティ代替学習パラダイムについて研究する。
固定モードを毎回更新するReconBoostと呼ばれる新しい手法を提案する。
提案手法はFriedman's Gradient-Boosting (GB) アルゴリズムに似ており,更新された学習者が他者による誤りを訂正できることを示す。
論文 参考訳(メタデータ) (2024-05-15T13:22:39Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Towards Good Practices for Missing Modality Robust Action Recognition [20.26021126604409]
本稿では,マルチモーダル動作認識のための一連のベストプラクティスを提案する。
トレーニング中にモデルを効果的に正規化する方法を研究する。
第二に、欠落したモダリティに対するロバスト性のための融合法について検討する。
第3に、モダリティ予測符号の欠如を学習する単純なモジュラーネットワークであるActionMAEを提案する。
論文 参考訳(メタデータ) (2022-11-25T06:10:57Z) - PMR: Prototypical Modal Rebalance for Multimodal Learning [11.5547414386921]
本稿では,PMR(Prototypeal Modality Re Balance)を提案する。
本手法は,各モードの表現にのみ依存し,モデル構造や融合法からの制約を伴わない。
論文 参考訳(メタデータ) (2022-11-14T03:36:05Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z) - Balanced Multimodal Learning via On-the-fly Gradient Modulation [10.5602074277814]
マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
論文 参考訳(メタデータ) (2022-03-29T08:26:38Z) - Mutual Modality Learning for Video Action Classification [74.83718206963579]
ビデオアクション分類のための単一モデルにマルチモーダルを組み込む方法を示す。
我々はSomething-v2ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2020-11-04T21:20:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。