論文の概要: Balanced Multimodal Learning via On-the-fly Gradient Modulation
- arxiv url: http://arxiv.org/abs/2203.15332v1
- Date: Tue, 29 Mar 2022 08:26:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-30 12:40:44.980441
- Title: Balanced Multimodal Learning via On-the-fly Gradient Modulation
- Title(参考訳): オンザフライグラディエント変調によるバランス付きマルチモーダル学習
- Authors: Xiaokang Peng, Yake Wei, Andong Deng, Dong Wang and Di Hu
- Abstract要約: マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
学習目標に対する貢献の相違をモニタリングすることで,各モードの最適化を適応的に制御するオンザフライ勾配変調を提案する。
- 参考スコア(独自算出の注目度): 10.5602074277814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning helps to comprehensively understand the world, by
integrating different senses. Accordingly, multiple input modalities are
expected to boost model performance, but we actually find that they are not
fully exploited even when the multimodal model outperforms its uni-modal
counterpart. Specifically, in this paper we point out that existing multimodal
discriminative models, in which uniform objective is designed for all
modalities, could remain under-optimized uni-modal representations, caused by
another dominated modality in some scenarios, e.g., sound in blowing wind
event, vision in drawing picture event, etc. To alleviate this optimization
imbalance, we propose on-the-fly gradient modulation to adaptively control the
optimization of each modality, via monitoring the discrepancy of their
contribution towards the learning objective. Further, an extra Gaussian noise
that changes dynamically is introduced to avoid possible generalization drop
caused by gradient modulation. As a result, we achieve considerable improvement
over common fusion methods on different multimodal tasks, and this simple
strategy can also boost existing multimodal methods, which illustrates its
efficacy and versatility. The source code is available at
\url{https://github.com/GeWu-Lab/OGM-GE_CVPR2022}.
- Abstract(参考訳): マルチモーダル学習は、異なる感覚を統合することで、世界を包括的に理解するのに役立つ。
したがって、複数の入力モダリティはモデル性能を高めることが期待されているが、実際には、マルチモーダルモデルがユニモーダルモデルよりも優れている場合でも、完全には利用されない。
具体的には,一様目的がすべてのモダリティに対して設計されている既存のマルチモーダル識別モデルは,吹風時の音,図面イベントの視覚など,いくつかのシナリオにおいて他の支配的なモダリティによって引き起こされる,過度に最適化されたユニモーダル表現に留まる可能性があることを指摘する。
この最適化の不均衡を緩和するために,学習目標に対する貢献の相違を監視し,各モダリティの最適化を適応的に制御するオンザフライ勾配変調を提案する。
さらに、勾配変調による一般化低下を回避するために、動的に変化するガウス雑音を導入する。
その結果、異なるマルチモーダルタスクにおける共通融合法よりも大幅に改善され、この単純な戦略は既存のマルチモーダルメソッドを向上し、その有効性と汎用性を示している。
ソースコードは \url{https://github.com/gewu-lab/ogm-ge_cvpr2022} で入手できる。
関連論文リスト
- Unleashing Network Potentials for Semantic Scene Completion [50.95486458217653]
本稿では,新しいSSCフレームワーク - Adrial Modality Modulation Network (AMMNet)を提案する。
AMMNetは、モダリティ間の勾配流の相互依存性を可能にするクロスモーダル変調と、動的勾配競争を利用するカスタマイズされた逆トレーニングスキームの2つのコアモジュールを導入している。
AMMNetは最先端のSSC法よりも大きなマージンで優れていた。
論文 参考訳(メタデータ) (2024-03-12T11:48:49Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Exploiting modality-invariant feature for robust multimodal emotion
recognition with missing modalities [76.08541852988536]
我々は、欠落したモダリティ・イマジネーション・ネットワーク(IF-MMIN)に不変な特徴を用いることを提案する。
提案モデルは,不確実なモダリティ条件下で,すべてのベースラインを上回り,全体の感情認識性能を不変に向上することを示す。
論文 参考訳(メタデータ) (2022-10-27T12:16:25Z) - Mitigating Modality Collapse in Multimodal VAEs via Impartial
Optimization [7.4262579052708535]
この効果はマルチモーダルVAEトレーニングにおける勾配の相反の結果である,と我々は主張する。
勾配が矛盾する計算グラフのサブグラフを検出する方法を示す。
実験により,本フレームワークは,モジュール間の遅延空間の再構成性能,条件生成,コヒーレンスを著しく向上させることを示した。
論文 参考訳(メタデータ) (2022-06-09T13:29:25Z) - Improving Multi-Modal Learning with Uni-Modal Teachers [14.917618203952479]
そこで本研究では,融合目標と一様蒸留を組み合わせたマルチモーダル学習手法Uni-Modal Teacherを提案する。
提案手法は,各モードの表現を劇的に改善するだけでなく,総合的なマルチモーダルタスク性能も向上することを示す。
論文 参考訳(メタデータ) (2021-06-21T12:46:47Z) - Optimization-Inspired Learning with Architecture Augmentations and
Control Mechanisms for Low-Level Vision [74.9260745577362]
本稿では,GDC(Generative, Discriminative, and Corrective)の原則を集約する,最適化に着想を得た統合学習フレームワークを提案する。
フレキシブルな組み合わせで最適化モデルを効果的に解くために,3つのプロパゲーティブモジュールを構築した。
低レベル視覚タスクにおける実験は、GDCの有効性と適応性を検証する。
論文 参考訳(メタデータ) (2020-12-10T03:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。