論文の概要: Multimodal Representation Learning by Alternating Unimodal Adaptation
- arxiv url: http://arxiv.org/abs/2311.10707v2
- Date: Mon, 1 Apr 2024 16:56:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:13:26.544614
- Title: Multimodal Representation Learning by Alternating Unimodal Adaptation
- Title(参考訳): 交互一様適応によるマルチモーダル表現学習
- Authors: Xiaohui Zhang, Jaehong Yoon, Mohit Bansal, Huaxiu Yao,
- Abstract要約: MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
- 参考スコア(独自算出の注目度): 73.15829571740866
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning, which integrates data from diverse sensory modes, plays a pivotal role in artificial intelligence. However, existing multimodal learning methods often struggle with challenges where some modalities appear more dominant than others during multimodal learning, resulting in suboptimal performance. To address this challenge, we propose MLA (Multimodal Learning with Alternating Unimodal Adaptation). MLA reframes the conventional joint multimodal learning process by transforming it into an alternating unimodal learning process, thereby minimizing interference between modalities. Simultaneously, it captures cross-modal interactions through a shared head, which undergoes continuous optimization across different modalities. This optimization process is controlled by a gradient modification mechanism to prevent the shared head from losing previously acquired information. During the inference phase, MLA utilizes a test-time uncertainty-based model fusion mechanism to integrate multimodal information. Extensive experiments are conducted on five diverse datasets, encompassing scenarios with complete modalities and scenarios with missing modalities. These experiments demonstrate the superiority of MLA over competing prior approaches. Our code is available at https://github.com/Cecile-hi/Multimodal-Learning-with-Alternating-Unimodal-Adaptation.
- Abstract(参考訳): 多様な感覚モードのデータを統合するマルチモーダル学習は、人工知能において重要な役割を果たす。
しかし、既存のマルチモーダル学習手法は、多モーダル学習において、あるモーダルが他のモーダルよりも優位に現れるような課題に苦しむことが多く、結果として準最適性能をもたらす。
この課題に対処するため,MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、従来の共同マルチモーダル学習プロセスを再編成し、モダリティ間の干渉を最小限に抑える。
同時に、異なるモード間で連続的な最適化を行う共有ヘッドを通じて、クロスモーダルな相互作用をキャプチャする。
この最適化プロセスは、共有ヘッドが以前取得した情報を失うのを防止するために、勾配修正機構により制御される。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
大規模な実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
これらの実験は、競合する先行アプローチよりもMLAの方が優れていることを示す。
私たちのコードはhttps://github.com/Cecile-hi/Multimodal-Learning-with-Alternating-Unimodal-Adaptationで利用可能です。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - MMPareto: Boosting Multimodal Learning with Innocent Unimodal Assistance [10.580712937465032]
従来無視されていた多モーダル学習目標と単モーダル学習目標との勾配の衝突を同定する。
MMParetoアルゴリズムを提案することで、学習目的に共通する方向の最終的な勾配を確保することができる。
また,タスクの難易度に明確な相違点のあるマルチタスクケースも容易に行えることが期待されている。
論文 参考訳(メタデータ) (2024-05-28T01:19:13Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Generalizing Multimodal Variational Methods to Sets [35.69942798534849]
本稿では,マルチモーダル潜在空間を学習するために,Set Multimodal VAE(SMVAE)と呼ばれる新しい変分法を提案する。
共同モダリティ後部分布を直接モデル化することにより、提案したSMVAEは、複数のモダリティ間で情報を交換し、分解による欠点を補うことを学習する。
論文 参考訳(メタデータ) (2022-12-19T23:50:19Z) - Channel Exchanging Networks for Multimodal and Multitask Dense Image
Prediction [125.18248926508045]
本稿では,マルチモーダル融合とマルチタスク学習の両方に適用可能な,自己適応的でパラメータフリーなチャネル交換ネットワーク(CEN)を提案する。
CENは異なるモダリティのワーク間でチャネルを動的に交換する。
濃密な画像予測を応用するために、CENの有効性は4つの異なるシナリオで検証される。
論文 参考訳(メタデータ) (2021-12-04T05:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。