論文の概要: UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2305.09299v1
- Date: Tue, 16 May 2023 09:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 15:36:18.820436
- Title: UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning
- Title(参考訳): unis-mmc:unimodality-supervised multimodal contrastive learningによるマルチモーダル分類
- Authors: Heqing Zou, Meng Shen, Chen Chen, Yuchen Hu, Deepu Rajan, Eng Siong
Chng
- Abstract要約: 本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 29.237813880311943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning aims to imitate human beings to acquire complementary
information from multiple modalities for various downstream tasks. However,
traditional aggregation-based multimodal fusion methods ignore the
inter-modality relationship, treat each modality equally, suffer sensor noise,
and thus reduce multimodal learning performance. In this work, we propose a
novel multimodal contrastive method to explore more reliable multimodal
representations under the weak supervision of unimodal predicting.
Specifically, we first capture task-related unimodal representations and the
unimodal predictions from the introduced unimodal predicting task. Then the
unimodal representations are aligned with the more effective one by the
designed multimodal contrastive method under the supervision of the unimodal
predictions. Experimental results with fused features on two image-text
classification benchmarks UPMC-Food-101 and N24News show that our proposed
Unimodality-Supervised MultiModal Contrastive UniS-MMC learning method
outperforms current state-of-the-art multimodal methods. The detailed ablation
study and analysis further demonstrate the advantage of our proposed method.
- Abstract(参考訳): マルチモーダル学習(multimodal learning)は、人間を模倣し、様々な下流タスクの複数のモダリティから補完的な情報を取得することを目的としている。
しかしながら、従来の集約型マルチモーダル融合法は、モダリティ間の関係を無視し、各モダリティを等しく扱い、センサノイズを被り、マルチモーダル学習性能を低下させる。
本研究では,一助予測の弱監督下で,より信頼性の高いマルチモーダル表現を探索する新しいマルチモーダルコントラスト法を提案する。
具体的には、まずタスクに関連する一助予測と、導入した一助予測タスクから一助予測をキャプチャする。
そして、一乗予測の監督の下で、設計したマルチモーダルコントラスト法により、一乗表現をより効果的に整列する。
UPMC-Food-101 と N24News の2つの画像テキスト分類ベンチマークにおける融合特徴による実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることを示す。
詳細なアブレーション研究と分析により,提案手法の利点がさらに示された。
関連論文リスト
- Multimodal Representation Learning by Alternating Unimodal Adaptation [79.9201824151389]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
推論フェーズの間、MLAはテスト時間不確実性に基づくモデル融合機構を使用して、マルチモーダル情報を統合する。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Improving Unimodal Inference with Multimodal Transformers [88.83765002648833]
提案手法は,マルチモーダルトランスフォーマーをベースとした単一モーダルモデルを組み込んだマルチブランチアーキテクチャである。
これらの枝を共に訓練することにより、より強いマルチモーダル枝は、その知識をより弱いユニモーダル枝にマルチタスクの目的を通して移すことができる。
本稿では,RGBとDepthに基づく動的手動作認識,音声・顔画像に基づく音声視覚的感情認識,音声・音声音声による感情分析の課題について検討する。
論文 参考訳(メタデータ) (2023-11-16T19:53:35Z) - Self-MI: Efficient Multimodal Fusion via Self-Supervised Multi-Task
Learning with Auxiliary Mutual Information Maximization [2.4660652494309936]
マルチモーダル表現学習は重要な課題である。
既存の手法は、しばしば各モダリティの固有の特性を利用するのに苦労する。
本研究では,自己教師型学習方式のセルフMIを提案する。
論文 参考訳(メタデータ) (2023-11-07T08:10:36Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。