論文の概要: UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning
- arxiv url: http://arxiv.org/abs/2305.09299v1
- Date: Tue, 16 May 2023 09:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-17 15:36:18.820436
- Title: UniS-MMC: Multimodal Classification via Unimodality-supervised
Multimodal Contrastive Learning
- Title(参考訳): unis-mmc:unimodality-supervised multimodal contrastive learningによるマルチモーダル分類
- Authors: Heqing Zou, Meng Shen, Chen Chen, Yuchen Hu, Deepu Rajan, Eng Siong
Chng
- Abstract要約: 本稿では, より信頼性の高いマルチモーダル表現を, 非モーダル予測の弱い監督下で探索する新しいマルチモーダルコントラスト法を提案する。
2つの画像テキスト分類ベンチマークにおける融合特徴を用いた実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 29.237813880311943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal learning aims to imitate human beings to acquire complementary
information from multiple modalities for various downstream tasks. However,
traditional aggregation-based multimodal fusion methods ignore the
inter-modality relationship, treat each modality equally, suffer sensor noise,
and thus reduce multimodal learning performance. In this work, we propose a
novel multimodal contrastive method to explore more reliable multimodal
representations under the weak supervision of unimodal predicting.
Specifically, we first capture task-related unimodal representations and the
unimodal predictions from the introduced unimodal predicting task. Then the
unimodal representations are aligned with the more effective one by the
designed multimodal contrastive method under the supervision of the unimodal
predictions. Experimental results with fused features on two image-text
classification benchmarks UPMC-Food-101 and N24News show that our proposed
Unimodality-Supervised MultiModal Contrastive UniS-MMC learning method
outperforms current state-of-the-art multimodal methods. The detailed ablation
study and analysis further demonstrate the advantage of our proposed method.
- Abstract(参考訳): マルチモーダル学習(multimodal learning)は、人間を模倣し、様々な下流タスクの複数のモダリティから補完的な情報を取得することを目的としている。
しかしながら、従来の集約型マルチモーダル融合法は、モダリティ間の関係を無視し、各モダリティを等しく扱い、センサノイズを被り、マルチモーダル学習性能を低下させる。
本研究では,一助予測の弱監督下で,より信頼性の高いマルチモーダル表現を探索する新しいマルチモーダルコントラスト法を提案する。
具体的には、まずタスクに関連する一助予測と、導入した一助予測タスクから一助予測をキャプチャする。
そして、一乗予測の監督の下で、設計したマルチモーダルコントラスト法により、一乗表現をより効果的に整列する。
UPMC-Food-101 と N24News の2つの画像テキスト分類ベンチマークにおける融合特徴による実験結果から,提案手法が現在最先端のマルチモーダル手法より優れていることを示す。
詳細なアブレーション研究と分析により,提案手法の利点がさらに示された。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - M$^2$PT: Multimodal Prompt Tuning for Zero-shot Instruction Learning [90.75075886543404]
MLLM(Multimodal Large Language Models)は、幅広い領域にわたる顕著なパフォーマンスを示す。
本研究では,MLLMの効率的な命令チューニングのための新しいMultimodal Prompt Tuning (M$2$PT) 手法を提案する。
論文 参考訳(メタデータ) (2024-09-24T01:40:24Z) - Turbo your multi-modal classification with contrastive learning [17.983460380784337]
本稿では,マルチモーダル理解を促進するために,$Turbo$と呼ばれる新しいコントラスト学習戦略を提案する。
具体的には、マルチモーダルデータペアは、異なる隠されたドロップアウトマスクでフォワードパスを2回送って、各モダリティに対して2つの異なる表現を得る。
これらの表現により、トレーニングのための複数のインモーダルおよびクロスモーダルのコントラスト目的が得られる。
論文 参考訳(メタデータ) (2024-09-14T03:15:34Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Few-shot Multimodal Sentiment Analysis based on Multimodal Probabilistic
Fusion Prompts [30.15646658460899]
ソーシャルメディア上でのマルチモーダルコンテンツの普及により,マルチモーダル感情分析が注目されている。
この地域の既存の研究は、大規模に監督されたデータに大きく依存している。
マルチモーダルな感情検出のために,様々なモーダルから多様な手がかりを生かしたマルチモーダル確率核融合法(MultiPoint)を提案する。
論文 参考訳(メタデータ) (2022-11-12T08:10:35Z) - Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis [19.07020276666615]
本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
論文 参考訳(メタデータ) (2022-10-26T08:24:15Z) - Multi-Modal Mutual Information Maximization: A Novel Approach for
Unsupervised Deep Cross-Modal Hashing [73.29587731448345]
我々はCross-Modal Info-Max Hashing (CMIMH)と呼ばれる新しい手法を提案する。
モーダル内およびモーダル間の類似性を両立できる情報表現を学習する。
提案手法は、他の最先端のクロスモーダル検索手法よりも一貫して優れている。
論文 参考訳(メタデータ) (2021-12-13T08:58:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。