論文の概要: Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2210.14556v1
- Date: Wed, 26 Oct 2022 08:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 13:01:05.860157
- Title: Multimodal Contrastive Learning via Uni-Modal Coding and Cross-Modal
Prediction for Multimodal Sentiment Analysis
- Title(参考訳): ユニモーダル符号化によるマルチモーダルコントラスト学習とマルチモーダル感情分析のためのクロスモーダル予測
- Authors: Ronghao Lin, Haifeng Hu
- Abstract要約: 本稿では,マルチモーダル表現のためのMMCL(MultiModal Contrastive Learning)というフレームワークを提案する。
また、予測のプロセスを促進し、感情に関連するよりインタラクティブな情報を学ぶために、事例ベースと感情ベースのコントラスト学習という2つのコントラスト学習タスクを設計する。
- 参考スコア(独自算出の注目度): 19.07020276666615
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal representation learning is a challenging task in which previous
work mostly focus on either uni-modality pre-training or cross-modality fusion.
In fact, we regard modeling multimodal representation as building a skyscraper,
where laying stable foundation and designing the main structure are equally
essential. The former is like encoding robust uni-modal representation while
the later is like integrating interactive information among different
modalities, both of which are critical to learning an effective multimodal
representation. Recently, contrastive learning has been successfully applied in
representation learning, which can be utilized as the pillar of the skyscraper
and benefit the model to extract the most important features contained in the
multimodal data. In this paper, we propose a novel framework named MultiModal
Contrastive Learning (MMCL) for multimodal representation to capture intra- and
inter-modality dynamics simultaneously. Specifically, we devise uni-modal
contrastive coding with an efficient uni-modal feature augmentation strategy to
filter inherent noise contained in acoustic and visual modality and acquire
more robust uni-modality representations. Besides, a pseudo siamese network is
presented to predict representation across different modalities, which
successfully captures cross-modal dynamics. Moreover, we design two contrastive
learning tasks, instance- and sentiment-based contrastive learning, to promote
the process of prediction and learn more interactive information related to
sentiment. Extensive experiments conducted on two public datasets demonstrate
that our method surpasses the state-of-the-art methods.
- Abstract(参考訳): マルチモーダル表現学習は、以前の研究が単モーダル事前学習とクロスモーダル融合に主に焦点をあてる難しい課題である。
実際、我々はマルチモーダル表現のモデリングを、安定した基礎を築き、主構造を設計することが等しく不可欠である超高層ビルの構築と見なしている。
前者はロバストなユニモダル表現を符号化するのと同様に、後者は異なるモダリティ間でインタラクティブな情報を統合するようなものです。
近年,高層建築物の柱として活用可能な表現学習にコントラスト学習が応用され,マルチモーダルデータに含まれる最も重要な特徴を抽出できるモデルが確立されている。
本稿では,マルチモーダル表現のためのマルチモーダルコントラスト学習(mmcl)と呼ばれる新しいフレームワークを提案する。
具体的には,音響的および視覚的モダリティに含まれる固有ノイズをフィルタリングし,より堅牢な一モダリティ表現を得るために,効率的な一モダリティ特徴拡張戦略を用いた一モダリティコントラスト符号化を提案する。
さらに、異なるモダリティ間の表現を予測するために擬似シマメネットワークが提示され、モダリティ間のダイナミクスをうまく捉えた。
さらに,インスタンスベースと感情ベースの2つのコントラスト学習タスクをデザインし,予測プロセスを促進し,感情に関連するよりインタラクティブな情報を学習する。
2つの公開データセットで行った大規模な実験は、我々の手法が最先端の手法を超えることを示した。
関連論文リスト
- On the Comparison between Multi-modal and Single-modal Contrastive Learning [50.74988548106031]
マルチモーダルとシングルモーダルのコントラスト学習の違いを理解するための理論的基盤を導入する。
マルチモーダル・シングルモーダル・コントラッシブ・ラーニングの下流タスクにおける一般化に影響を及ぼす臨界因子,すなわち信号対雑音比(SNR)を同定する。
我々の分析は、単一モードと多モードのコントラスト学習の最適化と一般化を特徴付ける統一的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-11-05T06:21:17Z) - Turbo your multi-modal classification with contrastive learning [17.983460380784337]
本稿では,マルチモーダル理解を促進するために,$Turbo$と呼ばれる新しいコントラスト学習戦略を提案する。
具体的には、マルチモーダルデータペアは、異なる隠されたドロップアウトマスクでフォワードパスを2回送って、各モダリティに対して2つの異なる表現を得る。
これらの表現により、トレーニングのための複数のインモーダルおよびクロスモーダルのコントラスト目的が得られる。
論文 参考訳(メタデータ) (2024-09-14T03:15:34Z) - Improving Unimodal Inference with Multimodal Transformers [88.83765002648833]
提案手法は,マルチモーダルトランスフォーマーをベースとした単一モーダルモデルを組み込んだマルチブランチアーキテクチャである。
これらの枝を共に訓練することにより、より強いマルチモーダル枝は、その知識をより弱いユニモーダル枝にマルチタスクの目的を通して移すことができる。
本稿では,RGBとDepthに基づく動的手動作認識,音声・顔画像に基づく音声視覚的感情認識,音声・音声音声による感情分析の課題について検討する。
論文 参考訳(メタデータ) (2023-11-16T19:53:35Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - On Uni-Modal Feature Learning in Supervised Multi-Modal Learning [21.822251958013737]
マルチモーダルデータの特徴(つまり学習された表現)を,1)ユニモーダルな特徴と2)相互モーダルな相互作用からしか学べないペア化された特徴にまとめる。
簡単な誘導戦略により、様々なマルチモーダルデータセット上の他の複雑なレイトフュージョン法や中間フュージョン法に匹敵する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-05-02T07:15:10Z) - Unified Discrete Diffusion for Simultaneous Vision-Language Generation [78.21352271140472]
本稿では,「モダリティ変換」タスクと「マルチモダリティ生成」タスクの両方を実行することができる統一型マルチモーダル生成モデルを提案する。
具体的には,マルチモーダル信号の離散拡散過程を統一遷移行列を用いて統一する。
提案手法は, 様々な生成タスクにおいて, 最先端のソリューションと同等に動作可能である。
論文 参考訳(メタデータ) (2022-11-27T14:46:01Z) - Probing Visual-Audio Representation for Video Highlight Detection via
Hard-Pairs Guided Contrastive Learning [23.472951216815765]
効果的なビデオ表現の鍵は、クロスモーダルな表現学習ときめ細かい特徴識別である。
本稿では,表現モデリングにおけるモダリティ内関係とモダリティ間関係の強化について述べる。
コントラスト学習方式によるハードペアによる特徴埋め込みの識別能力を拡大する。
論文 参考訳(メタデータ) (2022-06-21T07:29:37Z) - InterBERT: Vision-and-Language Interaction for Multi-modal Pretraining [76.32065400614162]
我々は,本シリーズのマルチモーダル事前学習手法M6の最初のモデルであるInterBERT(BERT for Interaction)を提案する。
モデルは、異なるモダリティの情報フロー間の相互作用をモデル化する強力な能力を持っている。
中国語におけるマルチモーダル事前学習のための大規模データセットを提案し,中国初のマルチモーダル事前学習モデルである中国語InterBERTを開発した。
論文 参考訳(メタデータ) (2020-03-30T03:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。