論文の概要: Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2109.01797v1
- Date: Sat, 4 Sep 2021 06:04:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:41:55.837227
- Title: Hybrid Contrastive Learning of Tri-Modal Representation for Multimodal
Sentiment Analysis
- Title(参考訳): マルチモーダル感性解析のための3モーダル表現のハイブリッドコントラスト学習
- Authors: Sijie Mai, Ying Zeng, Shuangjia Zheng, Haifeng Hu
- Abstract要約: 我々は,三モーダル表現のハイブリッドコントラスト学習のための新しいフレームワークHyConを提案する。
具体的には,モーダル内・モーダル内コントラスト学習と半コントラスト学習を同時に行う。
提案手法は既存の作業より優れている。
- 参考スコア(独自算出の注目度): 18.4364234071951
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The wide application of smart devices enables the availability of multimodal
data, which can be utilized in many tasks. In the field of multimodal sentiment
analysis (MSA), most previous works focus on exploring intra- and inter-modal
interactions. However, training a network with cross-modal information
(language, visual, audio) is still challenging due to the modality gap, and
existing methods still cannot ensure to sufficiently learn intra-/inter-modal
dynamics. Besides, while learning dynamics within each sample draws great
attention, the learning of inter-class relationships is neglected. Moreover,
the size of datasets limits the generalization ability of existing methods. To
address the afore-mentioned issues, we propose a novel framework HyCon for
hybrid contrastive learning of tri-modal representation. Specifically, we
simultaneously perform intra-/inter-modal contrastive learning and
semi-contrastive learning (that is why we call it hybrid contrastive learning),
with which the model can fully explore cross-modal interactions, preserve
inter-class relationships and reduce the modality gap. Besides, a refinement
term is devised to prevent the model falling into a sub-optimal solution.
Moreover, HyCon can naturally generate a large amount of training pairs for
better generalization and reduce the negative effect of limited datasets.
Extensive experiments on public datasets demonstrate that our proposed method
outperforms existing works.
- Abstract(参考訳): スマートデバイスの幅広い応用により、多くのタスクで使用できるマルチモーダルデータの利用が可能になる。
マルチモーダル感情分析(MSA)の分野では、これまでのほとんどの研究はモーダル内およびモーダル間相互作用の探索に重点を置いていた。
しかしながら、モダリティギャップのため、クロスモーダル情報(言語、視覚、音声)を用いたネットワークのトレーニングは依然として困難であり、既存の手法では、まだ、イントラモーダル・イントラモーダルダイナミクスを十分に学習することができない。
さらに,各サンプル内のダイナミクスの学習が注目される一方で,クラス間の関係の学習は無視される。
さらに、データセットのサイズは既存のメソッドの一般化能力を制限する。
本稿では,三様相表現のハイブリッドコントラスト学習のための新しいフレームワークhyconを提案する。
具体的には,相互モーダル相互作用を十分に探求し,クラス間関係を保ち,モダリティギャップを低減できる,イントラモーダル/インターモーダルコントラスト学習とセミコントラスト学習(これをハイブリッドコントラスト学習と呼ぶ)を同時に行う。
また,モデルが準最適解に陥るのを防ぐために,改良項が考案された。
さらに、HyConは自然に大量のトレーニングペアを生成して、より一般化し、限られたデータセットの負の効果を減らすことができる。
公開データセットに関する広範な実験により,提案手法が既存手法よりも優れていることが示された。
関連論文リスト
- RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Detached and Interactive Multimodal Learning [17.843121072628477]
本稿では,モダリティにまたがる補完情報を学習するための新しいMMLフレームワークであるDI-MMLを紹介する。
各モダリティエンコーダを独立した学習目標で個別に訓練することで、競争に対処する。
音声・視覚・フロー画像・前面画像データを用いた実験は,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-07-28T15:38:58Z) - Beyond Unimodal Learning: The Importance of Integrating Multiple Modalities for Lifelong Learning [23.035725779568587]
ディープニューラルネットワーク(DNN)におけるマルチモーダル性の役割と相互作用について検討する。
以上の結果から,複数のビューと相補的な情報を複数のモーダルから活用することで,より正確かつ堅牢な表現を学習できることが示唆された。
本稿では,各モーダルにおけるデータ点間の関係構造的類似性を利用して,異なるモーダルからの情報の統合と整合化を行う手法を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:58Z) - Multimodal Representation Learning by Alternating Unimodal Adaptation [73.15829571740866]
MLA(Multimodal Learning with Alternating Unimodal Adaptation)を提案する。
MLAは、それを交互に一助学習プロセスに変換することで、従来の共同マルチモーダル学習プロセスを再構築する。
共有ヘッドを通じてモーダル間相互作用をキャプチャし、異なるモーダル間で連続的な最適化を行う。
実験は5つの多様なデータセットで行われ、完全なモダリティを持つシナリオと、欠落したモダリティを持つシナリオを含む。
論文 参考訳(メタデータ) (2023-11-17T18:57:40Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z) - Learning Unseen Modality Interaction [54.23533023883659]
マルチモーダル学習は、すべてのモダリティの組み合わせが訓練中に利用でき、クロスモーダル対応を学ぶことを前提としている。
我々は、目に見えないモダリティ相互作用の問題を提起し、第1の解を導入する。
異なるモジュラリティの多次元的特徴を、豊富な情報を保存した共通空間に投影するモジュールを利用する。
論文 参考訳(メタデータ) (2023-06-22T10:53:10Z) - Multimodal Learning Without Labeled Multimodal Data: Guarantees and Applications [90.6849884683226]
ラベル付き単調データのみを用いた半教師付き環境における相互作用定量化の課題について検討する。
相互作用の正確な情報理論的定義を用いて、我々の重要な貢献は下界と上界の導出である。
本稿では、これらの理論結果を用いてマルチモーダルモデルの性能を推定し、データ収集をガイドし、様々なタスクに対して適切なマルチモーダルモデルを選択する方法について述べる。
論文 参考訳(メタデータ) (2023-06-07T15:44:53Z) - UNIMO-3: Multi-granularity Interaction for Vision-Language
Representation Learning [35.88753097105914]
マルチモーダルな層間相互作用と層間相互作用を同時に学習する能力を持つ UNIMO-3 モデルを提案する。
我々のモデルは,様々な下流タスクにおける最先端性能を実現し,効果的な層間学習がマルチモーダル表現の能力を向上することを証明することができる。
論文 参考訳(メタデータ) (2023-05-23T05:11:34Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。