論文の概要: Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities
- arxiv url: http://arxiv.org/abs/2404.16456v1
- Date: Thu, 25 Apr 2024 09:35:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 14:09:25.185410
- Title: Correlation-Decoupled Knowledge Distillation for Multimodal Sentiment Analysis with Incomplete Modalities
- Title(参考訳): 不完全モーダルを用いたマルチモーダル感性分析のための相関分離型知識蒸留法
- Authors: Mingcheng Li, Dingkang Yang, Xiao Zhao, Shuaibing Wang, Yan Wang, Kun Yang, Mingyang Sun, Dongliang Kou, Ziyun Qian, Lihua Zhang,
- Abstract要約: 本稿では,Multimodal Sentiment Analysis (MSA)タスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
本稿では, クロスサンプル相関を含む包括的知識を伝達し, 欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
我々は,学生ネットワークの感情決定境界を最適化するために,応答不整合蒸留方式を設計する。
- 参考スコア(独自算出の注目度): 16.69453837626083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal sentiment analysis (MSA) aims to understand human sentiment through multimodal data. Most MSA efforts are based on the assumption of modality completeness. However, in real-world applications, some practical factors cause uncertain modality missingness, which drastically degrades the model's performance. To this end, we propose a Correlation-decoupled Knowledge Distillation (CorrKD) framework for the MSA task under uncertain missing modalities. Specifically, we present a sample-level contrastive distillation mechanism that transfers comprehensive knowledge containing cross-sample correlations to reconstruct missing semantics. Moreover, a category-guided prototype distillation mechanism is introduced to capture cross-category correlations using category prototypes to align feature distributions and generate favorable joint representations. Eventually, we design a response-disentangled consistency distillation strategy to optimize the sentiment decision boundaries of the student network through response disentanglement and mutual information maximization. Comprehensive experiments on three datasets indicate that our framework can achieve favorable improvements compared with several baselines.
- Abstract(参考訳): マルチモーダル感情分析(MSA)は、マルチモーダルデータを通して人間の感情を理解することを目的としている。
ほとんどのMSAの取り組みは、モダリティ完全性の仮定に基づいている。
しかし、現実の応用においては、いくつかの実用的な要因が不確実なモダリティの欠如を引き起こし、モデルの性能が劇的に低下する。
そこで本研究では,MSAタスクのための相関分離型知識蒸留(CorrKD)フレームワークを提案する。
具体的には、クロスサンプル相関を含む包括的知識を伝達し、欠落した意味論を再構築するサンプルレベルのコントラスト蒸留機構を提案する。
さらに, カテゴリ誘導型蒸留機構を導入し, カテゴリプロトタイプを用いてカテゴリ間相関を捕捉し, 特徴分布を整列させ, 良好な関節表現を生成する。
最終的には、応答不整合と相互情報の最大化により、学生ネットワークの感情決定境界を最適化する応答不整合蒸留戦略を設計する。
3つのデータセットに関する総合的な実験は、我々のフレームワークがいくつかのベースラインと比較して良好な改善を達成できることを示している。
関連論文リスト
- Mitigating Biases with Diverse Ensembles and Diffusion Models [99.6100669122048]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,制御信号の追加を必要とせず,一次ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - Ensemble Modeling for Multimodal Visual Action Recognition [50.38638300332429]
マルチモーダル動作認識のためのアンサンブルモデリング手法を提案する。
我々は,MECCANO[21]データセットの長期分布を処理するために,焦点損失の変種を用いて,個別のモダリティモデルを個別に訓練する。
論文 参考訳(メタデータ) (2023-08-10T08:43:20Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Model-Agnostic Few-Shot Open-Set Recognition [36.97433312193586]
我々はFew-Shot Open-Set Recognition (FSOSR) 問題に取り組む。
既存のモデルにプラグイン可能なモデルに依存しない推論手法の開発に注力する。
オープン・セット・トランスダクティブ・インフォメーション・最大化手法OSTIMを提案する。
論文 参考訳(メタデータ) (2022-06-18T16:27:59Z) - MMLatch: Bottom-up Top-down Fusion for Multimodal Sentiment Analysis [84.7287684402508]
マルチモーダル融合に対する最近のディープラーニングアプローチは、ハイレベルおよびミドルレベルの潜在モダリティ表現のボトムアップ融合に依存している。
人間の知覚モデルでは、高レベルの表現が感覚入力の知覚に影響を及ぼすトップダウン融合の重要性を強調している。
本稿では,ネットワークトレーニング中のフォワードパスにおけるフィードバック機構を用いて,トップダウンのクロスモーダルインタラクションをキャプチャするニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2022-01-24T17:48:04Z) - Abstractive Sentence Summarization with Guidance of Selective Multimodal
Reference [3.505062507621494]
モーダル間の相互関係を考慮したマルチモーダル階層選択変換器(mhsf)モデルを提案する。
提案したmhsfモデルの汎用性を,事前学習+微調整および新鮮トレーニング戦略を用いて評価した。
論文 参考訳(メタデータ) (2021-08-11T09:59:34Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z) - Self-Supervised Multimodal Domino: in Search of Biomarkers for
Alzheimer's Disease [19.86082635340699]
自己監督型表現学習アルゴリズムを編成する合理的な方法の分類法を提案する。
まず,おもちゃのマルチモーダルMNISTデータセットのモデルを評価し,アルツハイマー病患者を用いたマルチモーダル・ニューロイメージングデータセットに適用した。
提案手法は,従来の自己教師付きエンコーダデコーダ法よりも優れていた。
論文 参考訳(メタデータ) (2020-12-25T20:28:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。