論文の概要: Decoupled Multimodal Distilling for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2303.13802v1
- Date: Fri, 24 Mar 2023 04:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:46:09.879918
- Title: Decoupled Multimodal Distilling for Emotion Recognition
- Title(参考訳): 感情認識のための分離マルチモーダル蒸留
- Authors: Yong Li, Yuanzhi Wang, Zhen Cui
- Abstract要約: 本稿では, フレキシブルかつ適応的なクロスモーダルな知識蒸留を容易にするデカップリング型マルチモーダル蒸留(DMD)手法を提案する。
各モダリティの表現は、自己回帰的な方法で、モダリティ非関係/排他的空間(modality-irrelevant/exclusive space)という2つの部分に分けられる。
実験結果からDMDは最先端のMER法よりも優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 21.685394946415993
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Human multimodal emotion recognition (MER) aims to perceive human emotions
via language, visual and acoustic modalities. Despite the impressive
performance of previous MER approaches, the inherent multimodal heterogeneities
still haunt and the contribution of different modalities varies significantly.
In this work, we mitigate this issue by proposing a decoupled multimodal
distillation (DMD) approach that facilitates flexible and adaptive crossmodal
knowledge distillation, aiming to enhance the discriminative features of each
modality. Specially, the representation of each modality is decoupled into two
parts, i.e., modality-irrelevant/-exclusive spaces, in a self-regression
manner. DMD utilizes a graph distillation unit (GD-Unit) for each decoupled
part so that each GD can be performed in a more specialized and effective
manner. A GD-Unit consists of a dynamic graph where each vertice represents a
modality and each edge indicates a dynamic knowledge distillation. Such GD
paradigm provides a flexible knowledge transfer manner where the distillation
weights can be automatically learned, thus enabling diverse crossmodal
knowledge transfer patterns. Experimental results show DMD consistently obtains
superior performance than state-of-the-art MER methods. Visualization results
show the graph edges in DMD exhibit meaningful distributional patterns w.r.t.
the modality-irrelevant/-exclusive feature spaces. Codes are released at
\url{https://github.com/mdswyz/DMD}.
- Abstract(参考訳): ヒトのマルチモーダル感情認識(mer)は、言語、視覚、音響的モダリティを通じて人間の感情を知覚することを目的としている。
以前のMERアプローチの印象的な性能にもかかわらず、固有の多モード不均一性はまだ残っており、異なるモダリティの寄与は著しく異なる。
本研究では,自由で適応的なクロスモーダル知識蒸留を容易にする脱共役マルチモーダル蒸留(dmd)アプローチを提案し,各モーダルの識別的特徴を高めることを目的とした。
特に、各モダリティの表現は、自己回帰的な方法で、2つの部分、すなわちモダリティ-非関係/排他的な空間に分解される。
DMDはグラフ蒸留ユニット(GD-Unit)を各分離部に使用し、より専門的で効果的な方法で各GDを実行できる。
GD-Unitは動的グラフで構成され、各頂点はモダリティを表し、各エッジは動的知識蒸留を示す。
このようなgdパラダイムは、蒸留重みを自動的に学習できる柔軟な知識伝達方法を提供し、多様なクロスモーダル知識伝達パターンを可能にする。
実験結果からDMDは最先端のMER法よりも優れた性能を示した。
DMDのグラフエッジは、モダリティ非関連かつ排他的な特徴空間に意味のある分布パターンを示す。
コードは \url{https://github.com/mdswyz/DMD} でリリースされる。
関連論文リスト
- Knowledge-Guided Dynamic Modality Attention Fusion Framework for Multimodal Sentiment Analysis [4.344546814121446]
マルチモーダル感情分析のための知識誘導動的モダリティ注意融合フレームワーク(KuDA)を提案する。
Kudaは感情知識を使用して、支配的なモダリティを動的に選択し、各モダリティの貢献を調整するモデルを導く。
4つのMSAベンチマークデータセットの実験は、KuDAが最先端のパフォーマンスを達成し、支配的なモダリティの異なるシナリオに適応できることを示している。
論文 参考訳(メタデータ) (2024-10-06T14:10:28Z) - Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification [11.664820595258988]
可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。
既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。
クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
論文 参考訳(メタデータ) (2024-09-09T14:12:23Z) - GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation [68.63955715643974]
Omnimodal Learning(GTP-4o)のためのモダリティプロンプト不均質グラフ
我々は、Omnimodal Learning(GTP-4o)のための革新的モダリティプロンプト不均質グラフを提案する。
論文 参考訳(メタデータ) (2024-07-08T01:06:13Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Mutual Distillation Learning For Person Re-Identification [27.350415735863184]
MDPR(Multual Distillation Learning for Person Re-identification)という新しい手法を提案する。
本手法は,一様水平分割戦略により局所特徴を抽出するハードコンテンツブランチと,前景と背景を動的に区別するソフトコンテンツブランチの2つを含む。
提案手法はDukeC-reIDデータセット上のmAP/Rank-1の8.7%/94.4%の驚くべき値を得る。
論文 参考訳(メタデータ) (2024-01-12T07:49:02Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。