論文の概要: Decoupled Multimodal Distilling for Emotion Recognition
- arxiv url: http://arxiv.org/abs/2303.13802v1
- Date: Fri, 24 Mar 2023 04:54:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 15:46:09.879918
- Title: Decoupled Multimodal Distilling for Emotion Recognition
- Title(参考訳): 感情認識のための分離マルチモーダル蒸留
- Authors: Yong Li, Yuanzhi Wang, Zhen Cui
- Abstract要約: 本稿では, フレキシブルかつ適応的なクロスモーダルな知識蒸留を容易にするデカップリング型マルチモーダル蒸留(DMD)手法を提案する。
各モダリティの表現は、自己回帰的な方法で、モダリティ非関係/排他的空間(modality-irrelevant/exclusive space)という2つの部分に分けられる。
実験結果からDMDは最先端のMER法よりも優れた性能が得られることがわかった。
- 参考スコア(独自算出の注目度): 21.685394946415993
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Human multimodal emotion recognition (MER) aims to perceive human emotions
via language, visual and acoustic modalities. Despite the impressive
performance of previous MER approaches, the inherent multimodal heterogeneities
still haunt and the contribution of different modalities varies significantly.
In this work, we mitigate this issue by proposing a decoupled multimodal
distillation (DMD) approach that facilitates flexible and adaptive crossmodal
knowledge distillation, aiming to enhance the discriminative features of each
modality. Specially, the representation of each modality is decoupled into two
parts, i.e., modality-irrelevant/-exclusive spaces, in a self-regression
manner. DMD utilizes a graph distillation unit (GD-Unit) for each decoupled
part so that each GD can be performed in a more specialized and effective
manner. A GD-Unit consists of a dynamic graph where each vertice represents a
modality and each edge indicates a dynamic knowledge distillation. Such GD
paradigm provides a flexible knowledge transfer manner where the distillation
weights can be automatically learned, thus enabling diverse crossmodal
knowledge transfer patterns. Experimental results show DMD consistently obtains
superior performance than state-of-the-art MER methods. Visualization results
show the graph edges in DMD exhibit meaningful distributional patterns w.r.t.
the modality-irrelevant/-exclusive feature spaces. Codes are released at
\url{https://github.com/mdswyz/DMD}.
- Abstract(参考訳): ヒトのマルチモーダル感情認識(mer)は、言語、視覚、音響的モダリティを通じて人間の感情を知覚することを目的としている。
以前のMERアプローチの印象的な性能にもかかわらず、固有の多モード不均一性はまだ残っており、異なるモダリティの寄与は著しく異なる。
本研究では,自由で適応的なクロスモーダル知識蒸留を容易にする脱共役マルチモーダル蒸留(dmd)アプローチを提案し,各モーダルの識別的特徴を高めることを目的とした。
特に、各モダリティの表現は、自己回帰的な方法で、2つの部分、すなわちモダリティ-非関係/排他的な空間に分解される。
DMDはグラフ蒸留ユニット(GD-Unit)を各分離部に使用し、より専門的で効果的な方法で各GDを実行できる。
GD-Unitは動的グラフで構成され、各頂点はモダリティを表し、各エッジは動的知識蒸留を示す。
このようなgdパラダイムは、蒸留重みを自動的に学習できる柔軟な知識伝達方法を提供し、多様なクロスモーダル知識伝達パターンを可能にする。
実験結果からDMDは最先端のMER法よりも優れた性能を示した。
DMDのグラフエッジは、モダリティ非関連かつ排他的な特徴空間に意味のある分布パターンを示す。
コードは \url{https://github.com/mdswyz/DMD} でリリースされる。
関連論文リスト
- Multimodal Industrial Anomaly Detection by Crossmodal Reverse Distillation [15.89869857998053]
マルチブランチ設計に基づくクロスモーダル逆蒸留(CRD)を提案する。
独立分岐を各モードに割り当てることで、各モード内の異常をより細かく検出することができる。
本手法は,マルチモーダル異常検出および局所化における最先端性能を実現する。
論文 参考訳(メタデータ) (2024-12-12T05:26:50Z) - GAMED: Knowledge Adaptive Multi-Experts Decoupling for Multimodal Fake News Detection [18.157900272828602]
マルチモーダルフェイクニュース検出は、視覚や言語などの異種データソースをモデル化することが多い。
本稿では,マルチモーダルモデリングのための GAMED を新たに開発する。
横断的なシナジーを強化するために、モーダルデカップリングを通じて特徴的で差別的な特徴を生み出すことに焦点を当てている。
論文 参考訳(メタデータ) (2024-12-11T19:12:22Z) - GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation [68.63955715643974]
Omnimodal Learning(GTP-4o)のためのモダリティプロンプト不均質グラフ
我々は、Omnimodal Learning(GTP-4o)のための革新的モダリティプロンプト不均質グラフを提案する。
論文 参考訳(メタデータ) (2024-07-08T01:06:13Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Mutual Distillation Learning For Person Re-Identification [27.350415735863184]
MDPR(Multual Distillation Learning for Person Re-identification)という新しい手法を提案する。
本手法は,一様水平分割戦略により局所特徴を抽出するハードコンテンツブランチと,前景と背景を動的に区別するソフトコンテンツブランチの2つを含む。
提案手法はDukeC-reIDデータセット上のmAP/Rank-1の8.7%/94.4%の驚くべき値を得る。
論文 参考訳(メタデータ) (2024-01-12T07:49:02Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal
Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。
In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。
類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文 参考訳(メタデータ) (2023-10-24T07:22:17Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。
具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。
実験により,より正確なAERモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-15T08:21:01Z) - MISA: Modality-Invariant and -Specific Representations for Multimodal
Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。
最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。
一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2020-05-07T15:13:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。