Fugu-MT 論文翻訳(概要): Decoupled Multimodal Distilling for Emotion Recognition

論文の概要: Decoupled Multimodal Distilling for Emotion Recognition

arxiv url: http://arxiv.org/abs/2303.13802v1
Date: Fri, 24 Mar 2023 04:54:44 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-27 15:46:09.879918
Title: Decoupled Multimodal Distilling for Emotion Recognition
Title（参考訳）: 感情認識のための分離マルチモーダル蒸留
Authors: Yong Li, Yuanzhi Wang, Zhen Cui
Abstract要約: 本稿では, フレキシブルかつ適応的なクロスモーダルな知識蒸留を容易にするデカップリング型マルチモーダル蒸留(DMD)手法を提案する。各モダリティの表現は、自己回帰的な方法で、モダリティ非関係/排他的空間(modality-irrelevant/exclusive space)という2つの部分に分けられる。実験結果からDMDは最先端のMER法よりも優れた性能が得られることがわかった。
参考スコア（独自算出の注目度）: 21.685394946415993
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Human multimodal emotion recognition (MER) aims to perceive human emotions via language, visual and acoustic modalities. Despite the impressive performance of previous MER approaches, the inherent multimodal heterogeneities still haunt and the contribution of different modalities varies significantly. In this work, we mitigate this issue by proposing a decoupled multimodal distillation (DMD) approach that facilitates flexible and adaptive crossmodal knowledge distillation, aiming to enhance the discriminative features of each modality. Specially, the representation of each modality is decoupled into two parts, i.e., modality-irrelevant/-exclusive spaces, in a self-regression manner. DMD utilizes a graph distillation unit (GD-Unit) for each decoupled part so that each GD can be performed in a more specialized and effective manner. A GD-Unit consists of a dynamic graph where each vertice represents a modality and each edge indicates a dynamic knowledge distillation. Such GD paradigm provides a flexible knowledge transfer manner where the distillation weights can be automatically learned, thus enabling diverse crossmodal knowledge transfer patterns. Experimental results show DMD consistently obtains superior performance than state-of-the-art MER methods. Visualization results show the graph edges in DMD exhibit meaningful distributional patterns w.r.t. the modality-irrelevant/-exclusive feature spaces. Codes are released at \url{https://github.com/mdswyz/DMD}.
Abstract（参考訳）: ヒトのマルチモーダル感情認識(mer)は、言語、視覚、音響的モダリティを通じて人間の感情を知覚することを目的としている。以前のMERアプローチの印象的な性能にもかかわらず、固有の多モード不均一性はまだ残っており、異なるモダリティの寄与は著しく異なる。本研究では,自由で適応的なクロスモーダル知識蒸留を容易にする脱共役マルチモーダル蒸留(dmd)アプローチを提案し,各モーダルの識別的特徴を高めることを目的とした。特に、各モダリティの表現は、自己回帰的な方法で、2つの部分、すなわちモダリティ-非関係/排他的な空間に分解される。 DMDはグラフ蒸留ユニット(GD-Unit)を各分離部に使用し、より専門的で効果的な方法で各GDを実行できる。 GD-Unitは動的グラフで構成され、各頂点はモダリティを表し、各エッジは動的知識蒸留を示す。このようなgdパラダイムは、蒸留重みを自動的に学習できる柔軟な知識伝達方法を提供し、多様なクロスモーダル知識伝達パターンを可能にする。実験結果からDMDは最先端のMER法よりも優れた性能を示した。 DMDのグラフエッジは、モダリティ非関連かつ排他的な特徴空間に意味のある分布パターンを示す。コードは \url{https://github.com/mdswyz/DMD} でリリースされる。

関連論文リスト

GIA-MIC: Multimodal Emotion Recognition with Gated Interactive Attention and Modality-Invariant Learning Constraints [24.242098942377574]
マルチモーダル感情認識(MER)は、視覚、音声、テキスト入力を含むマルチモーダルデータから感情を抽出し、人間とコンピュータの相互作用において重要な役割を果たす。本稿では,相互の相互作用を通じて感情情報を高めつつ,モダリティ特有の特徴を適応的に抽出する対話型アテンション機構を提案する。 IEMOCAPの実験では、我々の手法は最先端のMERアプローチより優れており、WA 80.7%、UA 81.3%を達成している。
論文参考訳（メタデータ） (2025-06-01T07:07:02Z)
Automated Learning of Semantic Embedding Representations for Diffusion Models [1.688134675717698]
拡散モデルの表現能力を拡大するために,マルチレベル・デノナイジング・オートエンコーダ・フレームワークを用いる。我々の研究は、DDMが生成タスクに適合するだけでなく、汎用的なディープラーニングアプリケーションにも有利である可能性を正当化している。
論文参考訳（メタデータ） (2025-05-09T02:10:46Z)
Multimodal Industrial Anomaly Detection by Crossmodal Reverse Distillation [15.89869857998053]
マルチブランチ設計に基づくクロスモーダル逆蒸留(CRD)を提案する。独立分岐を各モードに割り当てることで、各モード内の異常をより細かく検出することができる。本手法は,マルチモーダル異常検出および局所化における最先端性能を実現する。
論文参考訳（メタデータ） (2024-12-12T05:26:50Z)
GAMED: Knowledge Adaptive Multi-Experts Decoupling for Multimodal Fake News Detection [18.157900272828602]
マルチモーダルフェイクニュース検出は、視覚や言語などの異種データソースをモデル化することが多い。本稿では,マルチモーダルモデリングのための GAMED を新たに開発する。横断的なシナジーを強化するために、モーダルデカップリングを通じて特徴的で差別的な特徴を生み出すことに焦点を当てている。
論文参考訳（メタデータ） (2024-12-11T19:12:22Z)
Knowledge-Guided Dynamic Modality Attention Fusion Framework for Multimodal Sentiment Analysis [4.344546814121446]
マルチモーダル感情分析のための知識誘導動的モダリティ注意融合フレームワーク(KuDA)を提案する。 Kudaは感情知識を使用して、支配的なモダリティを動的に選択し、各モダリティの貢献を調整するモデルを導く。 4つのMSAベンチマークデータセットの実験は、KuDAが最先端のパフォーマンスを達成し、支配的なモダリティの異なるシナリオに適応できることを示している。
論文参考訳（メタデータ） (2024-10-06T14:10:28Z)
Prototype-Driven Multi-Feature Generation for Visible-Infrared Person Re-identification [11.664820595258988]
可視的(視覚)画像と赤外線(赤外線)画像の違いから、可視的(赤外線)人物の再識別における主な課題が生じる。既存の手法は、しばしば水平分割に頼って部分レベルの特徴を整列させ、不正確性を導入する。クロスモーダルな相違を緩和することを目的としたPDM(Prototype-Driven Multi-Feature Generation framework)を提案する。
論文参考訳（メタデータ） (2024-09-09T14:12:23Z)
GTP-4o: Modality-prompted Heterogeneous Graph Learning for Omni-modal Biomedical Representation [68.63955715643974]
Omnimodal Learning(GTP-4o)のためのモダリティプロンプト不均質グラフ我々は、Omnimodal Learning(GTP-4o)のための革新的モダリティプロンプト不均質グラフを提案する。
論文参考訳（メタデータ） (2024-07-08T01:06:13Z)
MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。 SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文参考訳（メタデータ） (2024-04-13T13:39:26Z)
Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文参考訳（メタデータ） (2024-03-15T17:23:38Z)
Mutual Distillation Learning For Person Re-Identification [27.350415735863184]
MDPR(Multual Distillation Learning for Person Re-identification)という新しい手法を提案する。本手法は,一様水平分割戦略により局所特徴を抽出するハードコンテンツブランチと,前景と背景を動的に区別するソフトコンテンツブランチの2つを含む。提案手法はDukeC-reIDデータセット上のmAP/Rank-1の8.7%/94.4%の驚くべき値を得る。
論文参考訳（メタデータ） (2024-01-12T07:49:02Z)
Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文参考訳（メタデータ） (2023-12-28T01:57:26Z)
I$^2$MD: 3D Action Representation Learning with Inter- and Intra-modal Mutual Distillation [147.2183428328396]
一般のモード内相互蒸留(I$2$MD)フレームワークを紹介する。 In 2$MD, we first-formulate the cross-modal interaction as a cross-modal Mutual Distillation (CMD) process。類似したサンプルの干渉を緩和し,その基盤となるコンテキストを活用するため,モーダル・ミューチュアル蒸留(IMD)戦略をさらに設計する。
論文参考訳（メタデータ） (2023-10-24T07:22:17Z)
Exploiting Modality-Specific Features For Multi-Modal Manipulation Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文参考訳（メタデータ） (2023-09-22T06:55:41Z)
Fusion with Hierarchical Graphs for Mulitmodal Emotion Recognition [7.147235324895931]
本稿では,より情報に富んだマルチモーダル表現を学習する階層型グラフネットワーク(HFGCN)モデルを提案する。具体的には,2段階グラフ構築手法を用いてマルチモーダル入力を融合し,モダリティ依存性を会話表現にエンコードする。実験により,より正確なAERモデルの有効性が示された。
論文参考訳（メタデータ） (2021-09-15T08:21:01Z)
MISA: Modality-Invariant and -Specific Representations for Multimodal Sentiment Analysis [48.776247141839875]
本稿では,2つの異なる部分空間に各モダリティを投影する新しいフレームワーク MISA を提案する。最初の部分空間はモダリティ不変(modality-invariant)であり、モダリティにまたがる表現はその共通点を学び、モダリティギャップを減少させる。一般的な感情分析ベンチマークであるMOSIとMOSEIの実験は、最先端モデルよりも大幅に向上したことを示す。
論文参考訳（メタデータ） (2020-05-07T15:13:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。