論文の概要: Tailor Versatile Multi-modal Learning for Multi-label Emotion
Recognition
- arxiv url: http://arxiv.org/abs/2201.05834v1
- Date: Sat, 15 Jan 2022 12:02:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-23 16:18:27.880068
- Title: Tailor Versatile Multi-modal Learning for Multi-label Emotion
Recognition
- Title(参考訳): 対話型マルチモーダル学習によるマルチラベル感情認識
- Authors: Yi Zhang, Mingyuan Chen, Jundong Shen, Chongjun Wang
- Abstract要約: マルチモーダルマルチラベル感情認識(MMER)は、異種視覚、音声、テキストのモダリティから様々な人間の感情を識別することを目的としている。
従来の手法は主に、複数のモダリティを共通の潜在空間に投影し、すべてのラベルに対して同じ表現を学ぶことに焦点を当てていた。
マルチモーダル表現を改良し,各ラベルの識別能力を高めることを目的とした,マルチモーダル音声認識(TAILOR)のための多目的マルチモーダル学習を提案する。
- 参考スコア(独自算出の注目度): 7.280460748655983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal Multi-label Emotion Recognition (MMER) aims to identify various
human emotions from heterogeneous visual, audio and text modalities. Previous
methods mainly focus on projecting multiple modalities into a common latent
space and learning an identical representation for all labels, which neglects
the diversity of each modality and fails to capture richer semantic information
for each label from different perspectives. Besides, associated relationships
of modalities and labels have not been fully exploited. In this paper, we
propose versaTile multi-modAl learning for multI-labeL emOtion Recognition
(TAILOR), aiming to refine multi-modal representations and enhance
discriminative capacity of each label. Specifically, we design an adversarial
multi-modal refinement module to sufficiently explore the commonality among
different modalities and strengthen the diversity of each modality. To further
exploit label-modal dependence, we devise a BERT-like cross-modal encoder to
gradually fuse private and common modality representations in a granularity
descent way, as well as a label-guided decoder to adaptively generate a
tailored representation for each label with the guidance of label semantics. In
addition, we conduct experiments on the benchmark MMER dataset CMU-MOSEI in
both aligned and unaligned settings, which demonstrate the superiority of
TAILOR over the state-of-the-arts. Code is available at
https://github.com/kniter1/TAILOR.
- Abstract(参考訳): マルチモーダルマルチラベル感情認識(MMER)は、異種視覚、音声、テキストのモダリティから様々な人間の感情を識別することを目的としている。
従来の手法は主に、複数のモダリティを共通の潜在空間に投影し、各モダリティの多様性を無視し、異なる視点から各ラベルのより豊かな意味情報を取得できない全てのラベルについて同じ表現を学ぶことに焦点を当てていた。
さらに、モダリティとラベルの関連性は完全には利用されていない。
本稿では,マルチモーダル表現の洗練と各ラベルの識別能力の向上を目的として,マルチモーダル感情認識(tailor)のための多彩なマルチモーダル学習を提案する。
具体的には,異なるモダリティ間の共通性を十分に探求し,各モダリティの多様性を強化するために,逆向きのマルチモーダルリファインメントモジュールを設計する。
ラベルモーダル依存をさらに活用するために,bert様クロスモーダルエンコーダを考案し,粒度降下方式でプライベートモダリティ表現と共通モダリティ表現を徐々に融合させ,ラベルセマンティクスのガイダンスによりラベル付きデコーダを適応的に生成する。
さらに, ベンチマークMMERデータセットであるCMU-MOSEIを, 整合性および整合性の両方で実験し, TAILORが最先端技術よりも優れていることを示す。
コードはhttps://github.com/kniter1/TAILORで入手できる。
関連論文リスト
- Meta-Learn Unimodal Signals with Weak Supervision for Multimodal Sentiment Analysis [25.66434557076494]
上記の問題に対処する新しいメタユニラベル生成(MUG)フレームワークを提案する。
まず,一様表現と多様表現のギャップを埋めるために,コントラッシブ・ベース・プロジェクション・モジュールを設計する。
次に,両レベル最適化戦略を用いて,MUCNを明示的な監督で訓練するための一助多モーダル・マルチモーダル・Denoisingタスクを提案する。
論文 参考訳(メタデータ) (2024-08-28T03:43:01Z) - CARAT: Contrastive Feature Reconstruction and Aggregation for
Multi-Modal Multi-Label Emotion Recognition [18.75994345925282]
マルチモーダルマルチラベル感情認識(MMER)は、複数のモーダルから関連する感情を識別することを目的としている。
MMERの課題は、異種データから複数のラベルの識別機能を効果的に取得する方法である。
本稿では,MMERタスクのためのContrAstive Feature Restruction and AggregaTion(CARAT)を提案する。
論文 参考訳(メタデータ) (2023-12-15T20:58:05Z) - Leveraging Label Information for Multimodal Emotion Recognition [22.318092635089464]
マルチモーダル感情認識(MER)は、音声とテキスト情報を組み合わせることで、与えられた表現の感情状態を検出することを目的としている。
ラベル情報を利用した新しいMER手法を提案する。
我々は,ラベルを意識したテキストと音声表現を融合して感情分類を行うための新しいラベル誘導注意融合モジュールを考案した。
論文 参考訳(メタデータ) (2023-09-05T10:26:32Z) - Multi-Label Knowledge Distillation [86.03990467785312]
本稿では,新しい多ラベル知識蒸留法を提案する。
一方、マルチラベル学習問題をバイナリ分類問題に分割することにより、ロジットからの情報的意味知識を利用する。
一方,ラベルワイド埋め込みの構造情報を活用することにより,学習した特徴表現の識別性を向上する。
論文 参考訳(メタデータ) (2023-08-12T03:19:08Z) - DICNet: Deep Instance-Level Contrastive Network for Double Incomplete
Multi-View Multi-Label Classification [20.892833511657166]
実世界におけるマルチビューマルチラベルデータは、データ収集や手動アノテーションの不確実性のため、一般的に不完全である。
本稿では,DICNetという深層インスタンスレベルのコントラストネットワークを提案し,二重不完全なマルチラベル分類問題に対処する。
我々のDICNetは、マルチビュー多ラベルデータの一貫した識別的表現を捉え、欠落したビューと欠落したラベルの負の影響を避けることに長けている。
論文 参考訳(メタデータ) (2023-03-15T04:24:01Z) - Dual-Perspective Semantic-Aware Representation Blending for Multi-Label
Image Recognition with Partial Labels [70.36722026729859]
本稿では,多粒度カテゴリ固有の意味表現を異なる画像にブレンドした,二重パースペクティブな意味認識表現ブレンディング(DSRB)を提案する。
提案したDSは、すべての比率ラベル設定において、最先端のアルゴリズムを一貫して上回っている。
論文 参考訳(メタデータ) (2022-05-26T00:33:44Z) - Heterogeneous Semantic Transfer for Multi-label Recognition with Partial Labels [70.45813147115126]
部分ラベル付きマルチラベル画像認識(MLR-PL)は、アノテーションのコストを大幅に削減し、大規模なMLRを促進する。
それぞれの画像と異なる画像の間に強い意味的相関が存在することがわかった。
これらの相関関係は、未知のラベルを取得するために、既知のラベルが持つ知識を転送するのに役立ちます。
論文 参考訳(メタデータ) (2022-05-23T08:37:38Z) - Semantic-Aware Representation Blending for Multi-Label Image Recognition
with Partial Labels [86.17081952197788]
そこで我々は,未知のラベルを補うために,異なる画像にカテゴリ固有の表現をブレンドして,既知のラベルの情報を伝達することを提案する。
MS-COCO、Visual Genome、Pascal VOC 2007データセットの実験は、提案されたSARBフレームワークが、現在の主要な競合相手よりも優れたパフォーマンスを得ることを示している。
論文 参考訳(メタデータ) (2022-03-04T07:56:16Z) - Structured Semantic Transfer for Multi-Label Recognition with Partial
Labels [85.6967666661044]
部分ラベル付きマルチラベル認識モデルのトレーニングを可能にする構造化意味伝達(SST)フレームワークを提案する。
このフレームワークは2つの相補的なトランスファーモジュールから構成され、インテリアイメージとクロスイメージセマンティック相関を探索する。
Microsoft COCO、Visual Genome、Pascal VOCデータセットの実験は、提案されたSSTフレームワークが現在の最先端アルゴリズムよりも優れたパフォーマンスが得られることを示している。
論文 参考訳(メタデータ) (2021-12-21T02:15:01Z) - Knowledge-Guided Multi-Label Few-Shot Learning for General Image
Recognition [75.44233392355711]
KGGRフレームワークは、ディープニューラルネットワークと統計ラベル相関の事前知識を利用する。
まず、統計ラベルの共起に基づいて異なるラベルを相関させる構造化知識グラフを構築する。
次に、ラベルセマンティクスを導入し、学習セマンティクス固有の特徴をガイドする。
グラフノードの相互作用を探索するためにグラフ伝搬ネットワークを利用する。
論文 参考訳(メタデータ) (2020-09-20T15:05:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。