論文の概要: Bridging the Emotional Semantic Gap via Multimodal Relevance Estimation
- arxiv url: http://arxiv.org/abs/2302.01555v1
- Date: Fri, 3 Feb 2023 05:27:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 17:12:18.560710
- Title: Bridging the Emotional Semantic Gap via Multimodal Relevance Estimation
- Title(参考訳): マルチモーダル関係推定による感情的意味ギャップの橋渡し
- Authors: Chuan Zhang, Daoxin Zhang, Ruixiu Zhang, Jiawei Li, Jianke Zhu
- Abstract要約: マルチモーダル感情におけるモーダル間の関連性を把握するためのマルチモーダル関連性推定ネットワークを提案する。
我々は、特徴空間における異なるモダリティにまたがるカテゴリレベルのモダリティ関連セマンティクスの類似性を最適化するために、対照的な学習を利用する。
実際の対話シナリオにおける感情状態をよりよく反映するために,SDMEという単一ラベルの離散的マルチモーダル感情データセットを収集する。
- 参考スコア(独自算出の注目度): 9.632084332065523
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human beings have rich ways of emotional expressions, including facial
action, voice, and natural languages. Due to the diversity and complexity of
different individuals, the emotions expressed by various modalities may be
semantically irrelevant. Directly fusing information from different modalities
may inevitably make the model subject to the noise from semantically irrelevant
modalities. To tackle this problem, we propose a multimodal relevance
estimation network to capture the relevant semantics among modalities in
multimodal emotions. Specifically, we take advantage of an attention mechanism
to reflect the semantic relevance weights of each modality. Moreover, we
propose a relevant semantic estimation loss to weakly supervise the semantics
of each modality. Furthermore, we make use of contrastive learning to optimize
the similarity of category-level modality-relevant semantics across different
modalities in feature space, thereby bridging the semantic gap between
heterogeneous modalities. In order to better reflect the emotional state in the
real interactive scenarios and perform the semantic relevance analysis, we
collect a single-label discrete multimodal emotion dataset named SDME, which
enables researchers to conduct multimodal semantic relevance research with
large category bias. Experiments on continuous and discrete emotion datasets
show that our model can effectively capture the relevant semantics, especially
for the large deviations in modal semantics. The code and SDME dataset will be
publicly available.
- Abstract(参考訳): 人間は、表情、声、自然言語など、感情表現の豊かな方法を持っている。
異なる個人の多様性と複雑さのため、様々なモダリティによって表される感情は意味的に無関係である。
異なるモダリティからの情報を直接流用することで、必然的にモデルが意味的に無関係なモダリティからノイズを受けることができる。
この問題に対処するために,マルチモーダル感情におけるモーダル間の意味を捉えるマルチモーダル関連性推定ネットワークを提案する。
具体的には,各モダリティの意味的関連性の重みを反映するために注意機構を利用する。
さらに,各モダリティのセマンティクスを弱く管理するために,関連するセマンティクス推定損失を提案する。
さらに,特徴空間におけるカテゴリーレベルのモダリティ関連セマンティクスの類似性を最適化するために,コントラッシブラーニングを用いて,不均一なモダリティ間のセマンティクスギャップを埋める。
実際の対話シナリオにおける感情状態をよりよく反映し,セマンティック関連分析を行うために,SDMEと呼ばれる単一ラベルの離散的マルチモーダル感情データセットを収集し,大きなカテゴリバイアスを伴うマルチモーダルセマンティック関連研究を可能にする。
連続的および離散的な感情データセットの実験は、我々のモデルが関連セマンティクス、特にモーダルセマンティクスにおける大きな偏差を効果的に捉えることができることを示している。
コードとsdmeデータセットは公開される予定だ。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in
Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。
AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文 参考訳(メタデータ) (2024-01-26T19:17:05Z) - A Multi-Task, Multi-Modal Approach for Predicting Categorical and
Dimensional Emotions [0.0]
分類的・次元的な感情を予測するマルチタスク・マルチモーダルシステムを提案する。
その結果,2種類の感情の相互規則化の重要性が強調された。
論文 参考訳(メタデータ) (2023-12-31T16:48:03Z) - Adversarial Representation with Intra-Modal and Inter-Modal Graph Contrastive Learning for Multimodal Emotion Recognition [14.639340916340801]
マルチモーダル感情認識 (AR-IIGCN) 法に対して, モーダル内およびモーダル間グラフコントラストを用いた新しい適応表現を提案する。
まず、ビデオ、オーディオ、テキストの特徴を多層パーセプトロン(MLP)に入力し、それらを別々の特徴空間にマッピングする。
第2に,逆表現による3つのモーダル特徴に対するジェネレータと判別器を構築する。
第3に、モーダル内およびモーダル間相補的意味情報を取得するために、コントラッシブグラフ表現学習を導入する。
論文 参考訳(メタデータ) (2023-12-28T01:57:26Z) - A Transformer-Based Model With Self-Distillation for Multimodal Emotion
Recognition in Conversations [15.77747948751497]
本稿では, 自己蒸留(SDT)を用いたトランスフォーマーモデルを提案する。
提案モデルでは、モーダル内およびモーダル間変換器を用いて、モーダル内およびモーダル間相互作用をキャプチャする。
本稿では,ハードラベルとソフトラベルの知識をモデルから各モダリティへ伝達するために自己蒸留を導入する。
論文 参考訳(メタデータ) (2023-10-31T14:33:30Z) - Syntax and Semantics Meet in the "Middle": Probing the Syntax-Semantics
Interface of LMs Through Agentivity [68.8204255655161]
このような相互作用を探索するためのケーススタディとして,作用性のセマンティックな概念を提示する。
これは、LMが言語アノテーション、理論テスト、発見のためのより有用なツールとして役立つ可能性を示唆している。
論文 参考訳(メタデータ) (2023-05-29T16:24:01Z) - Disentangling Learnable and Memorizable Data via Contrastive Learning
for Semantic Communications [81.10703519117465]
セマンティック・レディにするために、ソースデータをアンタングルする新しい機械推論フレームワークが提案されている。
特に、データ上でインスタンスとクラスタの識別を行う新しいコントラスト学習フレームワークが提案されている。
信頼度の高い深いセマンティッククラスタは、学習可能でセマンティックリッチなデータだと考えられている。
シミュレーションの結果は, セマンティック・インパクトとミニマリズムの観点から, コントラスト学習アプローチの優位性を示した。
論文 参考訳(メタデータ) (2022-12-18T12:00:12Z) - Imitation Learning-based Implicit Semantic-aware Communication Networks:
Multi-layer Representation and Collaborative Reasoning [68.63380306259742]
有望な可能性にもかかわらず、セマンティック通信とセマンティック・アウェア・ネットワーキングはまだ初期段階にある。
本稿では,CDCとエッジサーバの複数層を連携させる,推論に基づく暗黙的セマンティック・アウェア通信ネットワークアーキテクチャを提案する。
暗黙的セマンティクスの階層構造と個人ユーザのパーソナライズされた推論嗜好を考慮に入れたセマンティクス情報の多層表現を提案する。
論文 参考訳(メタデータ) (2022-10-28T13:26:08Z) - Group Gated Fusion on Attention-based Bidirectional Alignment for
Multimodal Emotion Recognition [63.07844685982738]
本稿では、LSTM隠蔽状態上の注目に基づく双方向アライメントネットワークで構成されるGBAN(Gated Bidirectional Alignment Network)と呼ばれる新しいモデルを提案する。
LSTMの最後の隠れ状態よりもアテンション整列表現の方が有意に優れていたことを実証的に示す。
提案したGBANモデルは、IEMOCAPデータセットにおける既存の最先端マルチモーダルアプローチよりも優れている。
論文 参考訳(メタデータ) (2022-01-17T09:46:59Z) - Affect-DML: Context-Aware One-Shot Recognition of Human Affect using
Deep Metric Learning [29.262204241732565]
既存の方法は、すべての関心の感情に注釈付きトレーニングの例として優先順位が与えられると仮定している。
我々は、文脈における感情のワンショット認識を概念化し、単一のサポートサンプルからより細かい粒子レベルの人間の影響状態を認識することを目的とした新しい問題である。
モデルの全変種は、ランダムなベースラインよりも明らかに優れており、セマンティックシーンのコンテキストを活用することで、学習された表現を一貫して改善している。
論文 参考訳(メタデータ) (2021-11-30T10:35:20Z) - Multimodal Routing: Improving Local and Global Interpretability of
Multimodal Language Analysis [103.69656907534456]
人間中心のタスクに強いパフォーマンスを持つ最近のマルチモーダル学習は、しばしばブラックボックスである。
本稿では,各入力サンプルに対して,入力モダリティと出力表現の重み付けを異なる方法で調整するマルチモーダルルーティングを提案する。
論文 参考訳(メタデータ) (2020-04-29T13:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。