論文の概要: MFAS: Emotion Recognition through Multiple Perspectives Fusion
Architecture Search Emulating Human Cognition
- arxiv url: http://arxiv.org/abs/2306.09361v2
- Date: Mon, 25 Dec 2023 01:57:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-28 02:00:01.323454
- Title: MFAS: Emotion Recognition through Multiple Perspectives Fusion
Architecture Search Emulating Human Cognition
- Title(参考訳): MFAS: 人間の認知を模した多視点統合アーキテクチャ検索による感情認識
- Authors: Haiyang Sun, Fulin Zhang, Zheng Lian, Yingying Guo, Shilei Zhang
- Abstract要約: 音声感情認識は、人間に似たターゲット音声における感情状態を特定し、分析することを目的としている。
連続的な視点から音声コンテンツを理解することによって、より包括的な感情情報を捉えることができることを示す。
我々はMFAS(Multiple perspectives Fusion Architecture Search)と呼ばれる新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.998461754606131
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech emotion recognition aims to identify and analyze emotional states in
target speech similar to humans. Perfect emotion recognition can greatly
benefit a wide range of human-machine interaction tasks. Inspired by the human
process of understanding emotions, we demonstrate that compared to quantized
modeling, understanding speech content from a continuous perspective, akin to
human-like comprehension, enables the model to capture more comprehensive
emotional information. Additionally, considering that humans adjust their
perception of emotional words in textual semantic based on certain cues present
in speech, we design a novel search space and search for the optimal fusion
strategy for the two types of information. Experimental results further
validate the significance of this perception adjustment. Building on these
observations, we propose a novel framework called Multiple perspectives Fusion
Architecture Search (MFAS). Specifically, we utilize continuous-based knowledge
to capture speech semantic and quantization-based knowledge to learn textual
semantic. Then, we search for the optimal fusion strategy for them.
Experimental results demonstrate that MFAS surpasses existing models in
comprehensively capturing speech emotion information and can automatically
adjust fusion strategy.
- Abstract(参考訳): 音声感情認識は、人間に似たターゲット音声における感情状態を特定し分析することを目的としている。
完璧な感情認識は、幅広い人間と機械の相互作用に大いに役立つ。
人間の感情理解のプロセスに触発されて,人間のような理解に類似した連続的な視点から音声コンテンツを理解することによって,より包括的な感情情報を取得することができることを示した。
また,音声中の特定の手がかりに基づいて,人間が感情的な単語の知覚を調整することを考えると,新しい検索空間を設計し,その2種類の情報に対する最適な融合戦略を探索する。
実験結果は、この知覚調整の意義をさらに検証する。
これらの観測に基づいて,MFAS(Multiple perspectives Fusion Architecture Search)と呼ばれる新しいフレームワークを提案する。
具体的には,連続的知識を用いて音声意味と量子化に基づく知識を捉え,テキスト意味を学習する。
次に,それらの最適核融合戦略を探索する。
実験の結果,MFASは音声感情情報を包括的にキャプチャする既存のモデルを超え,融合戦略を自動的に調整できることがわかった。
関連論文リスト
- Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - SOLVER: Scene-Object Interrelated Visual Emotion Reasoning Network [83.27291945217424]
画像から感情を予測するために,SOLVER(Scene-Object Interrelated Visual Emotion Reasoning Network)を提案する。
異なるオブジェクト間の感情関係を掘り下げるために、まずセマンティックな概念と視覚的特徴に基づいて感情グラフを構築します。
また、シーンとオブジェクトを統合するScene-Object Fusion Moduleを設計し、シーンの特徴を利用して、提案したシーンベースのアテンションメカニズムでオブジェクトの特徴の融合プロセスを導出する。
論文 参考訳(メタデータ) (2021-10-24T02:41:41Z) - Stimuli-Aware Visual Emotion Analysis [75.68305830514007]
本稿では,刺激選択,特徴抽出,感情予測の3段階からなる刺激認識型視覚感情分析(VEA)手法を提案する。
我々の知る限りでは、エンド・ツー・エンドのネットワークでVEAに刺激選択プロセスを導入するのは初めてです。
実験により、提案手法は、4つの公的な視覚的感情データセットに対する最先端のアプローチよりも一貫して優れていることが示された。
論文 参考訳(メタデータ) (2021-09-04T08:14:52Z) - Emotion Recognition from Multiple Modalities: Fundamentals and
Methodologies [106.62835060095532]
マルチモーダル感情認識(MER)のいくつかの重要な側面について論じる。
まず、広く使われている感情表現モデルと感情モダリティの簡単な紹介から始める。
次に、既存の感情アノテーション戦略とそれに対応する計算タスクを要約する。
最後に,実世界のアプリケーションについて概説し,今後の方向性について論じる。
論文 参考訳(メタデータ) (2021-08-18T21:55:20Z) - Multi-Task Learning and Adapted Knowledge Models for Emotion-Cause
Extraction [18.68808042388714]
感情認識と感情原因検出の両方に共同で取り組むソリューションを提案する。
暗黙的に表現された感情を理解する上で,常識的知識が重要な役割を担っていることを考慮し,新しい手法を提案する。
共通センス推論とマルチタスクフレームワークを含む場合,両タスクのパフォーマンス改善を示す。
論文 参考訳(メタデータ) (2021-06-17T20:11:04Z) - DialogueCRN: Contextual Reasoning Networks for Emotion Recognition in
Conversations [0.0]
本稿では,会話コンテキストを認知的視点から完全に理解するための新しい文脈推論ネットワーク(DialogueCRN)を提案する。
感情認知理論(Cognitive Theory of Emotion)に触発された我々は、感情の手がかりを抽出し統合するための多ターン推論モジュールを設計する。
推論モジュールは、人間の独特な認知的思考を模倣する直感的検索プロセスと意識的推論プロセスを反復的に実行する。
論文 参考訳(メタデータ) (2021-06-03T16:47:38Z) - EmoDNN: Understanding emotions from short texts through a deep neural
network ensemble [2.459874436804819]
本稿では,短い内容から潜伏した個々の側面を推定する枠組みを提案する。
また,テキストコンテキストから感情を抽出する動的ドロップアウト共振器を備えた新しいアンサンブル分類器を提案する。
提案モデルでは,ノイズのある内容から感情を認識する上で,高い性能を実現することができる。
論文 参考訳(メタデータ) (2021-06-03T09:17:34Z) - Temporal aggregation of audio-visual modalities for emotion recognition [0.5352699766206808]
本研究では,時間的オフセットの異なる時間的オフセットと時間的ウィンドウからの音声・視覚的モダリティを組み合わせた感情認識のためのマルチモーダル融合手法を提案する。
提案手法は,文献と人間の精度評価から,他の手法よりも優れている。
論文 参考訳(メタデータ) (2020-07-08T18:44:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。