Fugu-MT 論文翻訳(概要): Context-Aware Siamese Networks for Efficient Emotion Recognition in Conversation

論文の概要: Context-Aware Siamese Networks for Efficient Emotion Recognition in Conversation

arxiv url: http://arxiv.org/abs/2404.11141v1
Date: Wed, 17 Apr 2024 07:36:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-18 14:55:00.598559
Title: Context-Aware Siamese Networks for Efficient Emotion Recognition in Conversation
Title（参考訳）: 会話における感情認識のための文脈対応シームズネットワーク
Authors: Barbara Gendron, Gaël Guibon,
Abstract要約: 本稿では,メトリクス学習訓練戦略に組み込む会話コンテキストをモデル化する手法を提案する。対話における感情分類のためのマクロF1スコアの57.71を,Siamese Networkアーキテクチャによるメトリック学習を用いて獲得する。
参考スコア（独自算出の注目度）: 1.1095648823126325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of deep learning models has made a considerable contribution to the achievement of Emotion Recognition in Conversation (ERC). However, this task still remains an important challenge due to the plurality and subjectivity of human emotions. Previous work on ERC provides predictive models using mostly graph-based conversation representations. In this work, we propose a way to model the conversational context that we incorporate into a metric learning training strategy, with a two-step process. This allows us to perform ERC in a flexible classification scenario and to end up with a lightweight yet efficient model. Using metric learning through a Siamese Network architecture, we achieve 57.71 in macro F1 score for emotion classification in conversation on DailyDialog dataset, which outperforms the related work. This state-of-the-art result is promising regarding the use of metric learning for emotion recognition, yet perfectible compared to the microF1 score obtained.
Abstract（参考訳）: 深層学習モデルの出現は、会話における感情認識(ERC)の達成に多大な貢献をしている。しかし、人間の感情の多さと主観性のため、この課題は依然として重要な課題である。 ERCに関する以前の研究は、主にグラフベースの会話表現を使用して予測モデルを提供する。本研究では,2段階のプロセスで,メトリクス学習訓練戦略に組み込まれた会話コンテキストをモデル化する手法を提案する。これにより、フレキシブルな分類シナリオでERCを実行し、軽量で効率的なモデルにたどり着くことができます。シームズネットワークアーキテクチャによるメトリクス学習を用いて,DailyDialogデータセット上での会話における感情分類のためのマクロF1スコアの57.71を達成し,関連する作業を上回った。この最先端の成果は、感情認識におけるメトリックラーニングの使用に関して有望であるが、マイクロF1スコアと比較すると完璧である。

関連論文リスト

Do LLMs Feel? Teaching Emotion Recognition with Prompts, Retrieval, and Curriculum Learning [16.195689085967004]
会話における感情認識(Emotion Recognition in Conversation、ERC)は、人間の感情を理解し、人間とコンピュータの自然な相互作用を可能にするための重要なタスクである。本稿では,Promptエンジニアリング,実証検索,カリキュラム学習を統合した新しいERCトレーニングフレームワークであるPRC-Emoを提案する。提案手法は新たなSOTA(State-of-the-art)性能を実現し,提案手法の有効性と一般化性を示す。
論文参考訳（メタデータ） (2025-11-10T12:52:11Z)
Chain-of-Thought Training for Open E2E Spoken Dialogue Systems [57.77235760292348]
エンド・ツー・エンド(E2E)音声対話システムは完全な識別性を保ち、非音声情報をキャプチャする。我々は,多モーダル言語モデルと密接に一致した会話データによる学習を確実にするためのチェーン・オブ・シント(CoT)の定式化を提案する。提案手法はベースラインよりも1.5ROUGE-1の改善を実現し,一般公開された人間と人間の会話データセット上で音声対話システムの訓練に成功している。
論文参考訳（メタデータ） (2025-05-31T21:43:37Z)
Emo Pillars: Knowledge Distillation to Support Fine-Grained Context-Aware and Context-Less Emotion Classification [56.974545305472304]
感情分析のためのほとんどのデータセットは、意見が表現された文脈を欠き、感情理解に不可欠であり、主にいくつかの感情カテゴリーによって制限される。我々はLLMベースのデータ合成パイプラインを設計し、よりアクセスしやすい軽量BERT型エンコーダモデルのトレーニング例を生成するために、大規模モデルMistral-7bを利用する。 Emo Pillarsモデルは、GoEmotions、ISEAR、IEMOCAP、EmoContextといった特定のタスクに調整された場合、新しいドメインに対して高い適応性を示し、最初の3つでSOTAのパフォーマンスに達した。
論文参考訳（メタデータ） (2025-04-23T16:23:17Z)
Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。 HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文参考訳（メタデータ） (2025-01-06T14:31:25Z)
Emotion Rendering for Conversational Speech Synthesis with Heterogeneous Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文参考訳（メタデータ） (2023-12-19T08:47:50Z)
EmotionIC: emotional inertia and contagion-driven dependency modeling for emotion recognition in conversation [34.24557248359872]
本稿では,ERCタスクに対する感情的慣性・伝染型依存性モデリング手法(EmotionIC)を提案する。 EmotionICは3つの主要コンポーネント、すなわちIDマスク付きマルチヘッド注意(IMMHA)、対話型Gated Recurrent Unit(DiaGRU)、Skip-chain Conditional Random Field(SkipCRF)から構成されている。実験結果から,提案手法は4つのベンチマークデータセットにおいて,最先端のモデルよりも大幅に優れていることが示された。
論文参考訳（メタデータ） (2023-03-20T13:58:35Z)
Deep Emotion Recognition in Textual Conversations: A Survey [0.8602553195689513]
新しいアプリケーションと実装シナリオは、新しい課題と機会を示します。これらは会話の文脈、話者、感情のダイナミクスのモデリングから、一般的な感覚表現の解釈まで様々である。この調査は、アンバランスなデータに対処するテクニックを活用する利点を強調している。
論文参考訳（メタデータ） (2022-11-16T19:42:31Z)
Contextual Information and Commonsense Based Prompt for Emotion Recognition in Conversation [14.651642872901496]
会話における感情認識(Emotion Recognition in conversation,ERC)は、ある会話における発話ごとの感情を検出することを目的としている。近年のERCモデルは、事前学習と微調整のパラダイムを取り入れた事前学習言語モデル(PLM)を活用して、優れた性能を実現している。本稿では,命令モデルと言語モデル(LM)チューニングの新しいパラダイムを取り入れた新しいERCモデルCISPERを提案する。
論文参考訳（メタデータ） (2022-07-27T02:34:05Z)
M2FNet: Multi-modal Fusion Network for Emotion Recognition in Conversation [1.3864478040954673]
視覚,音声,テキストのモダリティから感情関連特徴を抽出するマルチモーダルフュージョンネットワーク(M2FNet)を提案する。マルチヘッドアテンションに基づく融合機構を用いて、入力データの感情に富んだ潜在表現を結合する。提案する特徴抽出器は,音声および視覚データから感情関連特徴を学習するために,適応的マージンに基づく新しい三重項損失関数を用いて訓練される。
論文参考訳（メタデータ） (2022-06-05T14:18:58Z)
Multimodal Emotion Recognition using Transfer Learning from Speaker Recognition and BERT-based models [53.31917090073727]
本稿では,音声とテキストのモダリティから,伝達学習モデルと微調整モデルとを融合したニューラルネットワークによる感情認識フレームワークを提案する。本稿では,対話型感情的モーションキャプチャー・データセットにおけるマルチモーダル・アプローチの有効性を評価する。
論文参考訳（メタデータ） (2022-02-16T00:23:42Z)
Hybrid Curriculum Learning for Emotion Recognition in Conversation [10.912215835115063]
本枠組みは,(1)会話レベルカリキュラム(CC)と(2)発話レベルカリキュラム(UC)の2つのカリキュラムから構成される。提案したモデルに依存しないハイブリッドカリキュラム学習戦略により,既存のERCモデルに対する大幅な性能向上が観測された。
論文参考訳（メタデータ） (2021-12-22T08:02:58Z)
Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文参考訳（メタデータ） (2021-12-10T20:47:58Z)
MEmoBERT: Pre-training Model with Prompt-based Learning for Multimodal Emotion Recognition [118.73025093045652]
マルチモーダル感情認識のための事前学習モデル textbfMEmoBERT を提案する。従来の「訓練前、微妙な」パラダイムとは異なり、下流の感情分類タスクをマスク付きテキスト予測として再構成するプロンプトベースの手法を提案する。提案するMEMOBERTは感情認識性能を大幅に向上させる。
論文参考訳（メタデータ） (2021-10-27T09:57:00Z)
EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文参考訳（メタデータ） (2021-06-17T08:34:21Z)
Speech Command Recognition in Computationally Constrained Environments with a Quadratic Self-organized Operational Layer [92.37382674655942]
軽量ネットワークの音声コマンド認識能力を向上するネットワーク層を提案する。この手法はテイラー展開と二次形式の概念を借用し、入力層と隠蔽層の両方における特徴のより良い表現を構築する。このリッチな表現は、Google音声コマンド(GSC)と合成音声コマンド(SSC)データセットに関する広範な実験で示されているように、認識精度の向上をもたらす。
論文参考訳（メタデータ） (2020-11-23T14:40:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。