論文の概要: Understanding Emotion in Discourse: Recognition Insights and Linguistic Patterns for Generation
- arxiv url: http://arxiv.org/abs/2601.00181v1
- Date: Thu, 01 Jan 2026 02:49:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.296113
- Title: Understanding Emotion in Discourse: Recognition Insights and Linguistic Patterns for Generation
- Title(参考訳): 談話における感情の理解:認識の視点と生成のための言語パターン
- Authors: Cheonkam Jeong, Adeline Nyamathi,
- Abstract要約: 認識のための10シード評価を併用した厳格なアブレーション試験を行った。
言語分析では,5,286件の談話マーカーを解析する。
感情とマーカー位置の有意な関連性を見いだす。
- 参考スコア(独自算出の注目度): 0.36980845568339205
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Emotion Recognition in Conversation (ERC) has achieved high accuracy, two critical gaps remain: a limited understanding of \textit{which} architectural choices actually matter, and a lack of linguistic analysis connecting recognition to generation. We address both gaps through a systematic analysis of the IEMOCAP dataset. For recognition, we conduct a rigorous ablation study with 10-seed evaluation and report three key findings. First, conversational context is paramount, with performance saturating rapidly -- 90\% of the total gain achieved within just the most recent 10--30 preceding turns (depending on the label set). Second, hierarchical sentence representations help at utterance-level, but this benefit disappears once conversational context is provided, suggesting that context subsumes intra-utterance structure. Third, external affective lexicons (SenticNet) provide no gain, indicating that pre-trained encoders already capture necessary emotional semantics. With simple architectures using strictly causal context, we achieve 82.69\% (4-way) and 67.07\% (6-way) weighted F1, outperforming prior text-only methods including those using bidirectional context. For linguistic analysis, we analyze 5,286 discourse marker occurrences and find a significant association between emotion and marker positioning ($p < .0001$). Notably, "sad" utterances exhibit reduced left-periphery marker usage (21.9\%) compared to other emotions (28--32\%), consistent with theories linking left-periphery markers to active discourse management. This connects to our recognition finding that sadness benefits most from context (+22\%p): lacking explicit pragmatic signals, sad utterances require conversational history for disambiguation.
- Abstract(参考訳): Emotion Recognition in Conversation (ERC) は高い精度を達成しているが、2つの重要なギャップが残っている。
我々は、IEMOCAPデータセットの体系的な解析を通して、両方のギャップに対処する。
認識のために,10シード評価を併用した厳密なアブレーション試験を行い,3つの重要な知見を報告する。
まず、会話のコンテキストが最重要であり、パフォーマンスは急速に飽和し、最新の10-30ターン(ラベルセットに依存している)で達成された総利益の90%が達成されます。
第二に、階層的な文表現は発話レベルの助けとなるが、この利点は会話の文脈が提供されると消滅し、文脈が発話内構造に該当することを示唆する。
第3に、外部の感情的語彙(SenticNet)は利得を与えず、事前学習されたエンコーダが既に必要な感情的意味論を捉えていることを示している。
厳密な因果文脈を用いた単純なアーキテクチャでは、82.69\% (4-way) と67.07\% (6-way) の重み付け F1 が達成され、双方向のコンテキストを使用する場合を含む従来のテキストのみの手法よりも優れていた。
言語学的分析では,5,286件の談話マーカーを解析し,感情とマーカー位置の有意な関連を見出す(p < .0001$)。
特に「sad」の発話は、他の感情(28-32-%)と比較して左周マーカーの使用率(21.9-%)が減少し、左周マーカーをアクティブな談話管理にリンクする理論と一致している。
このことは、悲しみが文脈から最も恩恵を受けること(+22\%p)、明らかな実用的信号が欠如していること、悲しみの発声にはあいまいさの会話履歴が必要であること、という認識に結びついている。
関連論文リスト
- Improving Speech-based Emotion Recognition with Contextual Utterance Analysis and LLMs [2.8728982844941178]
音声感情認識(SER)は、音声言語から感情状態を特定することに焦点を当てている。
データ信頼性を確保するために、まず利用可能なすべての書き起こしを改良する新しいアプローチを提案する。
次に、各会話をより小さな対話に分割し、これらの対話を文脈として使用し、対話内のターゲット発話の感情を予測する。
論文 参考訳(メタデータ) (2024-10-27T04:23:34Z) - Emotion Rendering for Conversational Speech Synthesis with Heterogeneous
Graph-Based Context Modeling [50.99252242917458]
会話音声合成(CSS)は,会話環境の中で適切な韻律と感情のインフレクションで発話を正確に表現することを目的としている。
データ不足の問題に対処するため、私たちはカテゴリと強度の点で感情的なラベルを慎重に作成します。
我々のモデルは感情の理解と表現においてベースラインモデルよりも優れています。
論文 参考訳(メタデータ) (2023-12-19T08:47:50Z) - Speech and Text-Based Emotion Recognizer [0.9168634432094885]
我々は、音声感情認識のための公開データセットからバランスの取れたコーパスを構築する。
最良システムはマルチモーダル音声とテキストベースモデルであり,UA(Unweighed Accuracy)+WA(Weighed Accuracy)を119.66のベースラインアルゴリズムと比較して157.57の性能を提供する。
論文 参考訳(メタデータ) (2023-12-10T05:17:39Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - Distributed Marker Representation for Ambiguous Discourse Markers and
Entangled Relations [50.31129784616845]
我々は、無制限の談話マーカーデータと潜在談話感覚を利用して分散マーカ表現(DMR)を学習する。
提案手法は,対話マーカー間の複雑なあいまいさや絡み合いや,手動で定義した談話関係を理解する上でも有用である。
論文 参考訳(メタデータ) (2023-06-19T00:49:51Z) - Towards Unsupervised Recognition of Token-level Semantic Differences in
Related Documents [61.63208012250885]
意味的差異をトークンレベルの回帰タスクとして認識する。
マスク付き言語モデルに依存する3つの教師なしアプローチについて検討する。
その結果,単語アライメントと文レベルのコントラスト学習に基づくアプローチは,ゴールドラベルと強い相関関係があることが示唆された。
論文 参考訳(メタデータ) (2023-05-22T17:58:04Z) - We're Afraid Language Models Aren't Modeling Ambiguity [136.8068419824318]
あいまいさの管理は人間の言語理解の重要な部分です。
文中のあいまいさは,他の文との係り受け関係に与える影響によって特徴付けられる。
我々は,多ラベルNLIモデルが曖昧さによって誤解を招く野生の政治的主張にフラグを付けることができることを示す。
論文 参考訳(メタデータ) (2023-04-27T17:57:58Z) - Feature Selection Enhancement and Feature Space Visualization for
Speech-Based Emotion Recognition [2.223733768286313]
音声の感情認識を改善する音声特徴強調戦略を提案する。
この戦略は、文学で使われている最先端の手法と比較される。
EMO-DBデータセットでは7つの感情のうち6つの感情のうち11.5%、RAVDESSデータセットでは8つの感情のうち7つの感情のうち13.8%が認識された。
論文 参考訳(メタデータ) (2022-08-19T11:29:03Z) - BiERU: Bidirectional Emotional Recurrent Unit for Conversational
Sentiment Analysis [18.1320976106637]
会話感情分析と単文感情分析の主な違いは、文脈情報の存在である。
既存のアプローチでは、会話内の異なるパーティを区別し、コンテキスト情報をモデル化するために複雑なディープラーニング構造を採用している。
本稿では,会話感情分析のための双方向感情的反復単位という,高速でコンパクトでパラメータ効率のよい非依存フレームワークを提案する。
論文 参考訳(メタデータ) (2020-05-31T11:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。