論文の概要: LaERC-S: Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics
- arxiv url: http://arxiv.org/abs/2403.07260v2
- Date: Mon, 03 Mar 2025 09:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 16:10:27.041171
- Title: LaERC-S: Improving LLM-based Emotion Recognition in Conversation with Speaker Characteristics
- Title(参考訳): LaERC-S:話者特性との対話におけるLLMに基づく感情認識の改善
- Authors: Yumeng Fu, Junjie Wu, Zhongjie Wang, Meishan Zhang, Lili Shan, Yulin Wu, Bingquan Li,
- Abstract要約: 会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話中の発話ごとに人間の感情を識別するタスクである。
ERCにおける最近の研究は、感情状態を理解するために話者モデリングを用いた事前訓練された大規模言語モデル(LLM)の利用を模索している。
LLMを刺激する新しいフレームワークであるLaERC-Sを提案する。
- 参考スコア(独自算出の注目度): 25.284238441231853
- License:
- Abstract: Emotion recognition in conversation (ERC), the task of discerning human emotions for each utterance within a conversation, has garnered significant attention in human-computer interaction systems. Previous ERC studies focus on speaker-specific information that predominantly stems from relationships among utterances, which lacks sufficient information around conversations. Recent research in ERC has sought to exploit pre-trained large language models (LLMs) with speaker modelling to comprehend emotional states. Although these methods have achieved encouraging results, the extracted speaker-specific information struggles to indicate emotional dynamics. In this paper, motivated by the fact that speaker characteristics play a crucial role and LLMs have rich world knowledge, we present LaERC-S, a novel framework that stimulates LLMs to explore speaker characteristics involving the mental state and behavior of interlocutors, for accurate emotion predictions. To endow LLMs with this knowledge information, we adopt the two-stage learning to make the models reason speaker characteristics and track the emotion of the speaker in complex conversation scenarios. Extensive experiments on three benchmark datasets demonstrate the superiority of LaERC-S, reaching the new state-of-the-art.
- Abstract(参考訳): 会話における感情認識(Emotion Recognition in conversation,ERC)は、会話中の発話ごとに人間の感情を識別するタスクであり、人間とコンピュータのインタラクションシステムにおいて大きな注目を集めている。
従来のERC研究は、主に発話間の関係から生じる話者固有の情報に焦点を当てており、会話に関する十分な情報がない。
ERCにおける最近の研究は、感情状態を理解するために話者モデリングを用いた事前訓練された大規模言語モデル(LLM)の利用を模索している。
これらの手法は奨励的な結果を得たが、抽出された話者固有の情報は感情的ダイナミクスを示すのに苦労している。
本稿では,LLMの話者特性が重要な役割を担い,LLMが豊かな世界知識を持つという事実を動機として,LLMを刺激する新しいフレームワークであるLaERC-Sを提案する。
この知識情報をLLMに付与するために、複雑な会話シナリオにおいて、モデルが話者特性を推論し、話者の感情を追跡するために、2段階学習を採用する。
3つのベンチマークデータセットに対する大規模な実験は、LaERC-Sの優位性を示し、新しい最先端に到達した。
関連論文リスト
- Leveraging Chain of Thought towards Empathetic Spoken Dialogue without Corresponding Question-Answering Data [33.85748258158527]
共感的対話は人間とコンピュータの自然な相互作用に不可欠である。
大規模言語モデル(LLM)は、その強力な能力を活用して対話生成に革命をもたらした。
本稿では,質問応答データの必要性を回避する新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-19T04:10:53Z) - WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - Multiscale Contextual Learning for Speech Emotion Recognition in
Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。
音声の書き起こしと音響セグメントの両方について,本手法について検討した。
我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-08-28T20:31:45Z) - deep learning of segment-level feature representation for speech emotion
recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。
まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。
第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文 参考訳(メタデータ) (2023-02-05T16:15:46Z) - KPT: Keyword-guided Pre-training for Grounded Dialog Generation [82.68787152707455]
KPT(Guided Pre-Training)は,グラウンドドダイアログ生成のための自己教師付き事前学習手法である。
具体的には、事前訓練された言語モデルを用いて、ダイアログ内の最も不確実なトークンをキーワードとして抽出する。
我々は,対話行為,知識グラフ,ペルソナ記述,ウィキペディアの文節など,数発の知識ベース生成タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-12-04T04:05:01Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Multi-turn Dialogue Reading Comprehension with Pivot Turns and Knowledge [43.352833140317486]
マルチターン対話読解は、機械に対話コンテキストを読み、応答選択や回答質問といったタスクを解くことを目的としている。
この研究は、ピボット発話として重要なターンを抽出することで、上記の2つの課題に対処する最初の試みである。
本稿では,対話理解のためのトランスフォーマーに基づく言語モデル上に,ピボット指向の深層選択モデル(PoDS)を提案する。
論文 参考訳(メタデータ) (2021-02-10T15:00:12Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z) - TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented
Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。
事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文 参考訳(メタデータ) (2020-04-15T04:09:05Z) - Multi-Task Learning with Auxiliary Speaker Identification for
Conversational Emotion Recognition [32.439818455554885]
話者識別(SI)を補助課題として活用し,会話における発話表現を強化する。
この方法により、追加のSIコーパスから話者認識型文脈表現を学習できる。
2つのベンチマークデータセットの実験では、提案されたアーキテクチャがCERに非常に有効であることが示されている。
論文 参考訳(メタデータ) (2020-03-03T12:25:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。