Fugu-MT 論文翻訳(概要): CKERC : Joint Large Language Models with Commonsense Knowledge for Emotion Recognition in Conversation

論文の概要: CKERC : Joint Large Language Models with Commonsense Knowledge for Emotion Recognition in Conversation

arxiv url: http://arxiv.org/abs/2403.07260v1
Date: Tue, 12 Mar 2024 02:37:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-13 23:15:51.049665
Title: CKERC : Joint Large Language Models with Commonsense Knowledge for Emotion Recognition in Conversation
Title（参考訳）: CKERC : 会話における感情認識のための共通知識付き大言語モデル
Authors: Yumeng Fu
Abstract要約: 会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話の文脈における発話の感情を予測するタスクである。会話における感情認識のための共通知識フレームワークであるCKERCを提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Emotion recognition in conversation (ERC) is a task which predicts the emotion of an utterance in the context of a conversation. It tightly depends on dialogue context, speaker identity information, multiparty dialogue scenario and so on. However, the state-of-the-art method (instructERC) solely identifying speaker, and ignores commonsense knowledge(i.e., reaction of the listeners and intention of the speaker, etc.) behind speakers during a conversation, which can deeply mine speaker information. To this end, we propose a novel joint large language models with commonsense knowledge framework for emotion recognition in conversation, namely CKERC.We design prompts to generate interlocutors' commonsense based on historical utterances with large language model. And we use the interlocutor commonsense identification task for LLM pre-training to fine-tune speaker implicit clues information.By solving above challenge, our method achieve state-of-the-art.We extensive experiment on three widely-used datasets, i.e., IEMOCAP, MELD, EmoryNLP, demonstrate our method superiority. Also, we conduct in-depth analysis and further demonstrate the effectiveness of commonsense knowledge in ERC task in large language model.
Abstract（参考訳）: 会話における感情認識(英: Emotion Recognition in conversation、ERC)とは、会話の文脈における発話の感情を予測するタスクである。それは、対話の文脈、話者のアイデンティティ情報、多人数の対話のシナリオなどに大きく依存する。しかし、現状技術(インストラクタC)は話者のみを識別し、会話中の話者の背後にある常識知識(リスナーの反応や話者の意図など)を無視し、話者情報を深く掘り下げることができる。そこで本研究では,会話における感情認識のためのコモンセンス知識フレームワークであるckercを用いた新しいジョイント大規模言語モデルを提案する。また,LLMプレトレーニングにインターロカクタのコモンセンス識別タスクを用いて,話者の暗黙的な手がかりを抽出し,課題を解決するため,提案手法は最先端の3つのデータセット(IEMOCAP,MELD,EmoryNLP)に対して広範な実験を行った。また,大規模言語モデルにおけるERCタスクにおけるコモンセンス知識の有効性を詳細に分析し,さらに実証する。

関連論文リスト

BeMERC: Behavior-Aware MLLM-based Framework for Multimodal Emotion Recognition in Conversation [29.514459004019024]
本稿では,ビニラMLLMに基づくMERCモデルに話者の振る舞いを組み込む行動認識型MLLMベースのフレームワーク(BeMERC)を提案する。 BeMERCは2つのベンチマークデータセットの最先端手法よりも優れた性能を実現している。
論文参考訳（メタデータ） (2025-03-31T12:04:53Z)
WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文参考訳（メタデータ） (2024-11-15T04:16:45Z)
SIFToM: Robust Spoken Instruction Following through Theory of Mind [51.326266354164716]
本稿では,認知にインスパイアされた音声指導モデルであるSIFToMを提案し,多様な音声条件下でロボットが人間の指示を実践的に追従できるようにする。結果から,SIFToMモデルは現状の音声モデルや言語モデルよりも優れており,課題に追従する音声命令に対する人間レベルの精度に近づいていることがわかった。
論文参考訳（メタデータ） (2024-09-17T02:36:10Z)
BiosERC: Integrating Biography Speakers Supported by LLMs for ERC Tasks [2.9873893715462176]
本研究は,会話における話者特性を調査するBiosERCという新しいフレームワークを紹介する。本研究では,Large Language Models (LLMs) を用いて,会話中の話者の「生体情報」を抽出する。提案手法は,3つの有名なベンチマークデータセットを用いて,最先端のSOTA(State-of-the-art)結果を得た。
論文参考訳（メタデータ） (2024-07-05T06:25:34Z)
Can LLMs Understand the Implication of Emphasized Sentences in Dialogue? [64.72966061510375]
強調は人間のコミュニケーションにおいて重要な要素であり、対話における純粋テキストを超えて話者の意図と含意を示す。本稿では,強調の意味を抽出した強調注釈付き対話サンプルを用いたベンチマークであるEmphasized-Talkを紹介する。オープンソースと商用の両方で様々な大規模言語モデル(LLM)を評価し,その性能を重要視して評価する。
論文参考訳（メタデータ） (2024-06-16T20:41:44Z)
Speaker Verification in Agent-Generated Conversations [47.6291644653831]
近年の大型言語モデル (LLM) の成功は、様々な話者の特徴やスタイルに合わせたロールプレイング・会話エージェントを開発し、汎用的・特殊な対話タスクを遂行する能力を高めるために広く関心を集めている。本研究では,2つの発話が同一話者から発せられるかどうかを検証することを目的とした,エージェント生成会話における話者検証という,新たな評価課題を紹介する。
論文参考訳（メタデータ） (2024-05-16T14:46:18Z)
Revealing Emotional Clusters in Speaker Embeddings: A Contrastive Learning Strategy for Speech Emotion Recognition [27.098672790099304]
感情情報は話者埋め込みに間接的に埋め込まれていると推定され、その未利用に繋がった。本研究は,話者内クラスタの形で,感情と最先端の話者埋め込みの直接的かつ有用な関係を明らかにする。音声の感情認識のための感情非ラベルデータに適用する新しいコントラスト事前学習手法を提案する。
論文参考訳（メタデータ） (2024-01-19T20:31:53Z)
Emotional Listener Portrait: Realistic Listener Motion Simulation in Conversation [50.35367785674921]
リスナーヘッドジェネレーションは、話者から提供される情報を参照して、リスナーの非言語行動を生成することに集中する。このような反応を生成する上で重要な課題は、会話中のきめ細かい表情の非決定論的性質である。本稿では,複数の個別な動きコーパスの合成として,各顔の動きを微粒化処理する情緒的リスナー・ポートレート(ELP)を提案する。 ELPモデルは,学習分布からのサンプリングにより,与えられた話者に対する自然な,多様な応答を自動的に生成するだけでなく,所定の姿勢で制御可能な応答を生成することができる。
論文参考訳（メタデータ） (2023-09-29T18:18:32Z)
Affect Recognition in Conversations Using Large Language Models [9.689990547610664]
影響認識は人間のコミュニケーションにおいて重要な役割を担っている。本研究では,会話における人間の影響を認識するための言語モデル(LLM)の能力について検討する。
論文参考訳（メタデータ） (2023-09-22T14:11:23Z)
Multiscale Contextual Learning for Speech Emotion Recognition in Emergency Call Center Conversations [4.297070083645049]
本稿では,音声感情認識のためのマルチスケール会話文脈学習手法を提案する。音声の書き起こしと音響セグメントの両方について,本手法について検討した。我々のテストによると、過去のトークンから派生したコンテキストは、以下のトークンよりも正確な予測に大きな影響を及ぼす。
論文参考訳（メタデータ） (2023-08-28T20:31:45Z)
Context-Dependent Embedding Utterance Representations for Emotion Recognition in Conversations [1.8126187844654875]
我々は会話の文脈を利用した会話における感情認識にアプローチする。それぞれの発話の文脈依存的な埋め込み表現を提案する。提案手法の有効性は,オープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証される。
論文参考訳（メタデータ） (2023-04-17T12:37:57Z)
deep learning of segment-level feature representation for speech emotion recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文参考訳（メタデータ） (2023-02-05T16:15:46Z)
KPT: Keyword-guided Pre-training for Grounded Dialog Generation [82.68787152707455]
KPT(Guided Pre-Training)は,グラウンドドダイアログ生成のための自己教師付き事前学習手法である。具体的には、事前訓練された言語モデルを用いて、ダイアログ内の最も不確実なトークンをキーワードとして抽出する。我々は,対話行為,知識グラフ,ペルソナ記述,ウィキペディアの文節など,数発の知識ベース生成タスクについて広範な実験を行った。
論文参考訳（メタデータ） (2022-12-04T04:05:01Z)
KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文参考訳（メタデータ） (2022-05-11T16:01:03Z)
End-to-end Spoken Conversational Question Answering: Task, Dataset and Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文参考訳（メタデータ） (2022-04-29T17:56:59Z)
Reinforcement Learning for Emotional Text-to-Speech Synthesis with Improved Emotion Discriminability [82.39099867188547]
感情的テキスト音声合成(ETTS)は近年大きく進歩している。 i-ETTSと呼ばれるETTSの新しい対話型トレーニングパラダイムを提案する。 i-ETTSの最適化品質を確保するため、強化学習による反復トレーニング戦略を策定します。
論文参考訳（メタデータ） (2021-04-03T13:52:47Z)
Multi-turn Dialogue Reading Comprehension with Pivot Turns and Knowledge [43.352833140317486]
マルチターン対話読解は、機械に対話コンテキストを読み、応答選択や回答質問といったタスクを解くことを目的としている。この研究は、ピボット発話として重要なターンを抽出することで、上記の2つの課題に対処する最初の試みである。本稿では,対話理解のためのトランスフォーマーに基づく言語モデル上に,ピボット指向の深層選択モデル(PoDS)を提案する。
論文参考訳（メタデータ） (2021-02-10T15:00:12Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)
An Overview of Deep-Learning-Based Audio-Visual Speech Enhancement and Separation [57.68765353264689]
音声強調と音声分離は関連する2つの課題である。伝統的に、これらのタスクは信号処理と機械学習技術を使って取り組まれてきた。ディープラーニングは強力なパフォーマンスを達成するために利用されています。
論文参考訳（メタデータ） (2020-08-21T17:24:09Z)
TOD-BERT: Pre-trained Natural Language Understanding for Task-Oriented Dialogue [113.45485470103762]
本研究では,言語モデリングのためのタスク指向対話データセットを,人間とマルチターンの9つに統合する。事前学習時の対話動作をモデル化するために,ユーザトークンとシステムトークンをマスク付き言語モデルに組み込む。
論文参考訳（メタデータ） (2020-04-15T04:09:05Z)
Multi-Task Learning with Auxiliary Speaker Identification for Conversational Emotion Recognition [32.439818455554885]
話者識別(SI)を補助課題として活用し,会話における発話表現を強化する。この方法により、追加のSIコーパスから話者認識型文脈表現を学習できる。 2つのベンチマークデータセットの実験では、提案されたアーキテクチャがCERに非常に有効であることが示されている。
論文参考訳（メタデータ） (2020-03-03T12:25:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。