Fugu-MT 論文翻訳(概要): TED: Turn Emphasis with Dialogue Feature Attention for Emotion Recognition in Conversation

論文の概要: TED: Turn Emphasis with Dialogue Feature Attention for Emotion Recognition in Conversation

arxiv url: http://arxiv.org/abs/2501.01123v1
Date: Thu, 02 Jan 2025 07:44:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-05 16:54:32.193978
Title: TED: Turn Emphasis with Dialogue Feature Attention for Emotion Recognition in Conversation
Title（参考訳）: TED:会話における感情認識における対話的特徴意識の転換
Authors: Junya Ono, Hiromi Wakaki,
Abstract要約: 本稿では,各曲がり角を明示的に識別する優先度に基づくアテンション手法を提案する。対話機能としてターン位置と話者情報に基づいて各ターンを優先する。マルチターン入力のためのターンベースベクトル間のマルチヘッド自己アテンションと、対話機能によるアテンションスコアの調整を行う。
参考スコア（独自算出の注目度）: 0.6522338519818378
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Emotion recognition in conversation (ERC) has been attracting attention by methods for modeling multi-turn contexts. The multi-turn input to a pretraining model implicitly assumes that the current turn and other turns are distinguished during the training process by inserting special tokens into the input sequence. This paper proposes a priority-based attention method to distinguish each turn explicitly by adding dialogue features into the attention mechanism, called Turn Emphasis with Dialogue (TED). It has a priority for each turn according to turn position and speaker information as dialogue features. It takes multi-head self-attention between turn-based vectors for multi-turn input and adjusts attention scores with the dialogue features. We evaluate TED on four typical benchmarks. The experimental results demonstrate that TED has high overall performance in all datasets and achieves state-of-the-art performance on IEMOCAP with numerous turns.
Abstract（参考訳）: 会話における感情認識(ERC)は,マルチターンコンテキストをモデル化する手法によって注目されている。事前学習モデルに対するマルチターン入力は、入力シーケンスに特別なトークンを挿入することにより、トレーニングプロセス中に現在のターンや他のターンが区別されることを暗黙的に仮定する。そこで本稿では,TED (Turn Emphasis with Dialogue) と呼ばれる注意機構に対話機能を付加することで,各旋回を明示的に識別する優先度に基づく注意法を提案する。対話機能として、ターン位置と話者情報に基づいて各ターンに優先する。マルチターン入力のためのターンベースベクトル間のマルチヘッド自己アテンションと、対話機能によるアテンションスコアの調整を行う。 TEDを4つの典型的なベンチマークで評価する。実験の結果,TEDは全データセットで高い全体的なパフォーマンスを示し,IEMOCAP上での最先端のパフォーマンスを多数のターンで達成している。

関連論文リスト

PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs [36.18860434920165]
音声データセットにパーソナリティアノテーションがないために、パーソナリティを意識した会話エージェントが不足している。本研究では、生音声録音を前処理して、タイムスタンプ、応答タイプ、感情・感覚ラベルを付加した対話データセットを作成するパイプラインを提案する。自動音声認識(ASR)システムを用いて,テキストとタイムスタンプを抽出し,会話レベルのアノテーションを生成する。
論文参考訳（メタデータ） (2025-05-20T13:41:32Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
AMuSE: Adaptive Multimodal Analysis for Speaker Emotion Recognition in Group Conversations [39.79734528362605]
マルチモーダルアテンションネットワークは、空間抽象の様々なレベルにおける相互モーダル相互作用をキャプチャする。 AMuSEモデルは、空間的特徴と時間的特徴の両方を、話者レベルと発話レベルという2つの濃密な記述子に凝縮する。
論文参考訳（メタデータ） (2024-01-26T19:17:05Z)
Conversation Understanding using Relational Temporal Graph Neural Networks with Auxiliary Cross-Modality Interaction [2.1261712640167856]
感情認識は人間の会話理解にとって重要な課題である。我々は,CORECT(Cross-Modality Interaction)を用いた入力時間グラフニューラルネットワークを提案する。 CORECTは会話レベルの対話と発話レベルの時間的依存関係を効果的にキャプチャする。
論文参考訳（メタデータ） (2023-11-08T07:46:25Z)
Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文参考訳（メタデータ） (2023-09-18T11:03:55Z)
Context-Dependent Embedding Utterance Representations for Emotion Recognition in Conversations [1.8126187844654875]
我々は会話の文脈を利用した会話における感情認識にアプローチする。それぞれの発話の文脈依存的な埋め込み表現を提案する。提案手法の有効性は,オープンドメインのDailyDialogデータセットとタスク指向のEmoWOZデータセットで検証される。
論文参考訳（メタデータ） (2023-04-17T12:37:57Z)
deep learning of segment-level feature representation for speech emotion recognition in conversations [9.432208348863336]
そこで本稿では,意図的文脈依存と話者感応的相互作用をキャプチャする対話型音声感情認識手法を提案する。まず、事前訓練されたVGGishモデルを用いて、個々の発話におけるセグメントベース音声表現を抽出する。第2に、注意的双方向リカレントユニット(GRU)は、文脈に敏感な情報をモデル化し、話者内および話者間依存関係を共同で探索する。
論文参考訳（メタデータ） (2023-02-05T16:15:46Z)
Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文参考訳（メタデータ） (2023-01-10T13:18:25Z)
Multi-View Sequence-to-Sequence Models with Conversational Structure for Abstractive Dialogue Summarization [72.54873655114844]
テキスト要約は、NLPにおいて最も困難で興味深い問題の1つである。本研究では、まず、異なる視点から構造化されていない日々のチャットの会話構造を抽出し、会話を表現するマルチビューシーケンス・ツー・シーケンスモデルを提案する。大規模対話要約コーパスの実験により,本手法は,自動評価と人的判断の両面から,従来の最先端モデルよりも有意に優れた性能を示した。
論文参考訳（メタデータ） (2020-10-04T20:12:44Z)
Topic-Aware Multi-turn Dialogue Modeling [91.52820664879432]
本稿では,トピック認識発話を教師なしでセグメント化して抽出する,多元対話モデリングのための新しいソリューションを提案する。トピック・アウェア・モデリングは、新たに提案されたトピック・アウェア・セグメンテーション・アルゴリズムとトピック・アウェア・デュアル・アテンション・マッチング(TADAM)ネットワークによって実現されている。
論文参考訳（メタデータ） (2020-09-26T08:43:06Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。