Fugu-MT 論文翻訳(概要): InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation

論文の概要: InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation

arxiv url: http://arxiv.org/abs/2212.06373v1
Date: Tue, 13 Dec 2022 05:12:40 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-14 15:04:28.528388
Title: InferEM: Inferring the Speaker's Intention for Empathetic Dialogue Generation
Title（参考訳）: InferEM:共感的対話生成のための話者意図の推測
Authors: Guoqing Lv, Xiaoping Wang, Jiang Li, Zhigang Zeng
Abstract要約: 我々は,対話の最後の発声が話者の意図を実証的に伝えることを主張する。我々は、最後の発話を別々にエンコードし、多面的注意に基づく意図融合モジュールを通して対話全体と融合する。発話予測と応答生成の最適化率のバランスをとるために,InferEMのためのマルチタスク学習戦略を設計する。
参考スコア（独自算出の注目度）: 34.25656162429059
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Current approaches to empathetic response generation typically encode the entire dialogue history directly and put the output into a decoder to generate friendly feedback. These methods focus on modelling contextual information but neglect capturing the direct intention of the speaker. We argue that the last utterance in the dialogue empirically conveys the intention of the speaker. Consequently, we propose a novel model named InferEM for empathetic response generation. We separately encode the last utterance and fuse it with the entire dialogue through multi-head attention based intention fusion module to capture the speaker's intention. Besides, we utilize previous utterances to predict the last utterance, which simulates human's psychology to guess what the interlocutor may speak in advance. To balance the optimizing rates of the utterance prediction and response generation, a multi-task learning strategy is designed for InferEM. Experimental results demonstrate the plausibility and validity of InferEM in improving empathetic expression.
Abstract（参考訳）: 共感応答生成に対する現在のアプローチは、一般的に対話履歴全体をエンコードし、出力をデコーダに入れてフレンドリーなフィードバックを生成する。これらの手法は文脈情報のモデル化に焦点をあてるが、話者の直接の意図を捉えることは無視する。我々は,対話の最後の発声が話者の意図を実証的に伝えることを主張する。そこで本研究では,共感応答生成のための新しいモデルInferEMを提案する。我々は,最後の発話を別々に符号化し,多面的注意に基づく意図融合モジュールを通して対話全体と融合し,話者の意図を捉える。さらに,先行した発話を用いて最後の発話を予測し,人間の心理をシミュレートし,対話者が事前に何を話すのかを推測する。発話予測と応答生成の最適化率のバランスをとるために,InferEMのためのマルチタスク学習戦略を設計する。実験の結果,inferemの共感性発現改善における可能性と妥当性が示された。

関連論文リスト

Aligning Spoken Dialogue Models from User Interactions [55.192134724622235]
本稿では,ユーザの対話からリアルタイム会話における音声対話モデルを改善するための新しい嗜好アライメントフレームワークを提案する。 AIフィードバックを付加した生のマルチターン音声会話から15万以上の好みペアのデータセットを作成する。本研究は, 自然なリアルタイム音声対話システムにおいて重要な, 様々な力学におけるバランスの整合性の重要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-26T16:45:20Z)
A Novel Data Augmentation Approach for Automatic Speaking Assessment on Opinion Expressions [3.505838221203969]
与えられた熟練度の多様な応答を生成するための新しい訓練パラダイムを提案する。応答を話者対応音声合成により合成音声に変換する。マルチモーダルな大言語モデルは、整列したテキスト特徴と音声信号を統合して、習熟度を直接予測する。
論文参考訳（メタデータ） (2025-06-04T15:42:53Z)
Yeah, Un, Oh: Continuous and Real-time Backchannel Prediction with Fine-tuning of Voice Activity Projection [24.71649541757314]
yeah"や"oh"といった短いバックチャネルの発話は、スムーズでエンゲージメントな対話を促進する上で重要な役割を担っている。本稿では,微調整音声活動予測モデルを用いて,リアルタイムかつ連続的なバックチャネル予測を行う手法を提案する。
論文参考訳（メタデータ） (2024-10-21T11:57:56Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
SPECTRUM: Speaker-Enhanced Pre-Training for Long Dialogue Summarization [48.284512017469524]
マルチターン対話は、その長さとターンテイクな会話の存在によって特徴づけられる。伝統的な言語モデルは、しばしばそれらの対話の特徴を通常のテキストとして扱うことによって見落としている。長文対話要約のための話者強化事前学習手法を提案する。
論文参考訳（メタデータ） (2024-01-31T04:50:00Z)
Pre-training Multi-party Dialogue Models with Latent Discourse Inference [85.9683181507206]
我々は、多人数対話の会話構造、すなわち、各発話が応答する相手を理解するモデルを事前訓練する。ラベル付きデータを完全に活用するために,談話構造を潜在変数として扱い,それらを共同で推論し,談話認識モデルを事前学習することを提案する。
論文参考訳（メタデータ） (2023-05-24T14:06:27Z)
EM Pre-training for Multi-party Dialogue Response Generation [86.25289241604199]
多人数対話では、応答発話の宛先を生成前に指定する必要がある。本稿では,アドレナラベルを生成するための期待ステップを反復的に実行する期待最大化(EM)アプローチを提案する。
論文参考訳（メタデータ） (2023-05-21T09:22:41Z)
A Speaker-aware Parallel Hierarchical Attentive Encoder-Decoder Model for Multi-turn Dialogue Generation [13.820298189734686]
本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成モデルを提案する。実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。
論文参考訳（メタデータ） (2021-10-13T16:08:29Z)
Filling the Gap of Utterance-aware and Speaker-aware Representation for Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文参考訳（メタデータ） (2020-09-14T15:07:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。