論文の概要: A Speaker-aware Parallel Hierarchical Attentive Encoder-Decoder Model
for Multi-turn Dialogue Generation
- arxiv url: http://arxiv.org/abs/2110.06823v2
- Date: Thu, 14 Oct 2021 20:29:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-18 10:28:10.832359
- Title: A Speaker-aware Parallel Hierarchical Attentive Encoder-Decoder Model
for Multi-turn Dialogue Generation
- Title(参考訳): マルチターン対話生成のための話者対応並列階層型注意エンコーダモデル
- Authors: Zihao Wang, Ming Jiang, Junli Wang
- Abstract要約: 本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成モデルを提案する。
実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。
- 参考スコア(独自算出の注目度): 13.820298189734686
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel open-domain dialogue generation model emphasizing
the differentiation of speakers in multi-turn conversations. Differing from
prior work that solely relies on the content of conversation history to
generate a response, we argue that capturing relative social relations among
utterances (i.e., generated by either the same speaker or different persons)
benefits the machine capturing fine-grained context information from a
conversation history to improve context coherence in the generated response.
Given that, we propose a speaker-aware Parallel Hierarchical Attentive
Encoder-Decoder (PHAED) model that aims to model each utterance with the
awareness of its speaker and contextual associations with the same speaker's
previous messages. Specifically, in a conversation involving two speakers, we
regard the utterances from one speaker as responses and those from the other as
queries. After understanding queries via our encoder with inner-query and
inter-query encodings, our decoder reuses the hidden states of previously
generated responses, instead of reconstructing these by the encoder, to
generate a new response. Our empirical results show that PHAED outperforms the
state-of-the-art in both automatic and human evaluations. Furthermore, our
ablation study shows that dialogue models with speaker tokens can generally
decrease the possibility of generating non-coherent responses regarding the
conversation context.
- Abstract(参考訳): 本稿では,マルチターン会話における話者の区別を強調するオープンドメイン対話生成モデルを提案する。
会話履歴の内容にのみ依存して応答を生成する先行研究から、発話間の相対的社会的関係(つまり、同じ話者または異なる人物によって生成される)の獲得は、会話履歴からきめ細かなコンテキスト情報を捕捉し、生成した応答におけるコンテキストコヒーレンスを改善するマシンの利点であると主張している。
そこで本研究では,各発話を話者の認識と文脈的関連によりモデル化することを目的とした,話者認識型階層型注意エンコーダ・デコーダ(phaed)モデルを提案する。
具体的には、2人の話者による会話において、ある話者からの発話を応答として、もう一方の話者からの発話をクエリとして考慮する。
インナークエリーとインタークエリーエンコーディングでクエリーを理解した後、デコーダは、エンコーダによってそれらを再構築するのではなく、以前に生成された応答の隠された状態を再利用し、新しい応答を生成する。
実験の結果,PHAEDは自動評価と人的評価の両面で最先端の成績を示した。
さらに, 話者トークンを用いた対話モデルでは, 会話コンテキストに関する非コヒーレントな応答を生成する可能性が一般的に低下することを示した。
関連論文リスト
- Multi-party Response Generation with Relation Disentanglement [8.478506896774137]
既存のニューラルレスポンス生成モデルは、双方向の会話で大幅に改善されている。
しかし、現実世界の対話の多くは複数の対話者を含み、会話の文脈の構造はより複雑である。
本研究では,人間ラベルを使わずに,会話の文脈内での微妙な手がかりに基づいて関係性を推論する手法を提案する。
論文 参考訳(メタデータ) (2024-03-16T06:33:44Z) - PICK: Polished & Informed Candidate Scoring for Knowledge-Grounded
Dialogue Systems [59.1250765143521]
現在の知識接地対話システムは、生成された応答を人間に好まれる品質に合わせるのに失敗することが多い。
我々は,世代別再描画フレームワークであるPolseed & Informed Candidate Scoring (PICK)を提案する。
対話履歴に関連性を維持しつつ,より忠実な応答を生成するためのPICKの有効性を示す。
論文 参考訳(メタデータ) (2023-09-19T08:27:09Z) - Revisiting Conversation Discourse for Dialogue Disentanglement [88.3386821205896]
本稿では,対話談話特性を最大限に活用し,対話の絡み合いを高めることを提案する。
我々は,会話の意味的文脈をより良くモデル化するために,リッチな構造的特徴を統合する構造認識フレームワークを開発した。
我々の研究は、より広範なマルチスレッド対話アプリケーションを促進する大きな可能性を秘めている。
論文 参考訳(メタデータ) (2023-06-06T19:17:47Z) - Modeling Speaker-Listener Interaction for Backchannel Prediction [24.52345279975304]
バックチャネル理論は、会話の過程でリスナーの活発で継続的な役割を強調する。
話者音声から音響特徴を処理し,最小応答に基づくニューラルベース音響バックチャネル分類器を提案する。
SwitchboardとGECOデータセットの実験結果は、ほぼすべてのテストシナリオにおいて、話者またはリスナーの振る舞いの埋め込みが、モデルがより正確なバックチャネル予測を行うのに役立つことを示している。
論文 参考訳(メタデータ) (2023-04-10T09:22:06Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - InferEM: Inferring the Speaker's Intention for Empathetic Dialogue
Generation [37.12407597998884]
共感的応答生成に対する現在のアプローチは、通常、対話履歴全体を直接エンコードする。
我々は,対話の最後の発声が話者の意図を実証的に伝えることを主張する。
共感応答生成のための新しいモデルInferEMを提案する。
論文 参考訳(メタデータ) (2022-12-13T05:12:40Z) - Question-Interlocutor Scope Realized Graph Modeling over Key Utterances
for Dialogue Reading Comprehension [61.55950233402972]
本稿では,対話読解のためのキーワード抽出手法を提案する。
複数の連続した発話によって形成された単位に対して予測を行い、より多くの回答を含む発話を実現する。
発話のテキスト上に構築されたグラフとして,質問-対話者スコープ実現グラフ(QuISG)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-26T04:00:42Z) - Enhanced Speaker-aware Multi-party Multi-turn Dialogue Comprehension [43.352833140317486]
マルチパーティ・マルチターン・ダイアログの理解は前例のない課題をもたらす。
既存のほとんどのメソッドは、会話コンテキストをプレーンテキストとして扱う。
マスキングアテンションと異種グラフネットワークを用いた話者認識モデルを提案する。
論文 参考訳(メタデータ) (2021-09-09T07:12:22Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Filling the Gap of Utterance-aware and Speaker-aware Representation for
Multi-turn Dialogue [76.88174667929665]
マルチターン対話は、2つ以上の異なる話者の役割から複数の発話からなる。
既存の検索に基づくマルチターン対話モデルでは、事前訓練された言語モデル(PrLM)をエンコーダとして、対話を粗く表現する。
本稿では,対話履歴に係わる効果的な発話認識表現と話者認識表現をモデル化することにより,そのようなギャップを埋める新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-09-14T15:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。