論文の概要: Are Neural Open-Domain Dialog Systems Robust to Speech Recognition
Errors in the Dialog History? An Empirical Study
- arxiv url: http://arxiv.org/abs/2008.07683v1
- Date: Tue, 18 Aug 2020 00:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 20:38:38.516268
- Title: Are Neural Open-Domain Dialog Systems Robust to Speech Recognition
Errors in the Dialog History? An Empirical Study
- Title(参考訳): ニューラルオープンドメイン・ダイアログシステムは対話履歴における音声認識誤差に頑健か?
実証的研究
- Authors: Karthik Gopalakrishnan, Behnam Hedayatnia, Longshaokan Wang, Yang Liu,
Dilek Hakkani-Tur
- Abstract要約: ダイアログ履歴における様々な種類の合成および実際のASR仮説がTransferTransfoに与える影響について検討した。
我々の知る限りでは、人工的および実際のASR仮説が最先端のオープンドメインダイアログシステムに与える影響を初めて評価する研究である。
- 参考スコア(独自算出の注目度): 10.636793932473426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large end-to-end neural open-domain chatbots are becoming increasingly
popular. However, research on building such chatbots has typically assumed that
the user input is written in nature and it is not clear whether these chatbots
would seamlessly integrate with automatic speech recognition (ASR) models to
serve the speech modality. We aim to bring attention to this important question
by empirically studying the effects of various types of synthetic and actual
ASR hypotheses in the dialog history on TransferTransfo, a state-of-the-art
Generative Pre-trained Transformer (GPT) based neural open-domain dialog system
from the NeurIPS ConvAI2 challenge. We observe that TransferTransfo trained on
written data is very sensitive to such hypotheses introduced to the dialog
history during inference time. As a baseline mitigation strategy, we introduce
synthetic ASR hypotheses to the dialog history during training and observe
marginal improvements, demonstrating the need for further research into
techniques to make end-to-end open-domain chatbots fully speech-robust. To the
best of our knowledge, this is the first study to evaluate the effects of
synthetic and actual ASR hypotheses on a state-of-the-art neural open-domain
dialog system and we hope it promotes speech-robustness as an evaluation
criterion in open-domain dialog.
- Abstract(参考訳): 大規模なエンドツーエンドのオープンドメインチャットボットは、ますます人気が高まっている。
しかし、このようなチャットボットの構築に関する研究は、ユーザ入力が本質的に書かれており、これらのチャットボットが自動音声認識(ASR)モデルとシームレスに統合され、音声モダリティに役立てられるかどうかは不明である。
我々は,NeurIPS ConvAI2チャレンジから得られた,GPT(Generative Pre-trained Transformer)に基づくニューラルオープン・ドメイン・ダイアログシステムであるTransferTransfoに対する,ダイアログ履歴における様々な種類の合成および実ASR仮説の効果を実証的に研究することによって,この重要な問題に注意を払うことを目的とする。
文書データにトレーニングされたtransfertransfoは、推論中にダイアログ履歴に導入された仮説に非常に敏感である。
基礎的緩和戦略として,訓練中の対話履歴に合成asr仮説を導入し,限界的改善を観察し,エンドツーエンドのオープンドメインチャットボットを完全な音声ロバストにするためのさらなる研究の必要性を実証する。
私たちの知る限りでは、最先端のニューラルネットワークオープンドメインダイアログシステムにおける合成および実際のasr仮説の効果を評価する最初の研究であり、オープンドメインダイアログにおける評価基準としての音声ロバスト性を促進することを願っている。
関連論文リスト
- ACCENT: An Automatic Event Commonsense Evaluation Metric for Open-Domain
Dialogue Systems [81.8658402934838]
我々は,コモンセンス知識ベース(CSKB)によるイベントコモンセンス評価であるACCENTを提案する。
実験の結果,ACCENTは事象のコモンセンス評価に有効な指標であり,既存の基準値よりも人間の判断との相関性が高いことがわかった。
論文 参考訳(メタデータ) (2023-05-12T23:11:48Z) - PK-Chat: Pointer Network Guided Knowledge Driven Generative Dialogue
Model [79.64376762489164]
PK-Chatは、知識グラフ上のポインタネットワークと、事前訓練された言語モデルを組み合わせた、ポインタネットワーク誘導生成対話モデルである。
PK-Chatが対話で生成した単語は、単語リストの予測と外部知識グラフ知識の直接予測から導かれる。
PK-Chatに基づく対話システムは、地球科学の学術シナリオ向けに構築されている。
論文 参考訳(メタデータ) (2023-04-02T18:23:13Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Emotion Recognition in Conversation using Probabilistic Soft Logic [17.62924003652853]
会話における感情認識(英: emotion recognition in conversation、ERC)とは、2つ以上の発話を含む会話に焦点を当てた感情認識のサブフィールドである。
我々は,宣言的テンプレート言語である確率的ソフト論理(PSL)にアプローチを実装した。
PSLは、ニューラルモデルからPSLモデルへの結果の取り込みのための機能を提供する。
提案手法を最先端の純粋ニューラルネットワークERCシステムと比較した結果,約20%の改善が得られた。
論文 参考訳(メタデータ) (2022-07-14T23:59:06Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Grounding in social media: An approach to building a chit-chat dialogue
model [9.247397520986999]
豊かな人間のような会話能力を持つオープンドメイン対話システムを構築することは、言語生成における根本的な課題の1つである。
知識に基づく対話生成に関する現在の研究は、主にウィキペディアのような事実に基づく構造化知識ソースを法人化または検索することに焦点を当てている。
本手法は,ソーシャルメディア上での人間の反応行動の模倣によって,システムの生会話能力を向上させることを目的とした,より広範かつシンプルなアプローチである。
論文 参考訳(メタデータ) (2022-06-12T09:01:57Z) - Automatic Evaluation and Moderation of Open-domain Dialogue Systems [59.305712262126264]
研究者が悩む長きにわたる課題は、効果的な自動評価指標の欠如である。
本稿では, 対話システム技術チャレンジ10(DSTC10)におけるトラック5で得られたデータ, ベースライン, 結果について述べる。
論文 参考訳(メタデータ) (2021-11-03T10:08:05Z) - Enhancing Self-Disclosure In Neural Dialog Models By Candidate
Re-ranking [0.7059472280274008]
社会侵入理論 (SPT) は、主に自己開示を通じて関係が進むにつれて、二人のコミュニケーションが浅いレベルから深いレベルに移動することを示唆している。
本稿では, 自己開示促進アーキテクチャ (SDEA) を導入し, 自己開示トピックモデル (SDTM) を用いて, モデルからのシングルターン応答における自己開示を高めるために, 応答候補を再ランク付けする。
論文 参考訳(メタデータ) (2021-09-10T20:06:27Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Probing Neural Dialog Models for Conversational Understanding [21.76744391202041]
ニューラルオープンドメインダイアログシステムで学習した内部表現を解析する。
この結果から,標準のオープンドメインダイアログシステムでは解答が困難であることが示唆された。
また、ダイアログのダイアログ的ターンテイク性は、これらのモデルによって完全に活用されていないことも判明した。
論文 参考訳(メタデータ) (2020-06-07T17:32:00Z) - Neural Generation of Dialogue Response Timings [13.611050992168506]
音声応答オフセットの分布をシミュレートするニューラルモデルを提案する。
モデルは、インクリメンタルな音声対話システムのパイプラインに統合されるように設計されている。
人間の聴取者は、対話の文脈に基づいて、特定の応答タイミングをより自然なものとみなす。
論文 参考訳(メタデータ) (2020-05-18T23:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。