論文の概要: Are Neural Open-Domain Dialog Systems Robust to Speech Recognition
Errors in the Dialog History? An Empirical Study
- arxiv url: http://arxiv.org/abs/2008.07683v1
- Date: Tue, 18 Aug 2020 00:36:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 20:38:38.516268
- Title: Are Neural Open-Domain Dialog Systems Robust to Speech Recognition
Errors in the Dialog History? An Empirical Study
- Title(参考訳): ニューラルオープンドメイン・ダイアログシステムは対話履歴における音声認識誤差に頑健か?
実証的研究
- Authors: Karthik Gopalakrishnan, Behnam Hedayatnia, Longshaokan Wang, Yang Liu,
Dilek Hakkani-Tur
- Abstract要約: ダイアログ履歴における様々な種類の合成および実際のASR仮説がTransferTransfoに与える影響について検討した。
我々の知る限りでは、人工的および実際のASR仮説が最先端のオープンドメインダイアログシステムに与える影響を初めて評価する研究である。
- 参考スコア(独自算出の注目度): 10.636793932473426
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large end-to-end neural open-domain chatbots are becoming increasingly
popular. However, research on building such chatbots has typically assumed that
the user input is written in nature and it is not clear whether these chatbots
would seamlessly integrate with automatic speech recognition (ASR) models to
serve the speech modality. We aim to bring attention to this important question
by empirically studying the effects of various types of synthetic and actual
ASR hypotheses in the dialog history on TransferTransfo, a state-of-the-art
Generative Pre-trained Transformer (GPT) based neural open-domain dialog system
from the NeurIPS ConvAI2 challenge. We observe that TransferTransfo trained on
written data is very sensitive to such hypotheses introduced to the dialog
history during inference time. As a baseline mitigation strategy, we introduce
synthetic ASR hypotheses to the dialog history during training and observe
marginal improvements, demonstrating the need for further research into
techniques to make end-to-end open-domain chatbots fully speech-robust. To the
best of our knowledge, this is the first study to evaluate the effects of
synthetic and actual ASR hypotheses on a state-of-the-art neural open-domain
dialog system and we hope it promotes speech-robustness as an evaluation
criterion in open-domain dialog.
- Abstract(参考訳): 大規模なエンドツーエンドのオープンドメインチャットボットは、ますます人気が高まっている。
しかし、このようなチャットボットの構築に関する研究は、ユーザ入力が本質的に書かれており、これらのチャットボットが自動音声認識(ASR)モデルとシームレスに統合され、音声モダリティに役立てられるかどうかは不明である。
我々は,NeurIPS ConvAI2チャレンジから得られた,GPT(Generative Pre-trained Transformer)に基づくニューラルオープン・ドメイン・ダイアログシステムであるTransferTransfoに対する,ダイアログ履歴における様々な種類の合成および実ASR仮説の効果を実証的に研究することによって,この重要な問題に注意を払うことを目的とする。
文書データにトレーニングされたtransfertransfoは、推論中にダイアログ履歴に導入された仮説に非常に敏感である。
基礎的緩和戦略として,訓練中の対話履歴に合成asr仮説を導入し,限界的改善を観察し,エンドツーエンドのオープンドメインチャットボットを完全な音声ロバストにするためのさらなる研究の必要性を実証する。
私たちの知る限りでは、最先端のニューラルネットワークオープンドメインダイアログシステムにおける合成および実際のasr仮説の効果を評価する最初の研究であり、オープンドメインダイアログにおける評価基準としての音声ロバスト性を促進することを願っている。
関連論文リスト
- WavChat: A Survey of Spoken Dialogue Models [66.82775211793547]
GPT-4oのようなシステムで実証された音声対話モデルの最近の進歩は、音声領域において大きな注目を集めている。
これらの高度な音声対話モデルは、音声、音楽、その他の音声関連の特徴を理解するだけでなく、音声のスタイリスティックな特徴や音節的な特徴も捉える。
音声対話システムの進歩にもかかわらず、これらのシステムを体系的に組織化し分析する包括的調査が欠如している。
論文 参考訳(メタデータ) (2024-11-15T04:16:45Z) - A Static and Dynamic Attention Framework for Multi Turn Dialogue Generation [37.79563028123686]
オープンドメインマルチターン対話生成では,対話履歴の文脈意味論をモデル化することが不可欠である。
従来の研究は、オープンドメインマルチターン対話生成における階層的再帰エンコーダデコーダフレームワークの有効性を検証していた。
本稿では,対話履歴をモデル化し,オープンドメインのマルチターン対話応答を生成する静的かつ動的アテンションに基づくアプローチを提案する。
論文 参考訳(メタデータ) (2024-10-28T06:05:34Z) - PK-Chat: Pointer Network Guided Knowledge Driven Generative Dialogue
Model [79.64376762489164]
PK-Chatは、知識グラフ上のポインタネットワークと、事前訓練された言語モデルを組み合わせた、ポインタネットワーク誘導生成対話モデルである。
PK-Chatが対話で生成した単語は、単語リストの予測と外部知識グラフ知識の直接予測から導かれる。
PK-Chatに基づく対話システムは、地球科学の学術シナリオ向けに構築されている。
論文 参考訳(メタデータ) (2023-04-02T18:23:13Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - Emotion Recognition in Conversation using Probabilistic Soft Logic [17.62924003652853]
会話における感情認識(英: emotion recognition in conversation、ERC)とは、2つ以上の発話を含む会話に焦点を当てた感情認識のサブフィールドである。
我々は,宣言的テンプレート言語である確率的ソフト論理(PSL)にアプローチを実装した。
PSLは、ニューラルモデルからPSLモデルへの結果の取り込みのための機能を提供する。
提案手法を最先端の純粋ニューラルネットワークERCシステムと比較した結果,約20%の改善が得られた。
論文 参考訳(メタデータ) (2022-07-14T23:59:06Z) - GODEL: Large-Scale Pre-Training for Goal-Directed Dialog [119.1397031992088]
ダイアログのための大規模事前学習言語モデルであるGODELを紹介する。
GODELは、数ショットの微調整設定で、最先端の事前訓練ダイアログモデルより優れていることを示す。
評価手法の新たな特徴は,応答の有用性を評価するユーティリティの概念の導入である。
論文 参考訳(メタデータ) (2022-06-22T18:19:32Z) - Automatic Evaluation and Moderation of Open-domain Dialogue Systems [59.305712262126264]
研究者が悩む長きにわたる課題は、効果的な自動評価指標の欠如である。
本稿では, 対話システム技術チャレンジ10(DSTC10)におけるトラック5で得られたデータ, ベースライン, 結果について述べる。
論文 参考訳(メタデータ) (2021-11-03T10:08:05Z) - Enhancing Self-Disclosure In Neural Dialog Models By Candidate
Re-ranking [0.7059472280274008]
社会侵入理論 (SPT) は、主に自己開示を通じて関係が進むにつれて、二人のコミュニケーションが浅いレベルから深いレベルに移動することを示唆している。
本稿では, 自己開示促進アーキテクチャ (SDEA) を導入し, 自己開示トピックモデル (SDTM) を用いて, モデルからのシングルターン応答における自己開示を高めるために, 応答候補を再ランク付けする。
論文 参考訳(メタデータ) (2021-09-10T20:06:27Z) - Ranking Enhanced Dialogue Generation [77.8321855074999]
対話履歴を効果的に活用する方法は、マルチターン対話生成において重要な問題である。
これまでの研究は通常、歴史をモデル化するために様々なニューラルネットワークアーキテクチャを使用していた。
本稿では,ランキング拡張対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T01:49:56Z) - Probing Neural Dialog Models for Conversational Understanding [21.76744391202041]
ニューラルオープンドメインダイアログシステムで学習した内部表現を解析する。
この結果から,標準のオープンドメインダイアログシステムでは解答が困難であることが示唆された。
また、ダイアログのダイアログ的ターンテイク性は、これらのモデルによって完全に活用されていないことも判明した。
論文 参考訳(メタデータ) (2020-06-07T17:32:00Z) - Neural Generation of Dialogue Response Timings [13.611050992168506]
音声応答オフセットの分布をシミュレートするニューラルモデルを提案する。
モデルは、インクリメンタルな音声対話システムのパイプラインに統合されるように設計されている。
人間の聴取者は、対話の文脈に基づいて、特定の応答タイミングをより自然なものとみなす。
論文 参考訳(メタデータ) (2020-05-18T23:00:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。