論文の概要: SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering
- arxiv url: http://arxiv.org/abs/2401.13463v2
- Date: Mon, 18 Mar 2024 06:08:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:12:30.847887
- Title: SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering
- Title(参考訳): SpeechDPR--to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering
- Authors: Chyi-Jiunn Lin, Guan-Ting Lin, Yung-Sung Chuang, Wei-Lun Wu, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Lin-shan Lee,
- Abstract要約: SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
- 参考スコア(独自算出の注目度): 76.4510005602893
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Question Answering (SQA) is essential for machines to reply to user's question by finding the answer span within a given spoken passage. SQA has been previously achieved without ASR to avoid recognition errors and Out-of-Vocabulary (OOV) problems. However, the real-world problem of Open-domain SQA (openSQA), in which the machine needs to first retrieve passages that possibly contain the answer from a spoken archive in addition, was never considered. This paper proposes the first known end-to-end framework, Speech Dense Passage Retriever (SpeechDPR), for the retrieval component of the openSQA problem. SpeechDPR learns a sentence-level semantic representation by distilling knowledge from the cascading model of unsupervised ASR (UASR) and text dense retriever (TDR). No manually transcribed speech data is needed. Initial experiments showed performance comparable to the cascading model of UASR and TDR, and significantly better when UASR was poor, verifying this approach is more robust to speech recognition errors.
- Abstract(参考訳): SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
SQAは、認識エラーや外語彙(OOV)の問題を避けるために、これまでASRなしで達成されてきた。
しかし,オープンドメインSQA(open-domain SQA)の現実的な問題として,音声アーカイブから応答を含む可能性のあるパスをマシンが最初に取り出す必要があることが考えられた。
本稿では,openSQA問題の検索コンポーネントとして,最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
SpeechDPRは、教師なしASR (UASR) とテキスト密度検索 (TDR) のカスケーディングモデルから知識を蒸留することにより、文レベルの意味表現を学習する。
手書きの音声データの書き起こしは不要。
最初の実験では、UASRとTDRのカスケードモデルに匹敵する性能を示し、UASRが貧弱な場合には、この手法が音声認識エラーに対してより堅牢であることを示す。
関連論文リスト
- A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering [16.613985687431818]
音声ベースのオープンドメインQAでは,パス検索が重要な課題である。
本稿では,音声質問を直接処理可能な,エンドツーエンドのマルチモーダル高密度検索手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T13:15:53Z) - Phrase Retrieval for Open-Domain Conversational Question Answering with
Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。
そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:46:38Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - An Initial Investigation of Non-Native Spoken Question-Answering [36.89541375786233]
SQuAD2.0 で訓練された単純なテキストベースの ELECTRA MC モデルは,音声による質問応答テストに適していることを示す。
重要な課題の1つは、このタスクのためにシステムを訓練するために適切に注釈付けされた音声コーパスがないことである。
ミスマッチは、テキスト文書と音声応答、非ネイティブな音声文法と書かれた文法の間で考慮されなければならない。
論文 参考訳(メタデータ) (2021-07-09T21:59:16Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。