論文の概要: On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering
- arxiv url: http://arxiv.org/abs/2209.12944v1
- Date: Mon, 26 Sep 2022 18:29:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 15:51:00.983179
- Title: On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering
- Title(参考訳): 音声質問応答におけるパス検索における音声認識誤りの影響について
- Authors: Georgios Sidiropoulos, Svitlana Vakulenko, and Evangelos Kanoulas
- Abstract要約: 合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
- 参考スコア(独自算出の注目度): 13.013751306590303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Interacting with a speech interface to query a Question Answering (QA) system
is becoming increasingly popular. Typically, QA systems rely on passage
retrieval to select candidate contexts and reading comprehension to extract the
final answer. While there has been some attention to improving the reading
comprehension part of QA systems against errors that automatic speech
recognition (ASR) models introduce, the passage retrieval part remains
unexplored. However, such errors can affect the performance of passage
retrieval, leading to inferior end-to-end performance. To address this gap, we
augment two existing large-scale passage ranking and open domain QA datasets
with synthetic ASR noise and study the robustness of lexical and dense
retrievers against questions with ASR noise. Furthermore, we study the
generalizability of data augmentation techniques across different domains; with
each domain being a different language dialect or accent. Finally, we create a
new dataset with questions voiced by human users and use their transcriptions
to show that the retrieval performance can further degrade when dealing with
natural ASR noise instead of synthetic ASR noise.
- Abstract(参考訳): 質問応答システム(qa)を問合せするための音声インターフェースとの対話がますます普及している。
典型的には、QAシステムは、最終回答を抽出するために候補コンテキストを選択し、理解を読み取るために通過探索に依存する。
自動音声認識(ASR)モデルが導入する誤りに対して,QAシステムの読解部分を改善することに注意が向けられているが,その読解部は未探索のままである。
しかし,そのような誤りは経路探索の性能に影響を与え,終端性能は低下する。
このギャップに対処するため、既存の2つの大規模パスランキングとオープンドメインQAデータセットを合成ASRノイズで拡張し、ASRノイズのある質問に対する語彙的および密度の高い検索者の堅牢性について検討した。
さらに、各ドメインは異なる言語方言またはアクセントであると共に、異なるドメインにわたるデータ拡張技術の一般化可能性について検討する。
最後に,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
関連論文リスト
- NoisyEQA: Benchmarking Embodied Question Answering Against Noisy Queries [16.283468528293568]
本研究では,ノイズの多い質問を認識・修正するエージェントの能力を評価するために,ノイズEQAベンチマークを導入する。
このベンチマークでは、現実のアプリケーションで見られる4つの一般的なノイズ(潜在幻覚ノイズ、メモリノイズ、知覚ノイズ、セマンティックノイズ)を紹介します。
また,ノイズ検出能力と応答品質の両方を向上・測定する「自己補正」機構と,新たな評価指標を提案する。
論文 参考訳(メタデータ) (2024-12-14T07:52:24Z) - A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering [16.613985687431818]
音声ベースのオープンドメインQAでは,パス検索が重要な課題である。
本稿では,音声質問を直接処理可能な,エンドツーエンドのマルチモーダル高密度検索手法を提案する。
論文 参考訳(メタデータ) (2024-09-20T13:15:53Z) - SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering [76.4510005602893]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Open-Retrieval Conversational Question Answering [62.11228261293487]
オープン検索型対話型質問応答 (ORConvQA) の設定を導入する。
ORConvQAのエンド・ツー・エンドシステムを構築し,レトリバー,リランカ,およびすべてトランスフォーマーをベースとしたリーダを特徴とする。
論文 参考訳(メタデータ) (2020-05-22T19:39:50Z) - Multi-Stage Conversational Passage Retrieval: An Approach to Fusing Term
Importance Estimation and Neural Query Rewriting [56.268862325167575]
マルチステージアドホックIRシステムにクエリ再構成を組み込んだ会話経路検索(ConvPR)に取り組む。
本稿では,1項の重要度推定と2項のニューラルクエリ書き換えという2つの手法を提案する。
前者に対しては、周波数に基づく信号を用いて会話コンテキストから抽出した重要な用語を用いて会話クエリを拡張する。
後者では,会話クエリを,事前訓練されたシーケンス列列列モデルを用いて,自然な,スタンドアロンの,人間の理解可能なクエリに再構成する。
論文 参考訳(メタデータ) (2020-05-05T14:30:20Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。