論文の概要: A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering
- arxiv url: http://arxiv.org/abs/2409.13483v1
- Date: Fri, 20 Sep 2024 13:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-07 06:53:09.645057
- Title: A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering
- Title(参考訳): 音声によるオープンドメイン質問応答に対する多モーダルDense Retrievalアプローチ
- Authors: Georgios Sidiropoulos, Evangelos Kanoulas,
- Abstract要約: 音声ベースのオープンドメインQAでは,パス検索が重要な課題である。
本稿では,音声質問を直接処理可能な,エンドツーエンドのマルチモーダル高密度検索手法を提案する。
- 参考スコア(独自算出の注目度): 16.613985687431818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech-based open-domain question answering (QA over a large corpus of text passages with spoken questions) has emerged as an important task due to the increasing number of users interacting with QA systems via speech interfaces. Passage retrieval is a key task in speech-based open-domain QA. So far, previous works adopted pipelines consisting of an automatic speech recognition (ASR) model that transcribes the spoken question before feeding it to a dense text retriever. Such pipelines have several limitations. The need for an ASR model limits the applicability to low-resource languages and specialized domains with no annotated speech data. Furthermore, the ASR model propagates its errors to the retriever. In this work, we try to alleviate these limitations by proposing an ASR-free, end-to-end trained multimodal dense retriever that can work directly on spoken questions. Our experimental results showed that, on shorter questions, our retriever is a promising alternative to the \textit{ASR and Retriever} pipeline, achieving better retrieval performance in cases where ASR would have mistranscribed important words in the question or have produced a transcription with a high word error rate.
- Abstract(参考訳): 音声インタフェースを介してQAシステムと対話するユーザの増加に伴い、音声ベースのオープンドメイン質問応答(大量のコーパスと音声質問を含むQA)が重要な課題となっている。
音声ベースのオープンドメインQAでは,パス検索が重要な課題である。
これまでの研究では、高密度テキストレトリバーに入力する前に音声質問を書き起こす自動音声認識(ASR)モデルによるパイプラインを採用していた。
このようなパイプラインにはいくつかの制限がある。
ASRモデルの必要性は、アノテートされた音声データを持たない低リソース言語や特殊なドメインに適用性を制限する。
さらに、ASRモデルは、そのエラーをレトリバーに伝達する。
本研究では、音声質問を直接処理可能な、ASRフリーでエンドツーエンドにトレーニングされた多モーダル高密度検索器を提案することにより、これらの制限を緩和しようとする。
以上の結果から,ASRが重要な単語を誤って書き起こした場合や,単語誤り率の高い書き起こしを発生させた場合に,検索性能が向上する可能性が示唆された。
関連論文リスト
- Learning When to Retrieve, What to Rewrite, and How to Respond in Conversational QA [16.1357049130957]
シングルターンSELF-RAGフレームワークを構築し,会話設定のためのSELF-multi-RAGを提案する。
SELF-multi-RAGは、関連するパスの検索に関して、シングルターン変種よりも改善された機能を示す。
論文 参考訳(メタデータ) (2024-09-23T20:05:12Z) - SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering [76.4510005602893]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - Phrase Retrieval for Open-Domain Conversational Question Answering with
Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。
そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文 参考訳(メタデータ) (2023-06-07T09:46:38Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z) - Multifaceted Improvements for Conversational Open-Domain Question
Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。
第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。
第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。
第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文 参考訳(メタデータ) (2022-04-01T07:54:27Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - CONQRR: Conversational Query Rewriting for Retrieval with Reinforcement
Learning [16.470428531658232]
本研究では,会話型質問を独立した質問に書き換えるクエリ書き換えモデルCONQRRを提案する。
CONQRR は最近のオープンドメイン CQA データセットで最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2021-12-16T01:40:30Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Answering Any-hop Open-domain Questions with Iterative Document
Reranking [62.76025579681472]
オープンドメインの問に答える統合QAフレームワークを提案する。
提案手法は,シングルホップおよびマルチホップのオープンドメインQAデータセットにおいて,最先端技術に匹敵する性能を継続的に達成する。
論文 参考訳(メタデータ) (2020-09-16T04:31:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。