Fugu-MT 論文翻訳(概要): A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering

論文の概要: A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering

arxiv url: http://arxiv.org/abs/2409.13483v1
Date: Fri, 20 Sep 2024 13:15:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 06:53:09.645057
Title: A Multimodal Dense Retrieval Approach for Speech-Based Open-Domain Question Answering
Title（参考訳）: 音声によるオープンドメイン質問応答に対する多モーダルDense Retrievalアプローチ
Authors: Georgios Sidiropoulos, Evangelos Kanoulas,
Abstract要約: 音声ベースのオープンドメインQAでは,パス検索が重要な課題である。本稿では,音声質問を直接処理可能な,エンドツーエンドのマルチモーダル高密度検索手法を提案する。
参考スコア（独自算出の注目度）: 16.613985687431818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Speech-based open-domain question answering (QA over a large corpus of text passages with spoken questions) has emerged as an important task due to the increasing number of users interacting with QA systems via speech interfaces. Passage retrieval is a key task in speech-based open-domain QA. So far, previous works adopted pipelines consisting of an automatic speech recognition (ASR) model that transcribes the spoken question before feeding it to a dense text retriever. Such pipelines have several limitations. The need for an ASR model limits the applicability to low-resource languages and specialized domains with no annotated speech data. Furthermore, the ASR model propagates its errors to the retriever. In this work, we try to alleviate these limitations by proposing an ASR-free, end-to-end trained multimodal dense retriever that can work directly on spoken questions. Our experimental results showed that, on shorter questions, our retriever is a promising alternative to the \textit{ASR and Retriever} pipeline, achieving better retrieval performance in cases where ASR would have mistranscribed important words in the question or have produced a transcription with a high word error rate.
Abstract（参考訳）: 音声インタフェースを介してQAシステムと対話するユーザの増加に伴い、音声ベースのオープンドメイン質問応答(大量のコーパスと音声質問を含むQA)が重要な課題となっている。音声ベースのオープンドメインQAでは,パス検索が重要な課題である。これまでの研究では、高密度テキストレトリバーに入力する前に音声質問を書き起こす自動音声認識(ASR)モデルによるパイプラインを採用していた。このようなパイプラインにはいくつかの制限がある。 ASRモデルの必要性は、アノテートされた音声データを持たない低リソース言語や特殊なドメインに適用性を制限する。さらに、ASRモデルは、そのエラーをレトリバーに伝達する。本研究では、音声質問を直接処理可能な、ASRフリーでエンドツーエンドにトレーニングされた多モーダル高密度検索器を提案することにより、これらの制限を緩和しようとする。以上の結果から,ASRが重要な単語を誤って書き起こした場合や,単語誤り率の高い書き起こしを発生させた場合に,検索性能が向上する可能性が示唆された。

関連論文リスト

End-to-end Contrastive Language-Speech Pretraining Model For Long-form Spoken Question Answering [33.675277272634666]
CLSRは、エンドツーエンドのコントラスト言語音声レトリバーである。下流SQAタスクのために、長い音声記録から質問関連セグメントを効率的に抽出する。
論文参考訳（メタデータ） (2025-11-12T12:49:30Z)
Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文参考訳（メタデータ） (2025-10-02T14:18:20Z)
Speech Retrieval-Augmented Generation without Automatic Speech Recognition [4.731446054087683]
SpeechRAGは、音声データに対するオープンクエスト応答のために設計された新しいフレームワークである。提案手法は,事前学習した音声エンコーダを,凍結した大言語モデルに入力した音声アダプタに微調整する。テキストと音声の埋め込み空間を整列させることで、音声検索者はテキストベースのクエリから音声を直接検索する。
論文参考訳（メタデータ） (2024-12-21T06:16:04Z)
Learning When to Retrieve, What to Rewrite, and How to Respond in Conversational QA [16.1357049130957]
シングルターンSELF-RAGフレームワークを構築し,会話設定のためのSELF-multi-RAGを提案する。 SELF-multi-RAGは、関連するパスの検索に関して、シングルターン変種よりも改善された機能を示す。
論文参考訳（メタデータ） (2024-09-23T20:05:12Z)
SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering [76.4510005602893]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文参考訳（メタデータ） (2024-01-24T14:08:38Z)
Phrase Retrieval for Open-Domain Conversational Question Answering with Conversational Dependency Modeling via Contrastive Learning [54.55643652781891]
Open-Domain Conversational Question Answering (ODConvQA)は、マルチターン会話を通じて質問に答えることを目的としている。そこで本研究では,単語列に対する句検索方式を用いて,回答を直接予測する手法を提案する。
論文参考訳（メタデータ） (2023-06-07T09:46:38Z)
On the Impact of Speech Recognition Errors in Passage Retrieval for Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文参考訳（メタデータ） (2022-09-26T18:29:36Z)
Multifaceted Improvements for Conversational Open-Domain Question Answering [54.913313912927045]
対話型オープンドメイン質問回答(MICQA)のための多面的改善フレームワークを提案する。第一に、提案したKL分割に基づく正規化は、検索と解答のためのより良い質問理解をもたらすことができる。第二に、追加されたポストランカモジュールは、より関連性の高いパスをトップにプッシュし、2アスペクトの制約で読者に選択できる。第3に、十分に設計されたカリキュラム学習戦略は、訓練と推論の黄金の通路設定のギャップを効果的に狭め、黄金の通路支援なしで真の答えを見つけることを奨励する。
論文参考訳（メタデータ） (2022-04-01T07:54:27Z)
DUAL: Textless Spoken Question Answering with Speech Discrete Unit Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文参考訳（メタデータ） (2022-03-09T17:46:22Z)
CONQRR: Conversational Query Rewriting for Retrieval with Reinforcement Learning [16.470428531658232]
本研究では,会話型質問を独立した質問に書き換えるクエリ書き換えモデルCONQRRを提案する。 CONQRR は最近のオープンドメイン CQA データセットで最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2021-12-16T01:40:30Z)
Towards Data Distillation for End-to-end Spoken Conversational Question Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。 SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文参考訳（メタデータ） (2020-10-18T05:53:39Z)
Answering Any-hop Open-domain Questions with Iterative Document Reranking [62.76025579681472]
オープンドメインの問に答える統合QAフレームワークを提案する。提案手法は,シングルホップおよびマルチホップのオープンドメインQAデータセットにおいて,最先端技術に匹敵する性能を継続的に達成する。
論文参考訳（メタデータ） (2020-09-16T04:31:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。