論文の概要: DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning
- arxiv url: http://arxiv.org/abs/2203.04911v1
- Date: Wed, 9 Mar 2022 17:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 18:37:05.106376
- Title: DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning
- Title(参考訳): DUAL:音声離散単位適応学習によるテキストレス音声質問応答
- Authors: Guan-Ting Lin, Yung-Sung Chuang, Ho-Lam Chung, Shu-wen Yang, Hsuan-Jui
Chen, Shang-Wen Li, Abdelrahman Mohamed, Hung-yi Lee, Lin-shan Lee
- Abstract要約: SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.71308154398176
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken Question Answering (SQA) has gained research attention and made
remarkable progress in recent years. However, existing SQA methods rely on
Automatic Speech Recognition (ASR) transcripts, which are time and
cost-prohibitive to collect. This work proposes an ASR transcript-free SQA
framework named Discrete Unit Adaptive Learning (DUAL), which leverages
unlabeled data for pre-training and is fine-tuned by the SQA downstream task.
DAUL can directly predict the time interval of the spoken answer from the
spoken document. We also release a new SQA benchmark corpus Natural
Multi-speaker Spoken Question Answering (NMSQA) for testing SQA in realistic
scenarios. The experimental results show that DUAL performs competitively with
the cascade approach (ASR + text QA), and DUAL is robust to real-world speech.
We will open-source our code and model to inspire more SQA innovations from the
community
- Abstract(参考訳): 音声質問応答(sqa)は近年,研究の注目を集め,著しい進歩を遂げている。
しかし,既存のSQA手法は,収集に要する時間的・コスト的制約である自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
DAULは、音声文書から音声応答の時間間隔を直接予測することができる。
また、実シナリオでSQAをテストするために、Natural Multi-Speaker Spoken Question Answering (NMSQA) という新しいSQAベンチマークコーパスもリリースした。
実験の結果, DUALはカスケードアプローチ(ASR+テキストQA)と競合し, DUALは実世界の音声に対して堅牢であることがわかった。
私たちは、コミュニティからより多くのSQAイノベーションを刺激するために、コードとモデルをオープンソースにします。
関連論文リスト
- SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering [76.4510005602893]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - GSQA: An End-to-End Model for Generative Spoken Question Answering [54.418723701886115]
本稿では,システムに抽象的推論を強制するGSQA(Generative Spoken Question Answering)モデルを提案する。
本モデルでは, 抽出QAデータセットにおいて, 従来の抽出モデルよりも3%上回っている。
我々のGSQAモデルは、幅広い質問に一般化する可能性を示し、それによって、抽象的QAの音声質問応答能力をさらに拡張する。
論文 参考訳(メタデータ) (2023-12-15T13:33:18Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - An Initial Investigation of Non-Native Spoken Question-Answering [36.89541375786233]
SQuAD2.0 で訓練された単純なテキストベースの ELECTRA MC モデルは,音声による質問応答テストに適していることを示す。
重要な課題の1つは、このタスクのためにシステムを訓練するために適切に注釈付けされた音声コーパスがないことである。
ミスマッチは、テキスト文書と音声応答、非ネイティブな音声文法と書かれた文法の間で考慮されなければならない。
論文 参考訳(メタデータ) (2021-07-09T21:59:16Z) - ASQ: Automatically Generating Question-Answer Pairs using AMRs [1.0878040851638]
AMR(Abstract Meaning Representation)を用いて,質問や回答を自動的に文から抽出するツールASQを紹介する。
AMR 2.0データからASQが生成した出力の質的評価は、問合せ対が自然で有効であることを示す。
私たちはこのツールと結果を公開して、他の人が使用して構築できるようにするつもりです。
論文 参考訳(メタデータ) (2021-05-20T20:38:05Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Towards Data Distillation for End-to-end Spoken Conversational Question
Answering [65.124088336738]
音声対話型質問応答タスク(SCQA)を提案する。
SCQAは,音声発話とテキストコーパスから複雑な対話の流れをモデル化することを目的としている。
我々の主な目的は、音声とテキストの両方で会話的な質問に対処するQAシステムを構築することである。
論文 参考訳(メタデータ) (2020-10-18T05:53:39Z) - Fluent Response Generation for Conversational Question Answering [15.826109118064716]
本稿では,SEQ2SEQ NLGアプローチで応答をシチュレートする手法を提案する。
我々は、エンドツーエンドシステムのトレーニングデータを生成するためにデータ拡張を使用します。
論文 参考訳(メタデータ) (2020-05-21T04:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。