論文の概要: SD-QA: Spoken Dialectal Question Answering for the Real World
- arxiv url: http://arxiv.org/abs/2109.12072v1
- Date: Fri, 24 Sep 2021 16:54:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:15:08.600518
- Title: SD-QA: Spoken Dialectal Question Answering for the Real World
- Title(参考訳): SD-QA: 実世界のための音声対話型質問応答
- Authors: Fahim Faisal, Sharlina Keshava, Md Mahfuz ibn Alam, Antonios
Anastasopoulos
- Abstract要約: われわれは5つの言語(アラビア語、ベンガル語、英語、キスワヒリ語、韓国語)で68k以上の音声プロンプトを、255人の話者から24の方言で作成する。
本稿では,QAシステムの実環境性能を示すベースライン結果を提供し,下流性能に対する言語多様性やその他の感性的話者属性の影響を解析する。
最後に,ASRモデルとQAモデルの妥当性について,基礎となるユーザ数について検討する。
- 参考スコア(独自算出の注目度): 15.401330338654203
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Question answering (QA) systems are now available through numerous commercial
applications for a wide variety of domains, serving millions of users that
interact with them via speech interfaces. However, current benchmarks in QA
research do not account for the errors that speech recognition models might
introduce, nor do they consider the language variations (dialects) of the
users. To address this gap, we augment an existing QA dataset to construct a
multi-dialect, spoken QA benchmark on five languages (Arabic, Bengali, English,
Kiswahili, Korean) with more than 68k audio prompts in 24 dialects from 255
speakers. We provide baseline results showcasing the real-world performance of
QA systems and analyze the effect of language variety and other sensitive
speaker attributes on downstream performance. Last, we study the fairness of
the ASR and QA models with respect to the underlying user populations. The
dataset, model outputs, and code for reproducing all our experiments are
available: https://github.com/ffaisal93/SD-QA.
- Abstract(参考訳): 質問応答(QA)システムは、様々な分野の多くの商用アプリケーションを通じて利用可能であり、音声インターフェースを介して対話する数百万のユーザを提供する。
しかし、QA研究における現在のベンチマークでは、音声認識モデルが導入する可能性のあるエラーや、ユーザの言語変化(方言)を考慮していない。
このギャップに対処するために、既存のQAデータセットを拡張して、5つの言語(アラビア語、ベンガル語、英語、キスワヒリ語、韓国語)で、255話者の24の方言で68k以上の音声プロンプトで、多言語で話されるQAベンチマークを構築する。
本稿では,QAシステムの実環境性能を示すベースライン結果を提供し,下流性能に対する言語多様性や話者属性の影響を解析する。
最後に,ASRモデルとQAモデルの妥当性について,基礎となるユーザ数について検討する。
データセット、モデル出力、すべての実験を再現するためのコードも利用可能です。
関連論文リスト
- MTVQA: Benchmarking Multilingual Text-Centric Visual Question Answering [58.92057773071854]
MTVQAは、9つの異なる言語にまたがる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
MTVQAは9つの異なる言語にわたる高品質なヒューマンエキスパートアノテーションを特徴とする最初のベンチマークである。
論文 参考訳(メタデータ) (2024-05-20T12:35:01Z) - Building Efficient and Effective OpenQA Systems for Low-Resource Languages [17.64851283209797]
低コストで効率的な OpenQA システムを低リソース環境向けに開発できることを示す。
主な要素は、機械翻訳されたラベル付きデータセットと関連する非構造化知識ソースを用いた、弱い監視である。
我々は,SQuAD2.0の機械翻訳であるSQuAD-TRを提案する。
論文 参考訳(メタデータ) (2024-01-07T22:11:36Z) - Evaluating and Modeling Attribution for Cross-Lingual Question Answering [80.4807682093432]
この研究は、言語間質問応答の属性を初めて研究したものである。
我々は、5つの言語でデータを収集し、最先端の言語間QAシステムの属性レベルを評価する。
回答のかなりの部分は、検索されたどのパスにも帰属しないことがわかった。
論文 参考訳(メタデータ) (2023-05-23T17:57:46Z) - SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - QAmeleon: Multilingual QA with Only 5 Examples [71.80611036543633]
数ショットの学習環境下で事前学習した言語モデルを利用する方法を示す。
我々のアプローチであるQAmeleonは、PLMを使用して、QAモデルをトレーニングした多言語データを自動的に生成する。
言語毎に5つの例しか持たないデータ合成のためにPLMをプロンプトチューニングすることで、翻訳ベースのベースラインよりも精度が向上する。
論文 参考訳(メタデータ) (2022-11-15T16:14:39Z) - Learning to Answer Multilingual and Code-Mixed Questions [4.290420179006601]
質問応答(QA)は、人間とコンピュータのシームレスな相互作用において重要な要素である。
もっとも古い研究分野の1つであるにもかかわらず、現在のQAシステムは多言語クエリを扱う上で重要な課題に直面している。
この論文は、多言語環境でエンドユーザクエリを扱うためのQA技術の進歩に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-14T16:49:58Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - QALD-9-plus: A Multilingual Dataset for Question Answering over DBpedia
and Wikidata Translated by Native Speakers [68.9964449363406]
私たちは8つの言語に高品質な質問の翻訳を導入することで、最も人気のあるKGQAベンチマークの1つ、QALD-9を拡張します。
アルメニア語、ウクライナ語、リトアニア語、バシキル語、ベラルーシ語という5つの言語は、これまでにKGQA研究コミュニティで最高の知識について検討されたことがなかった。
論文 参考訳(メタデータ) (2022-01-31T22:19:55Z) - Investigating Post-pretraining Representation Alignment for
Cross-Lingual Question Answering [20.4489424966613]
言語間質問応答システムにおける多言語事前学習言語モデルの能力について検討する。
言語間の表現をポストホックな微調整のステップで明示的に整合させると、一般的にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-09-24T15:32:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。