論文の概要: An Audio-enriched BERT-based Framework for Spoken Multiple-choice
Question Answering
- arxiv url: http://arxiv.org/abs/2005.12142v1
- Date: Mon, 25 May 2020 14:41:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 05:55:03.551161
- Title: An Audio-enriched BERT-based Framework for Spoken Multiple-choice
Question Answering
- Title(参考訳): マルチチョイス質問応答のための聴取強化BERTフレームワーク
- Authors: Chia-Chih Kuo, Shang-Bao Luo, Kuan-Yu Chen
- Abstract要約: 音声多重選択質問応答(SMCQA)タスクでは、一節、一問、複数の選択がすべて音声形式で与えられ、機械はその質問に答える正しい選択を選択する必要がある。
本研究は,BERTが学習した文脈的言語表現の利点を継承するだけでなく,音声から抽出した補音レベル情報をテキストレベル情報と統合する,BERTベースのSMCQAフレームワークの設計に集中する。
- 参考スコア(独自算出の注目度): 11.307739925111944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In a spoken multiple-choice question answering (SMCQA) task, given a passage,
a question, and multiple choices all in the form of speech, the machine needs
to pick the correct choice to answer the question. While the audio could
contain useful cues for SMCQA, usually only the auto-transcribed text is
utilized in system development. Thanks to the large-scaled pre-trained language
representation models, such as the bidirectional encoder representations from
transformers (BERT), systems with only auto-transcribed text can still achieve
a certain level of performance. However, previous studies have evidenced that
acoustic-level statistics can offset text inaccuracies caused by the automatic
speech recognition systems or representation inadequacy lurking in word
embedding generators, thereby making the SMCQA system robust. Along the line of
research, this study concentrates on designing a BERT-based SMCQA framework,
which not only inherits the advantages of contextualized language
representations learned by BERT, but integrates the complementary
acoustic-level information distilled from audio with the text-level
information. Consequently, an audio-enriched BERT-based SMCQA framework is
proposed. A series of experiments demonstrates remarkable improvements in
accuracy over selected baselines and SOTA systems on a published Chinese SMCQA
dataset.
- Abstract(参考訳): smcqa(talkd multiple-choice question answering)タスクでは、文章、質問、そして複数の選択をすべて音声形式で行ないますが、マシンは質問に答えるために正しい選択を選択する必要があります。
音声にはSMCQAの有用な手がかりが含まれているが、通常は自動転写されたテキストのみがシステム開発に利用される。
変換器(BERT)からの双方向エンコーダ表現など、大規模に訓練された言語表現モデルのおかげで、自動書き起こされたテキストのみを持つシステムは、一定のレベルのパフォーマンスを達成することができる。
しかし、従来の研究では、音声認識システムや単語埋め込みジェネレータに潜む表現の不正確さによって、音声レベルの統計がテキストの不正確さを相殺できることが証明されており、SMCQAシステムは堅牢である。
本研究は,BERTが学習した文脈化言語表現の利点を継承するだけでなく,音声から抽出した補音レベル情報をテキストレベル情報と統合する,BERTベースのSMCQAフレームワークの設計に集中する。
その結果,BERTベースのSMCQAフレームワークが提案されている。
一連の実験により、中国のSMCQAデータセット上で選択されたベースラインとSOTAシステムの精度が著しく向上した。
関連論文リスト
- Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems [0.0]
本稿では,ロシア語テキストの自動アクセント化と音韻転写のためのルールベースシステムの概要について述べる。
開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。
開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。
論文 参考訳(メタデータ) (2024-10-03T14:43:43Z) - Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文 参考訳(メタデータ) (2023-07-21T09:30:46Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - DUAL: Textless Spoken Question Answering with Speech Discrete Unit
Adaptive Learning [66.71308154398176]
SQA (Spken Question Answering) は近年注目され, 目覚ましい進歩を遂げている。
既存のSQA手法は、収集に時間と費用がかかる自動音声認識(ASR)の転写に依存している。
本研究は,未ラベルのデータを事前学習に活用し,SQAダウンストリームタスクによって微調整される離散単位適応学習(DUAL)という,ASR transcript-free SQAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-09T17:46:22Z) - An Initial Investigation of Non-Native Spoken Question-Answering [36.89541375786233]
SQuAD2.0 で訓練された単純なテキストベースの ELECTRA MC モデルは,音声による質問応答テストに適していることを示す。
重要な課題の1つは、このタスクのためにシステムを訓練するために適切に注釈付けされた音声コーパスがないことである。
ミスマッチは、テキスト文書と音声応答、非ネイティブな音声文法と書かれた文法の間で考慮されなければならない。
論文 参考訳(メタデータ) (2021-07-09T21:59:16Z) - The Sequence-to-Sequence Baseline for the Voice Conversion Challenge
2020: Cascading ASR and TTS [66.06385966689965]
本稿では,音声変換チャレンジ(VCC)2020におけるSequence-to-Sequence(seq2seq)ベースラインシステムを提案する。
本稿では,まず入力音声を自動音声認識 (ASR) モデルで書き起こす,音声変換 (VC) のナイーブなアプローチを検討する。
本手法を,オープンソースのエンドツーエンド音声処理ツールキットであるESPnetを用いて,シーケンス・ツー・シーケンス(seq2seq)フレームワークで再検討する。
論文 参考訳(メタデータ) (2020-10-06T02:27:38Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。