論文の概要: Self-supervised Contrastive Cross-Modality Representation Learning for
Spoken Question Answering
- arxiv url: http://arxiv.org/abs/2109.03381v1
- Date: Wed, 8 Sep 2021 01:13:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 05:16:16.922986
- Title: Self-supervised Contrastive Cross-Modality Representation Learning for
Spoken Question Answering
- Title(参考訳): 音声質問応答のための自己教師付きコントラストクロスモダリティ表現学習
- Authors: Chenyu You, Nuo Chen, Yuexian Zou
- Abstract要約: 音声質問応答 (SQA) は、音声文書と質問の両方をきめ細かな理解を必要とする。
本稿では,自己指導型学習段階とコントラッシブな表現学習段階を併用した音声質問応答のための新しい学習手法を提案する。
本モデルでは,3つのSQAベンチマークの最先端結果が得られた。
- 参考スコア(独自算出の注目度): 29.545937716796082
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spoken question answering (SQA) requires fine-grained understanding of both
spoken documents and questions for the optimal answer prediction. In this
paper, we propose novel training schemes for spoken question answering with a
self-supervised training stage and a contrastive representation learning stage.
In the self-supervised stage, we propose three auxiliary self-supervised tasks,
including utterance restoration, utterance insertion, and question
discrimination, and jointly train the model to capture consistency and
coherence among speech documents without any additional data or annotations. We
then propose to learn noise-invariant utterance representations in a
contrastive objective by adopting multiple augmentation strategies, including
span deletion and span substitution. Besides, we design a Temporal-Alignment
attention to semantically align the speech-text clues in the learned common
space and benefit the SQA tasks. By this means, the training schemes can more
effectively guide the generation model to predict more proper answers.
Experimental results show that our model achieves state-of-the-art results on
three SQA benchmarks.
- Abstract(参考訳): 音声による質問応答(SQA)は、最適な回答予測のために、音声文書と質問の両方をきめ細かな理解を必要とする。
本稿では,自己監督訓練段階と対照表現学習段階を用いた音声質問応答のための新しい学習方式を提案する。
自己監督段階において,発話復元,発話挿入,質問識別を含む3つの補助的自己監督課題を提案し,追加データや注釈なしで音声文書間の一貫性と一貫性を捉えるように協調的に学習する。
そこで我々は,スパン削除やスパン置換を含む複数の拡張戦略を採用することで,コントラスト目的の雑音不変発話表現を学習することを提案する。
さらに、学習した共通空間における音声文の手がかりを意味的に整合させ、SQAタスクに役立てるために、時間的アライメントの注意を設計する。
これにより、トレーニングスキームは生成モデルをより効果的にガイドし、より適切な回答を予測することができる。
実験結果から,3つのSQAベンチマークの最先端結果が得られた。
関連論文リスト
- Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - QASem Parsing: Text-to-text Modeling of QA-based Semantics [19.42681342441062]
本稿では,QA-SRL,QANom,QADiscourseの3つの意味的タスクについて考察する。
最初に統合されたQASem解析ツールをリリースし、下流アプリケーションに実用的です。
論文 参考訳(メタデータ) (2022-05-23T15:56:07Z) - Utterance Rewriting with Contrastive Learning in Multi-turn Dialogue [22.103162555263143]
比較学習とマルチタスク学習を導入し、問題を共同でモデル化する。
提案手法は,複数の公開データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-22T10:13:27Z) - elBERto: Self-supervised Commonsense Learning for Question Answering [131.51059870970616]
本稿では、市販QAモデルアーキテクチャと互換性のあるコモンセンスフレームワークの自己教師型双方向表現学習を提案する。
このフレームワークは5つの自己教師型タスクから構成されており、リッチコモンセンスを含むコンテキストから追加のトレーニング信号を完全に活用するようモデルに強制する。
elBERtoは、単純な語彙的類似性比較が役に立たないような、アウト・オブ・パラグラフや非エフェクトな問題に対して、大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-17T16:23:45Z) - Self-supervised Dialogue Learning for Spoken Conversational Question
Answering [29.545937716796082]
音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。
本研究では,不整合判定,挿入検出,質問予測などの自己教師付き学習手法を導入し,コア参照の解決と対話のコヒーレンスを明確に把握する。
提案手法は,従来の事前学習言語モデルと比較して,より一貫性があり,意味があり,適切な応答を提供する。
論文 参考訳(メタデータ) (2021-06-04T00:09:38Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z) - Probing Task-Oriented Dialogue Representation from Language Models [106.02947285212132]
本稿では,タスク指向対話タスクにおいて,どのモデルが本質的に最も有意義な表現を担っているかを明らかにするために,事前学習された言語モデルについて検討する。
我々は、アノテートラベルを教師付き方法で固定された事前学習言語モデルの上に、分類器プローブとしてフィードフォワード層を微調整する。
論文 参考訳(メタデータ) (2020-10-26T21:34:39Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - Learning an Effective Context-Response Matching Model with
Self-Supervised Tasks for Retrieval-based Dialogues [88.73739515457116]
我々は,次のセッション予測,発話復元,不整合検出,一貫性判定を含む4つの自己教師型タスクを導入する。
我々はPLMに基づく応答選択モデルとこれらの補助タスクをマルチタスク方式で共同で訓練する。
実験結果から,提案した補助的自己教師型タスクは,多ターン応答選択において大きな改善をもたらすことが示された。
論文 参考訳(メタデータ) (2020-09-14T08:44:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。