論文の概要: Conversational speech recognition leveraging effective fusion methods
for cross-utterance language modeling
- arxiv url: http://arxiv.org/abs/2111.03333v1
- Date: Fri, 5 Nov 2021 09:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 15:44:06.451177
- Title: Conversational speech recognition leveraging effective fusion methods
for cross-utterance language modeling
- Title(参考訳): クロス発話言語モデルのための効果的な融合手法を用いた会話音声認識
- Authors: Bi-Cheng Yan, Hsin-Wei Wang, Shih-Hsuan Chiu, Hsuan-Sheng Chiu, Berlin
Chen
- Abstract要約: 音声認識における言語モデリングのための異種会話履歴融合手法を提案する。
現在の発話の音響埋め込みとそれに対応する会話履歴のセマンティックコンテンツとを融合して利用する新しい音声融合機構が導入された。
我々は,ASR N-best仮説再構成タスクを予測問題として,象徴的な事前学習型LMであるBERTを活用する。
- 参考スコア(独自算出の注目度): 12.153618111267514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational speech normally is embodied with loose syntactic structures at
the utterance level but simultaneously exhibits topical coherence relations
across consecutive utterances. Prior work has shown that capturing longer
context information with a recurrent neural network or long short-term memory
language model (LM) may suffer from the recent bias while excluding the
long-range context. In order to capture the long-term semantic interactions
among words and across utterances, we put forward disparate conversation
history fusion methods for language modeling in automatic speech recognition
(ASR) of conversational speech. Furthermore, a novel audio-fusion mechanism is
introduced, which manages to fuse and utilize the acoustic embeddings of a
current utterance and the semantic content of its corresponding conversation
history in a cooperative way. To flesh out our ideas, we frame the ASR N-best
hypothesis rescoring task as a prediction problem, leveraging BERT, an iconic
pre-trained LM, as the ingredient vehicle to facilitate selection of the oracle
hypothesis from a given N-best hypothesis list. Empirical experiments conducted
on the AMI benchmark dataset seem to demonstrate the feasibility and efficacy
of our methods in relation to some current top-of-line methods.
- Abstract(参考訳): 会話音声は通常、発話レベルでのゆるい構文構造で具現化されるが、同時に連続する発話間での局所的コヒーレンス関係を示す。
以前の研究では、リカレントニューラルネットワークや長期記憶言語モデル(LM)で長いコンテキスト情報をキャプチャすることは、長距離コンテキストを除外しながら、最近のバイアスに悩まされることが示されている。
単語間および発話間の長期的な意味的相互作用を捉えるために,会話音声の自動音声認識(asr)における言語モデルのための異なる会話履歴融合手法を提案する。
さらに、現在の発話の音響埋め込みと対応する会話履歴のセマンティックコンテンツとを協調的に融合・活用する新しい音声融合機構を導入する。
そこで我々は,ASR N-best仮説再構成タスクを予測問題とみなし,特定のN-best仮説リストからオラクル仮説の選択を容易にするために,象徴的事前学習LMであるBERTを活用する。
AMIベンチマークデータセット上で実施した実証実験は,現在のトップ・オブ・ライン手法の有効性と有効性を示すものと思われる。
関連論文リスト
- Automated Speaking Assessment of Conversation Tests with Novel Graph-based Modeling on Spoken Response Coherence [11.217656140423207]
ASACは、1つ以上の候補者と対話する環境でL2話者の全体的な発話能力を評価することを目的としている。
本稿では,広い応答間相互作用とニュアンス付き意味情報の両方を適切に組み込んだ階層グラフモデルを提案する。
NICT-JLEベンチマークデータセットの大規模な実験結果から,提案手法が予測精度を大幅に向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-11T07:24:07Z) - Improve Retrieval-based Dialogue System via Syntax-Informed Attention [46.79601705850277]
文内構文情報と文間構文情報の両方を考慮したSIA, Syntax-Informed Attentionを提案する。
提案手法を広範に使用した3つのベンチマークで評価し,対話応答選択における本手法の一般的な優位性を示す実験結果を得た。
論文 参考訳(メタデータ) (2023-03-12T08:14:16Z) - Channel-aware Decoupling Network for Multi-turn Dialogue Comprehension [81.47133615169203]
本稿では,PrLMの逐次文脈化を超えて,発話間の包括的相互作用のための合成学習を提案する。
私たちは、モデルが対話ドメインに適応するのを助けるために、ドメイン適応型トレーニング戦略を採用しています。
実験の結果,提案手法は4つの公開ベンチマークデータセットにおいて,強力なPrLMベースラインを著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-01-10T13:18:25Z) - FCTalker: Fine and Coarse Grained Context Modeling for Expressive
Conversational Speech Synthesis [75.74906149219817]
Conversational Text-to-Speech (TTS) は、会話の文脈において、適切な言語的・感情的な韻律で発話を合成することを目的としている。
本稿では, 音声生成時に, 微細で粗い文脈依存性を同時に学習する, FCTalkerと呼ばれる新しい表現型会話型TSモデルを提案する。
論文 参考訳(メタデータ) (2022-10-27T12:20:20Z) - End-to-end Spoken Conversational Question Answering: Task, Dataset and
Model [92.18621726802726]
音声による質問応答では、システムは関連する音声書き起こしの中に連続したテキストスパンからの質問に答えるように設計されている。
本稿では,複雑な対話フローをモデル化することを目的とした音声対話型質問応答タスク(SCQA)を提案する。
本研究の目的は,音声記録に基づく対話型質問に対処するシステムを構築することであり,情報収集システムによる様々なモダリティからより多くの手がかりを提供する可能性を探ることである。
論文 参考訳(メタデータ) (2022-04-29T17:56:59Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - Self-supervised Dialogue Learning for Spoken Conversational Question
Answering [29.545937716796082]
音声対話質問応答(SCQA)では、複数の会話を含む固定された音声文書を検索して分析することにより、対応する質問に対する回答を生成する。
本研究では,不整合判定,挿入検出,質問予測などの自己教師付き学習手法を導入し,コア参照の解決と対話のコヒーレンスを明確に把握する。
提案手法は,従来の事前学習言語モデルと比較して,より一貫性があり,意味があり,適切な応答を提供する。
論文 参考訳(メタデータ) (2021-06-04T00:09:38Z) - I like fish, especially dolphins: Addressing Contradictions in Dialogue
Modeling [104.09033240889106]
DialoguE Contradiction Detection Task(DECODE)と、人間とロボットの矛盾した対話の両方を含む新しい会話データセットを紹介します。
次に、事前学習したトランスフォーマーモデルを用いて、定型的非構造的アプローチと矛盾検出を行う構造的発話に基づくアプローチを比較する。
論文 参考訳(メタデータ) (2020-12-24T18:47:49Z) - Dialogue-Based Relation Extraction [53.2896545819799]
本稿では,人間による対話型関係抽出(RE)データセットDialogREを提案する。
我々は,対話型タスクと従来のREタスクの類似点と相違点の分析に基づいて,提案課題において話者関連情報が重要な役割を担っていると論じる。
実験結果から,ベストパフォーマンスモデルにおける話者認識の拡張が,標準設定と会話評価設定の両方において向上することが示された。
論文 参考訳(メタデータ) (2020-04-17T03:51:57Z) - Temporarily-Aware Context Modelling using Generative Adversarial
Networks for Speech Activity Detection [43.662221486962274]
音声活動検出(SAD)のための新しい共同学習フレームワークを提案する。
我々は、生成した敵対的ネットワークを利用して、次の音声セグメントと共にフレームワイド音声/非音声分類の共用予測のための損失関数を自動学習する。
NIST OpenSAT' 17 や AMI Meeting,HAVIC など,複数の公開ベンチマーク上で提案するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2020-04-02T02:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。