論文の概要: Attention-based Multi-hypothesis Fusion for Speech Summarization
- arxiv url: http://arxiv.org/abs/2111.08201v1
- Date: Tue, 16 Nov 2021 03:00:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-17 15:01:45.960017
- Title: Attention-based Multi-hypothesis Fusion for Speech Summarization
- Title(参考訳): 発話要約のための注意に基づくマルチハイポテーシス融合
- Authors: Takatomo Kano, Atsunori Ogawa, Marc Delcroix, and Shinji Watanabe
- Abstract要約: 音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
- 参考スコア(独自算出の注目度): 83.04957603852571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech summarization, which generates a text summary from speech, can be
achieved by combining automatic speech recognition (ASR) and text summarization
(TS). With this cascade approach, we can exploit state-of-the-art models and
large training datasets for both subtasks, i.e., Transformer for ASR and
Bidirectional Encoder Representations from Transformers (BERT) for TS. However,
ASR errors directly affect the quality of the output summary in the cascade
approach. We propose a cascade speech summarization model that is robust to ASR
errors and that exploits multiple hypotheses generated by ASR to attenuate the
effect of ASR errors on the summary. We investigate several schemes to combine
ASR hypotheses. First, we propose using the sum of sub-word embedding vectors
weighted by their posterior values provided by an ASR system as an input to a
BERT-based TS system. Then, we introduce a more general scheme that uses an
attention-based fusion module added to a pre-trained BERT module to align and
combine several ASR hypotheses. Finally, we perform speech summarization
experiments on the How2 dataset and a newly assembled TED-based dataset that we
will release with this paper. These experiments show that retraining the
BERT-based TS system with these schemes can improve summarization performance
and that the attention-based fusion module is particularly effective.
- Abstract(参考訳): 自動音声認識(asr)とテキスト要約(ts)を組み合わせることにより、音声からテキスト要約を生成する音声要約を実現することができる。
このカスケードアプローチでは、サブタスク、すなわちASR用TransformerとTS用Bidirectional Encoder Representations from Transformer (BERT)の両方に対して、最先端のモデルと大規模なトレーニングデータセットを利用することができる。
しかし、ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
ASR仮説を組み合わせるためのいくつかのスキームについて検討する。
まず,ASRシステムが提供する後続値によって重み付けされたサブワード埋め込みベクトルの和をBERTベースのTSシステムへの入力として用いることを提案する。
次に,事前学習したBERTモジュールにアテンションベースの融合モジュールを付加して,複数のASR仮説を調整・結合する,より一般的な手法を提案する。
最後に、ハウ2データセットと新しく構築されたTEDベースのデータセットを用いて音声要約実験を行い、本論文で発表する。
これらの実験により,BERTベースのTSシステムを再学習することで,要約性能が向上し,注意に基づく融合モジュールが特に有効であることが示された。
関連論文リスト
- Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。
我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。
そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文 参考訳(メタデータ) (2024-05-26T19:58:38Z) - Factual Consistency Oriented Speech Recognition [23.754107608608106]
提案フレームワークは, ASR の仮説と接地真実の整合性を最大化するために, ASR モデルを最適化する。
提案手法を用いてASRモデルのトレーニングを行うことにより,会話要約の事実整合性によって,音声要約品質が向上することが示されている。
論文 参考訳(メタデータ) (2023-02-24T00:01:41Z) - Deliberation Model for On-Device Spoken Language Understanding [69.5587671262691]
我々は、エンドツーエンド(E2E)音声言語理解(SLU)に対する新しい議論に基づくアプローチを提案する。
提案手法は,自然言語から合成音声訓練に移行する際の劣化を著しく低減できることを示す。
論文 参考訳(メタデータ) (2022-04-04T23:48:01Z) - RED-ACE: Robust Error Detection for ASR using Confidence Embeddings [5.4693121539705984]
ASRシステムの単語レベルの信頼度スコアをAEDの性能向上に活用することを提案する。
AEDモデルのエンコーダにASR Confidence Embeddingレイヤを追加し、信頼スコアと転写されたテキストをコンテキスト化された表現に共同でエンコードできるようにします。
論文 参考訳(メタデータ) (2022-03-14T15:13:52Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - N-Best ASR Transformer: Enhancing SLU Performance using Multiple ASR
Hypotheses [0.0]
Spoken Language Understanding (SLU)は、音声をダイアログやスロットのような意味構造に解析する。
提案手法は,低データ体制下での先行技術よりも著しく優れていることを示す。
論文 参考訳(メタデータ) (2021-06-11T17:29:00Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。