論文の概要: Factual Consistency Oriented Speech Recognition
- arxiv url: http://arxiv.org/abs/2302.12369v1
- Date: Fri, 24 Feb 2023 00:01:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-27 14:59:39.426923
- Title: Factual Consistency Oriented Speech Recognition
- Title(参考訳): Factual Consistency Oriented Speech Recognition
- Authors: Naoyuki Kanda, Takuya Yoshioka, Yang Liu
- Abstract要約: 提案フレームワークは, ASR の仮説と接地真実の整合性を最大化するために, ASR モデルを最適化する。
提案手法を用いてASRモデルのトレーニングを行うことにより,会話要約の事実整合性によって,音声要約品質が向上することが示されている。
- 参考スコア(独自算出の注目度): 23.754107608608106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel optimization framework for automatic speech
recognition (ASR) with the aim of reducing hallucinations produced by an ASR
model. The proposed framework optimizes the ASR model to maximize an expected
factual consistency score between ASR hypotheses and ground-truth
transcriptions, where the factual consistency score is computed by a separately
trained estimator. Experimental results using the AMI meeting corpus and the
VoxPopuli corpus show that the ASR model trained with the proposed framework
generates ASR hypotheses that have significantly higher consistency scores with
ground-truth transcriptions while maintaining the word error rates close to
those of cross entropy-trained ASR models. Furthermore, it is shown that
training the ASR models with the proposed framework improves the speech
summarization quality as measured by the factual consistency of meeting
conversation summaries generated by a large language model.
- Abstract(参考訳): 本稿では,ASRモデルによる幻覚の低減を目的とした,自動音声認識(ASR)のための新しい最適化フレームワークを提案する。
提案フレームワークは、ASRモデルを用いて、予測されるASR仮説と基底トラス転写との整合性スコアを最大化し、その整合性スコアを個別に訓練された推定器で計算する。
AMIミーティングコーパスとVoxPopuliコーパスを用いた実験結果から,提案フレームワークを用いてトレーニングしたASRモデルは,クロスエントロピー学習されたASRモデルに近い単語誤り率を維持しつつ,地上構造転写との整合性が高いASR仮説を生成することがわかった。
さらに,提案フレームワークを用いてasrモデルを訓練することで,大規模言語モデルによって生成された会話要約の事実整合性によって測定された音声要約品質が向上することを示す。
関連論文リスト
- Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization [34.51491788470738]
本稿では,自己回帰モデルに基づく音声合成システム(TTS)の堅牢性を高めるために,リバース推論最適化(RIO)を提案する。
RIOは、RTSシステム自体によって生成された音声サンプルからRLHFで使用される例を選択するために、逆推論を使用する。
RIOは、トレーニングと推論条件の相違を低減し、ゼロショットTS性能の安定性を著しく向上する。
論文 参考訳(メタデータ) (2024-07-02T13:04:04Z) - Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。
我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。
そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文 参考訳(メタデータ) (2024-05-26T19:58:38Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワーク
ベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。
本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文 参考訳(メタデータ) (2023-06-01T04:52:26Z) - Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。
まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。
次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-11-08T00:40:27Z) - A Comparative Study on Speaker-attributed Automatic Speech Recognition
in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。
WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する
TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文 参考訳(メタデータ) (2022-03-31T06:39:14Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Cross-sentence Neural Language Models for Conversational Speech
Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。
また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文 参考訳(メタデータ) (2021-06-13T05:30:16Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。