Fugu-MT 論文翻訳(概要): Factual Consistency Oriented Speech Recognition

論文の概要: Factual Consistency Oriented Speech Recognition

arxiv url: http://arxiv.org/abs/2302.12369v1
Date: Fri, 24 Feb 2023 00:01:41 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-27 14:59:39.426923
Title: Factual Consistency Oriented Speech Recognition
Title（参考訳）: Factual Consistency Oriented Speech Recognition
Authors: Naoyuki Kanda, Takuya Yoshioka, Yang Liu
Abstract要約: 提案フレームワークは, ASR の仮説と接地真実の整合性を最大化するために, ASR モデルを最適化する。提案手法を用いてASRモデルのトレーニングを行うことにより,会話要約の事実整合性によって,音声要約品質が向上することが示されている。
参考スコア（独自算出の注目度）: 23.754107608608106
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper presents a novel optimization framework for automatic speech recognition (ASR) with the aim of reducing hallucinations produced by an ASR model. The proposed framework optimizes the ASR model to maximize an expected factual consistency score between ASR hypotheses and ground-truth transcriptions, where the factual consistency score is computed by a separately trained estimator. Experimental results using the AMI meeting corpus and the VoxPopuli corpus show that the ASR model trained with the proposed framework generates ASR hypotheses that have significantly higher consistency scores with ground-truth transcriptions while maintaining the word error rates close to those of cross entropy-trained ASR models. Furthermore, it is shown that training the ASR models with the proposed framework improves the speech summarization quality as measured by the factual consistency of meeting conversation summaries generated by a large language model.
Abstract（参考訳）: 本稿では,ASRモデルによる幻覚の低減を目的とした,自動音声認識(ASR)のための新しい最適化フレームワークを提案する。提案フレームワークは、ASRモデルを用いて、予測されるASR仮説と基底トラス転写との整合性スコアを最大化し、その整合性スコアを個別に訓練された推定器で計算する。 AMIミーティングコーパスとVoxPopuliコーパスを用いた実験結果から,提案フレームワークを用いてトレーニングしたASRモデルは,クロスエントロピー学習されたASRモデルに近い単語誤り率を維持しつつ,地上構造転写との整合性が高いASR仮説を生成することがわかった。さらに,提案フレームワークを用いてasrモデルを訓練することで,大規模言語モデルによって生成された会話要約の事実整合性によって測定された音声要約品質が向上することを示す。

関連論文リスト

Training-Free Intelligibility-Guided Observation Addition for Noisy ASR [57.74127683005929]
本稿では,雑音環境下での音声認識を改善するために,インテリジェンス誘導観測加算法を提案する。さまざまなSE-ASRの組み合わせとデータセットによる実験は、既存のOAベースラインよりも強い堅牢性と改善を示している。
論文参考訳（メタデータ） (2026-02-24T14:46:54Z)
SSR: Socratic Self-Refine for Large Language Model Reasoning [78.62319252287938]
Socratic Self-Refine (SSR)は、大規模言語モデル(LLM)のきめ細かい評価と精度向上のための新しいフレームワークである。提案したSSRはモデル応答を検証可能な(サブクエスト,サブサブアンサー)ペアに分解し,ステップレベルの信頼度推定を可能にする。 5つの推論ベンチマークと3つのLCMによる実証的な結果から、SSRは一貫して最先端の反復的自己修正ベースラインを上回っていることが分かる。
論文参考訳（メタデータ） (2025-11-13T18:47:07Z)
Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation [113.75682363364004]
AURORAは、参照音声視覚セグメント化における真の推論と言語理解を強化するために設計されたフレームワークである。 AURORAはRef-AVSベンチマークの最先端性能を達成し、非参照セグメンテーションに効果的に一般化する。
論文参考訳（メタデータ） (2025-08-04T07:47:38Z)
RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文参考訳（メタデータ） (2025-05-28T14:55:33Z)
Robust Zero-Shot Text-to-Speech Synthesis with Reverse Inference Optimization [34.51491788470738]
本稿では,自己回帰モデルに基づく音声合成システム(TTS)の堅牢性を高めるために,リバース推論最適化(RIO)を提案する。 RIOは、RTSシステム自体によって生成された音声サンプルからRLHFで使用される例を選択するために、逆推論を使用する。 RIOは、トレーニングと推論条件の相違を低減し、ゼロショットTS性能の安定性を著しく向上する。
論文参考訳（メタデータ） (2024-07-02T13:04:04Z)
Crossmodal ASR Error Correction with Discrete Speech Units [16.58209270191005]
ASR誤り訂正(AEC)に対するASR後処理手法を提案する。我々は、事前学習と微調整の戦略を探求し、ASRドメインの不一致現象を明らかにする。そこで本稿では,AEC品質向上のための単語埋め込みの整合・強化を目的とした,離散音声ユニットの組込みを提案する。
論文参考訳（メタデータ） (2024-05-26T19:58:38Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
How to Estimate Model Transferability of Pre-Trained Speech Models? [84.11085139766108]
事前学習音声モデルの伝達可能性推定のためのスコアベースアセスメントフレームワークベイズ確率推定と最適輸送という2つの表現理論を利用して、PSM候補のランクスコアを生成する。本フレームワークは,候補モデルやレイヤを実際に微調整することなく,転送可能性スコアを効率的に計算する。
論文参考訳（メタデータ） (2023-06-01T04:52:26Z)
Towards Improved Room Impulse Response Estimation for Speech Recognition [53.04440557465013]
遠距離場自動音声認識(ASR)におけるブラインドルームインパルス応答(RIR)推定システムを提案する。まず、改良されたRIR推定と改善されたASR性能の関連性について、ニューラルネットワークを用いたRIR推定器の評価を行った。次に、残響音声からRIR特徴を符号化し、符号化された特徴からRIRを構成するGANベースのアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-11-08T00:40:27Z)
A Comparative Study on Speaker-attributed Automatic Speech Recognition in Multi-party Meetings [53.120885867427305]
会議シナリオにおける話者分散自動音声認識(SA-ASR)の3つのアプローチを評価する。 WD-SOT法は平均話者依存文字誤り率(SD-CER)を10.7%削減する TS-ASRアプローチはFD-SOTアプローチよりも優れ、16.5%の相対的なSD-CER削減をもたらす。
論文参考訳（メタデータ） (2022-03-31T06:39:14Z)
Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる ASR誤差はカスケード法における出力要約の品質に直接影響する。本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文参考訳（メタデータ） (2021-11-16T03:00:29Z)
Cross-sentence Neural Language Models for Conversational Speech Recognition [17.317583079824423]
本稿では, ASR N-best 仮説を再帰する, 効果的なクロス文ニューラル LM 手法を提案する。また,タスク固有のグローバルトピック情報からクロス文履歴を抽出する手法についても検討する。
論文参考訳（メタデータ） (2021-06-13T05:30:16Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。