論文の概要: Chain of Correction for Full-text Speech Recognition with Large Language Models
- arxiv url: http://arxiv.org/abs/2504.01519v1
- Date: Wed, 02 Apr 2025 09:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:20:36.187647
- Title: Chain of Correction for Full-text Speech Recognition with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた全文音声認識における補正の連鎖
- Authors: Zhiyuan Tang, Dong Wang, Zhikai Zhou, Yong Liu, Shen Huang, Shidong Shang,
- Abstract要約: 大規模言語モデル(LLM)を用いた全文誤り訂正のための訂正の連鎖(CoC)
CoCは、通常のマルチターンチャットフォーマット内のガイダンスとして、事前に認識されたテキストを使用して、エラーセグメントをセグメントごとに修正する。
我々は、修正しきい値を設定し、過度な補正と過剰な言い換えのバランスをとる方法について分析する。
- 参考スコア(独自算出の注目度): 21.37485126269991
- License:
- Abstract: Full-text error correction with Large Language Models (LLMs) for Automatic Speech Recognition (ASR) has gained increased attention due to its potential to correct errors across long contexts and address a broader spectrum of error types, including punctuation restoration and inverse text normalization. Nevertheless, many challenges persist, including issues related to stability, controllability, completeness, and fluency. To mitigate these challenges, this paper proposes the Chain of Correction (CoC) for full-text error correction with LLMs, which corrects errors segment by segment using pre-recognized text as guidance within a regular multi-turn chat format. The CoC also uses pre-recognized full text for context, allowing the model to better grasp global semantics and maintain a comprehensive overview of the entire content. Utilizing the open-sourced full-text error correction dataset ChFT, we fine-tune a pre-trained LLM to evaluate the performance of the CoC framework. Experimental results demonstrate that the CoC effectively corrects errors in full-text ASR outputs, significantly outperforming baseline and benchmark systems. We further analyze how to set the correction threshold to balance under-correction and over-rephrasing, extrapolate the CoC model on extremely long ASR outputs, and investigate whether other types of information can be employed to guide the error correction process.
- Abstract(参考訳): 音声認識(ASR)のためのLarge Language Models (LLMs)による完全テキスト誤り訂正は、長い文脈で誤りを訂正し、句読解や逆テキスト正規化を含む幅広い種類のエラーに対処する可能性から注目されている。
それでも安定性、可制御性、完全性、流布性に関する問題など、多くの課題が続いている。
これらの課題を軽減するために,本論文では,LLMを用いた全文誤り訂正のためのCoC(Chain of Correction)を提案する。
CoCはまた、事前に認識されたフルテキストをコンテキストに使用することで、グローバルなセマンティクスをよりよく把握し、コンテンツ全体の包括的な概要を維持することができる。
オープンソースの全文誤り訂正データセットChFTを用いて,事前学習したLCMを微調整し,CoCフレームワークの性能評価を行う。
実験の結果、CoCはフルテキストのASR出力におけるエラーを効果的に修正し、ベースラインやベンチマークシステムよりも大幅に優れていた。
さらに、補正しきい値を補正と過剰表現のバランスに設定し、極端に長いASR出力でCoCモデルを外挿し、他の種類の情報を用いて誤り訂正プロセスを導出できるかどうかを調査する。
関連論文リスト
- Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Cross-modal Active Complementary Learning with Self-refining
Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文 参考訳(メタデータ) (2023-10-26T15:15:11Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。