論文の概要: Chain of Correction for Full-text Speech Recognition with Large Language Models
- arxiv url: http://arxiv.org/abs/2504.01519v2
- Date: Wed, 20 Aug 2025 02:50:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.101633
- Title: Chain of Correction for Full-text Speech Recognition with Large Language Models
- Title(参考訳): 大規模言語モデルを用いた全文音声認識における補正の連鎖
- Authors: Zhiyuan Tang, Dong Wang, Zhikai Zhou, Yong Liu, Shen Huang, Shidong Shang,
- Abstract要約: Chain of Correction (CoC) は、セグメンテーションごとにエラーセグメントを補正するマルチターンチャットフォーマットである。
実験により、CoCはフルテキストASR出力の修正において、ベースラインやベンチマークシステムよりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 21.37485126269991
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Full-text error correction with Large Language Models (LLMs) for Automatic Speech Recognition (ASR) is attracting increased attention for its ability to address a wide range of error types, such as punctuation restoration and inverse text normalization, across long context. However, challenges remain regarding stability, controllability, completeness, and fluency. To mitigate these issues, this paper proposes the Chain of Correction (CoC), which uses a multi-turn chat format to correct errors segment by segment, guided by pre-recognized text and full-text context for better semantic understanding. Utilizing the open-sourced ChFT dataset, we fine-tune a pre-trained LLM to evaluate CoC's performance. Experiments show that CoC significantly outperforms baseline and benchmark systems in correcting full-text ASR outputs. We also analyze correction thresholds to balance under-correction and over-rephrasing, extrapolate CoC on extra-long ASR outputs, and explore using other types of information to guide error correction.
- Abstract(参考訳): 自動音声認識(ASR)のためのLarge Language Models (LLMs) による全文誤り訂正は、句読取復元や逆テキスト正規化といった幅広いエラータイプに対応する能力に注目が集まっている。
しかし、安定性、可制御性、完全性、流布性に関する課題は残る。
これらの問題を緩和するために,本論文では,複数ターンのチャットフォーマットを用いてセグメントごとのエラーセグメントを補正するChain of Correction (CoC)を提案する。
オープンソースChFTデータセットを利用することで、事前学習したLLMを微調整し、CoCの性能を評価する。
実験により、CoCはフルテキストASR出力の修正において、ベースラインやベンチマークシステムよりも大幅に優れていることが示された。
また、補正しきい値を分析し、補正と過剰表現のバランスをとり、長いASR出力でCoCを外挿し、他の種類の情報を用いて誤り訂正を導出する。
関連論文リスト
- MTCSC: Retrieval-Augmented Iterative Refinement for Chinese Spelling Correction [3.2706233566525613]
中国語のspelling Correctionは、文中の誤ったトークンを検出し、修正することを目的としている。
LLMは潜在的なエラーを特定し、修正することに成功した。
既存のCSCタスクは入力と出力の長さを同一にする必要がある厳格な制約を課している。
論文 参考訳(メタデータ) (2025-04-26T14:48:44Z) - Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - A Coin Has Two Sides: A Novel Detector-Corrector Framework for Chinese Spelling Correction [79.52464132360618]
中国語のSpelling Correction(CSC)は、自然言語処理(NLP)の基本課題である。
本稿では,エラー検出・相関器の枠組みに基づく新しい手法を提案する。
我々の検出器は2つのエラー検出結果を得るように設計されており、それぞれ高精度とリコールが特徴である。
論文 参考訳(メタデータ) (2024-09-06T09:26:45Z) - CLOCR-C: Context Leveraging OCR Correction with Pre-trained Language Models [0.0]
本稿では、コンテキストレバレッジOCR補正(CLOCR-C)を紹介する。
トランスフォーマーベースの言語モデル(LM)の組み込みとコンテキスト適応能力を使用して、OCRの品質を向上する。
本研究の目的は, LMがOCR後の修正を行うことができるか, 下流のNLPタスクを改善するか, 補正プロセスの一部として社会文化的文脈を提供する価値を判断することである。
論文 参考訳(メタデータ) (2024-08-30T17:26:05Z) - Detecting Errors through Ensembling Prompts (DEEP): An End-to-End LLM Framework for Detecting Factual Errors [11.07539342949602]
本稿では,テキスト要約における事実誤り検出のためのエンドツーエンドフレームワークを提案する。
我々のフレームワークは、様々なLCMプロンプトを使用して、事実の矛盾を識別する。
我々は、アンサンブルされたモデルを校正し、テキストが実際に一貫した、あるいは幻覚のない、経験的に正確な確率を生成する。
論文 参考訳(メタデータ) (2024-06-18T18:59:37Z) - Cross-modal Active Complementary Learning with Self-refining
Correspondence [54.61307946222386]
既存手法のロバスト性を改善するために,クロスモーダルなロバスト補完学習フレームワーク(CRCL)を提案する。
ACLは、誤った監視を行うリスクを減らすために、アクティブで補完的な学習損失を利用する。
SCCは、モーメント補正を備えた複数の自己精製プロセスを使用して、対応を補正するために受容場を拡大する。
論文 参考訳(メタデータ) (2023-10-26T15:15:11Z) - You Can Generate It Again: Data-to-Text Generation with Verification and Correction Prompting [24.738004421537926]
T5のような小さな言語モデルは、データからテキストへのタスクのための高品質なテキストを生成するのに優れている。
彼らはしばしばキーワードを見逃すが、これはこのタスクで最も重大で一般的なエラーの1つだと考えられている。
我々は,データ・テキスト生成タスクにおいて,より小さな言語モデルにおける意味的忠実度を高めるためにフィードバックシステムを利用することの可能性を探る。
論文 参考訳(メタデータ) (2023-06-28T05:34:25Z) - RCOT: Detecting and Rectifying Factual Inconsistency in Reasoning by
Reversing Chain-of-Thought [56.558892336235914]
Reversing Chain-of-Thought (RCoT) は、大規模言語モデルの推論能力を改善する新しい手法である。
RCoTは生成したソリューションにおける事実の不整合を自動的に検出し、修正する。
手書きのきめ細かいフィードバックがLLMの推論能力を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-05-19T08:02:52Z) - Factual Error Correction for Abstractive Summaries Using Entity
Retrieval [57.01193722520597]
本稿では,エンティティ検索後処理に基づく効率的な事実誤り訂正システムRFECを提案する。
RFECは、原文と対象要約とを比較して、原文から証拠文を検索する。
次に、RFECは、エビデンス文を考慮し、要約中のエンティティレベルのエラーを検出し、エビデンス文から正確なエンティティに置換する。
論文 参考訳(メタデータ) (2022-04-18T11:35:02Z) - Tail-to-Tail Non-Autoregressive Sequence Prediction for Chinese
Grammatical Error Correction [49.25830718574892]
本稿では,Tail-to-Tail (textbfTtT) という新しいフレームワークを提案する。
ほとんどのトークンが正しいので、ソースからターゲットに直接転送でき、エラー位置を推定して修正することができる。
標準データセット、特に可変長データセットに関する実験結果は、文レベルの精度、精度、リコール、F1-Measureの観点からTtTの有効性を示す。
論文 参考訳(メタデータ) (2021-06-03T05:56:57Z) - A Self-Refinement Strategy for Noise Reduction in Grammatical Error
Correction [54.569707226277735]
既存の文法的誤り訂正(GEC)のアプローチは、手動で作成したGECデータセットによる教師あり学習に依存している。
誤りが不適切に編集されたり、修正されなかったりする「ノイズ」は無視できないほどある。
本稿では,既存のモデルの予測整合性を利用して,これらのデータセットをデノマイズする自己補充手法を提案する。
論文 参考訳(メタデータ) (2020-10-07T04:45:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。