Fugu-MT 論文翻訳(概要): Retrieval-Augmented Self-Taught Reasoning Model with Adaptive Chain-of-Thought for ASR Named Entity Correction

論文の概要: Retrieval-Augmented Self-Taught Reasoning Model with Adaptive Chain-of-Thought for ASR Named Entity Correction

arxiv url: http://arxiv.org/abs/2602.12287v1
Date: Wed, 21 Jan 2026 15:05:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.522958
Title: Retrieval-Augmented Self-Taught Reasoning Model with Adaptive Chain-of-Thought for ASR Named Entity Correction
Title（参考訳）: 適応チェーン・オブ・ソートを用いた検索強化自己学習推論モデル
Authors: Junjie An, Jingguang Tian, Tianyi Wang, Yu Gao, Xiaofeng Mou, Yi Xu,
Abstract要約: 自動音声認識(ASR)における名前付きエンティティエラーの修正のための検索拡張生成フレームワークを提案する。提案手法は,(1)名前付きエンティティ認識のための言い換え言語モデル(RLM)と,(2)タスクの難易度に基づいて推論の深さを動的に調整する適応チェーン・オブ・シント(A-STAR)を用いた新しい自己学習推論モデルからなる。
参考スコア（独自算出の注目度）: 12.483998165719981
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: End-to-end automatic speech recognition (ASR) systems frequently misrecognize domain-specific phrases like named entities, which can cause catastrophic failures in downstream tasks. A new family of named entity correction methods based on large language models (LLMs) has recently emerged. However, these approaches have yet to fully exploit the sophisticated reasoning capabilities inherent to LLMs. To bridge this gap, we propose a novel retrieval-augmented generation framework for correcting named entity errors in ASR. Our approach consists of two key components: (1) a rephrasing language model (RLM) for named entity recognition, followed by candidate retrieval using a phonetic-level edit distance; and (2) a novel self-taught reasoning model with adaptive chain-of-thought (A-STAR) that dynamically adjusts the depth of its reasoning based on task difficulty. Experiments on the AISHELL-1 and Homophone datasets demonstrate the effectiveness of our method, which achieves relative reductions in the named entity character error rate of 17.96\% and 34.42\%, respectively, compared to a strong baseline.
Abstract（参考訳）: エンドツーエンドの自動音声認識(ASR)システムは、しばしば名前付きエンティティのようなドメイン固有のフレーズを誤認識し、下流のタスクで破滅的な失敗を引き起こす。大規模言語モデル(LLM)に基づく名前付きエンティティ補正手法が最近登場した。しかし、これらのアプローチはLLMに固有の高度な推論能力を完全に活用していない。このギャップを埋めるために、ASRにおける名前付きエンティティエラーを修正するための新しい検索拡張生成フレームワークを提案する。提案手法は,(1)名前付きエンティティ認識のための言い換え言語モデル(RLM)と,(2)タスクの難易度に基づいて推論の深さを動的に調整する適応チェーン・オブ・シント(A-STAR)を用いた新しい自己学習推論モデルからなる。 AISHELL-1 と Homophone のデータセットを用いた実験では,提案手法の有効性が示され,高いベースラインと比較すると,名前付きエンティティ文字誤り率 17.96\% と 34.42\% の相対的な削減が達成された。

関連論文リスト

SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。 18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文参考訳（メタデータ） (2025-06-10T02:50:20Z)
Customizing Speech Recognition Model with Large Language Model Feedback [5.290365603660415]
教師なしドメイン適応のための強化学習に基づくアプローチを提案する。我々は、未ラベルデータを利用して転写品質、特にドメインミスマッチの影響を受ける名前付きエンティティを向上させる。提案手法は,従来の自己学習手法に比べて,エンティティ単語の誤り率を21%向上させる。
論文参考訳（メタデータ） (2025-06-05T18:42:57Z)
LLM-based Generative Error Correction for Rare Words with Synthetic Data and Phonetic Context [4.444835399672951]
稀な単語を対象とし,音声情報を組み込んだ新しいGER手法を提案する。実験結果から,本手法は稀な単語の訂正を改善するだけでなく,WERとCERを低減させることがわかった。
論文参考訳（メタデータ） (2025-05-23T02:54:52Z)
Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。 DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文参考訳（メタデータ） (2024-10-17T04:00:29Z)
Unifying Global and Near-Context Biasing in a Single Trie Pass [11.277273712268897]
NEバイアスリストと単語レベルn-gram言語モデル(LM)の未探索組み合わせを提案する。提案したキーワードバイアスとn-gram LMの組み合わせは,エンティティ認識を最大32%改善し,WER全体の最大12%削減することを示す。
論文参考訳（メタデータ） (2024-09-20T13:53:37Z)
Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。 STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文参考訳（メタデータ） (2024-05-23T04:27:11Z)
DANCER: Entity Description Augmented Named Entity Corrector for Automatic Speech Recognition [10.844822448167935]
本稿では、自動音声認識(E2E ASR)における音声の混同を軽減するために、CorrEctoR(dubed DANCER)について述べる。 DANCERは、名前付きエンティティのAISHELL-1に対して、文字誤り率(CER)の約7%の削減により、強いベースラインである音声編集距離ベースNECモデル(PED-NEC)より優れている。 DANCERは、名前付きエンティティを含むHomophoneでテストすると、名前付きエンティティに対してPED-NECよりもCERが46%減少する。
論文参考訳（メタデータ） (2024-03-26T12:27:32Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Unsupervised Syntactically Controlled Paraphrase Generation with Abstract Meaning Representations [59.10748929158525]
抽象表現(AMR)は、教師なし構文制御されたパラフレーズ生成の性能を大幅に向上させることができる。提案モデルであるAMRPGは,AMRグラフを符号化し,入力文を2つの非絡み合った意味的および構文的埋め込みに解析する。実験により、AMRPGは既存の教師なしアプローチと比較して、定量的かつ質的に、より正確な構文制御されたパラフレーズを生成することが示された。
論文参考訳（メタデータ） (2022-11-02T04:58:38Z)
Towards Contextual Spelling Correction for Customization of End-to-end Speech Recognition Systems [27.483603895258437]
そこで本研究では,文脈的スペル補正モデルをエンド・ツー・エンドのASRシステム上に付加することで,コンテキストバイアスを行う新しい手法を提案する。本稿では,大規模コンテキストリストを扱うフィルタリングアルゴリズムと,モデルのバイアス度を制御する性能バランス機構を提案する。実験の結果,提案手法はASRシステムよりも51%の相対単語誤り率(WER)の低減を実現し,従来のバイアス法よりも優れていた。
論文参考訳（メタデータ） (2022-03-02T06:00:48Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。