Fugu-MT 論文翻訳(概要): ReHear: Iterative Pseudo-Label Refinement for Semi-Supervised Speech Recognition via Audio Large Language Models

論文の概要: ReHear: Iterative Pseudo-Label Refinement for Semi-Supervised Speech Recognition via Audio Large Language Models

arxiv url: http://arxiv.org/abs/2602.18721v1
Date: Sat, 21 Feb 2026 05:04:22 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.263028
Title: ReHear: Iterative Pseudo-Label Refinement for Semi-Supervised Speech Recognition via Audio Large Language Models
Title（参考訳）: ReHear:大規模音声モデルによる半教師付き音声認識のための反復擬似ラベル再構成
Authors: Zefang Liu, Chenyang Zhu, Sangwoo Cho, Shi-Xiong Zhang,
Abstract要約: ReHearは、自動音声認識における反復的な擬似ラベル改善のためのフレームワークである。命令調整されたオーディオ対応の大規模言語モデルを自己学習ループに統合する。 ReHearはエラーの伝播を効果的に軽減し、教師付きベースラインと疑似ラベルベースラインの両方を一貫して上回ることを示す。
参考スコア（独自算出の注目度）: 12.527207210862151
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Semi-supervised learning in automatic speech recognition (ASR) typically relies on pseudo-labeling, which often suffers from confirmation bias and error accumulation due to noisy supervision. To address this limitation, we propose ReHear, a framework for iterative pseudo-label refinement that integrates an instruction-tuned, audio-aware large language model (LLM) into the self-training loop. Unlike conventional text-based correctors, our approach conditions the LLM on both the ASR hypothesis and the source audio, allowing it to recover phonetically accurate transcripts even from severe recognition errors. These refined pseudo-labels serve as high-fidelity targets for fine-tuning the ASR model in an iterative cycle. Experimental results across diverse benchmarks demonstrate that ReHear effectively mitigates error propagation, consistently outperforming both supervised and pseudo-labeling baselines.
Abstract（参考訳）: 自動音声認識(ASR)における半教師あり学習は、通常擬似ラベルに頼っている。この制限に対処するために,インストラクションチューニングされた音声対応大規模言語モデル(LLM)を自己学習ループに統合する,反復的擬似ラベル改善フレームワークReHearを提案する。従来のテキストベースの修正法とは異なり、我々のアプローチでは、ASR仮説とソースオーディオの両方でLLMを条件にしており、重度な認識誤りでも音声学的に正確な書き起こしを復元することができる。これらの洗練された擬似ラベルは、ASRモデルを反復サイクルで微調整するための高忠実度ターゲットとして機能する。さまざまなベンチマークによる実験結果から、ReHearはエラーの伝播を効果的に軽減し、教師付きベースラインと疑似ラベルベースラインの両方を一貫して上回ることを示した。

関連論文リスト

Two Heads Are Better Than One: Audio-Visual Speech Error Correction with Dual Hypotheses [71.34350093068473]
本稿では,音声視覚音声認識(AVSR)における生成誤り訂正(GER)フレームワークの新たなパラダイムを提案する。我々のフレームワークであるDualHypは、独立した自動音声認識(ASR)モデルと視覚音声認識(VSR)モデルから独立したN-best仮説を構成するために、大規模言語モデル(LLM)を強制する。我々のフレームワークは、標準のASRベースラインよりもLRS2ベンチマークで57.7%のエラー率を獲得していますが、シングルストリームのGERアプローチでは10%のゲインしか達成できません。
論文参考訳（メタデータ） (2025-10-15T08:27:16Z)
Pseudo2Real: Task Arithmetic for Pseudo-Label Correction in Automatic Speech Recognition [61.712328155788434]
現実世界のシステムは、ラベル付きデータに制限のある、目に見えないアクセントとドメインに遭遇する。擬似ラベルは、しばしばフィルタリングが修正に失敗するシステマティックでアクセント固有のエラーをもたらす。そこで本研究では,これらの繰り返しバイアスを目的の真理を含まない簡単なパラメータ空間補正を提案する。
論文参考訳（メタデータ） (2025-10-09T10:31:47Z)
Spelling Correction through Rewriting of Non-Autoregressive ASR Lattices [8.77712061194924]
本稿では,トランスフォーマーを用いたCTCモデルにより生成されたワードピース格子を書き換える有限状態トランスデューサ(FST)手法を提案する。本アルゴリズムは,単語から音素への変換を直接行うため,明示的な単語表現を避けることができる。文脈関連エンティティを用いたテストにおいて, 文誤り率(SER)の15.2%の相対的低減を実現した。
論文参考訳（メタデータ） (2024-09-24T21:42:25Z)
Error Correction by Paying Attention to Both Acoustic and Confidence References for Automatic Speech Recognition [52.624909026294105]
本稿では,非自己回帰型音声誤り訂正法を提案する。信頼モジュールは、N-best ASR仮説の各単語の不確実性を測定する。提案方式は,ASRモデルと比較して誤差率を21%削減する。
論文参考訳（メタデータ） (2024-06-29T17:56:28Z)
Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文参考訳（メタデータ） (2023-12-27T09:03:43Z)
HyPoradise: An Open Baseline for Generative Speech Recognition with Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文参考訳（メタデータ） (2023-09-27T14:44:10Z)
Error Correction in ASR using Sequence-to-Sequence Models [32.41875780785648]
自動音声認識における後編集では、ASRシステムによって生成された共通および系統的な誤りを自動的に修正する必要がある。本稿では,事前学習型シーケンス・ツー・シーケンス・モデルであるBARTを用いて,デノナイジングモデルとして機能することを提案する。アクセント付き音声データによる実験結果から,ASRの誤りを効果的に修正できることが示唆された。
論文参考訳（メタデータ） (2022-02-02T17:32:59Z)
A Light-weight contextual spelling correction model for customizing transducer-based speech recognition systems [42.05399301143457]
本稿では,文脈関連認識誤りを補正するために,軽量な文脈スペル補正モデルを提案する。実験の結果,約50%の単語誤り率削減でベースラインASRモデルの性能が向上した。このモデルはまた、トレーニング中に見られない語彙外用語に対して優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2021-08-17T08:14:37Z)
Semi-Supervised Speech Recognition via Graph-based Temporal Classification [59.58318952000571]
半教師付き学習は自己学習による自動音声認識において有望な結果を示した。このアプローチの有効性は、主に擬似ラベルの精度に依存する。 N-bestリストの別のASR仮説は、ラベルなしの発話に対してより正確なラベルを提供することができる。
論文参考訳（メタデータ） (2020-10-29T14:56:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。