論文の概要: Better Pseudo-labeling with Multi-ASR Fusion and Error Correction by SpeechLLM
- arxiv url: http://arxiv.org/abs/2506.11089v1
- Date: Thu, 05 Jun 2025 12:35:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-22 23:32:14.570099
- Title: Better Pseudo-labeling with Multi-ASR Fusion and Error Correction by SpeechLLM
- Title(参考訳): 音声LLMによるマルチASR融合と誤り補正による擬似ラベルの精度向上
- Authors: Jeena Prakash, Blessingh Kumar, Kadri Hacioglu, Bidisha Sharma, Sindhuja Gopalan, Malolan Chetlur, Shankar Venkatesan, Andreas Stolcke,
- Abstract要約: 本稿では,テキストおよび音声に基づく大規模言語モデルによる後処理を用いたマルチASRプロンプト駆動フレームワークを提案する。
従来の方法と比較して,転写精度が大幅に向上した。
- 参考スコア(独自算出の注目度): 12.005825075325234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic speech recognition (ASR) models rely on high-quality transcribed data for effective training. Generating pseudo-labels for large unlabeled audio datasets often relies on complex pipelines that combine multiple ASR outputs through multi-stage processing, leading to error propagation, information loss and disjoint optimization. We propose a unified multi-ASR prompt-driven framework using postprocessing by either textual or speech-based large language models (LLMs), replacing voting or other arbitration logic for reconciling the ensemble outputs. We perform a comparative study of multiple architectures with and without LLMs, showing significant improvements in transcription accuracy compared to traditional methods. Furthermore, we use the pseudo-labels generated by the various approaches to train semi-supervised ASR models for different datasets, again showing improved performance with textual and speechLLM transcriptions compared to baselines.
- Abstract(参考訳): 自動音声認識(ASR)モデルは、効果的な訓練のために高品質な転写データに依存している。
大規模なラベルなしオーディオデータセットのための擬似ラベルの生成は、多段階処理によって複数のASR出力を結合する複雑なパイプラインに依存することが多く、エラーの伝搬、情報損失、解離最適化につながる。
本稿では,テキストあるいは音声に基づく大言語モデル (LLM) による後処理を用いたマルチASRプロンプト駆動フレームワークを提案する。
LLMと非LLMの比較研究を行い、従来の手法と比較して転写精度が大幅に向上したことを示す。
さらに, 各種手法によって生成された擬似ラベルを用いて, 各データセットに対する半教師付きASRモデルのトレーニングを行い, ベースラインと比較してテキストと音声LLMの書き起こし性能が向上したことを示す。
関連論文リスト
- Speech Recognition on TV Series with Video-guided Post-Correction [13.736656652049884]
既存のマルチモーダルアプローチでは、ビデオで利用可能な豊富な時間的・文脈的な情報を用いて、ASR出力の補正に失敗する。
本稿では,ビデオから抽出した文脈的手がかりを活用して,ASR転写を改良する多モーダル後補正フレームワークを提案する。
本手法は,テレビシリーズASRのマルチモーダル・ベンチマークで評価し,ASRの性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2025-06-08T23:36:31Z) - Style-agnostic evaluation of ASR using multiple reference transcripts [0.3066137405373616]
我々は、ASRシステムのスタイルに依存しない評価を行うことにより、これらの違いのいくつかを軽減することを試みる。
既存のWERレポートは、最先端のASRシステムによる競合エラーの数を大幅に過大評価している可能性が高い。
論文 参考訳(メタデータ) (2024-12-10T21:47:15Z) - Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-30T17:29:25Z) - Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Multi-Sentence Grounding for Long-term Instructional Video [63.27905419718045]
大規模インストラクショナルデータセットを記述するための,自動でスケーラブルなパイプラインを確立することを目的としている。
複数の記述ステップを監督する高品質なビデオテキストデータセット、HowToStepを構築した。
論文 参考訳(メタデータ) (2023-12-21T17:28:09Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Audio-visual Multi-channel Recognition of Overlapped Speech [79.21950701506732]
本稿では,音声とマルチチャンネルの重なり合う音声認識システムについて述べる。
実験により,提案したマルチチャネルAVSRシステムは,音声のみのASRシステムを最大6.81% (26.83%) ,22.22% (56.87%) の絶対単語誤り率 (WER) で比較した。
論文 参考訳(メタデータ) (2020-05-18T10:31:19Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。