論文の概要: FlanEC: Exploring Flan-T5 for Post-ASR Error Correction
- arxiv url: http://arxiv.org/abs/2501.12979v1
- Date: Wed, 22 Jan 2025 16:06:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:26.959899
- Title: FlanEC: Exploring Flan-T5 for Post-ASR Error Correction
- Title(参考訳): FlanEC: ASR後のエラー訂正のためのFlan-T5の探索
- Authors: Moreno La Quatra, Valerio Mario Salerno, Yu Tsao, Sabato Marco Siniscalchi,
- Abstract要約: 音声認識後音声認識(ASR)におけるFlan-T5を利用したエンコーダ・デコーダモデルを提案する。
我々は、n-best仮説を1つの出力文にマッピングすることで、ASR出力を強化するためのGenSECフレームワーク内での適用について検討する。
具体的には、トレーニングデータのスケールアップと多様なデータセットの導入が、ASR後のエラー修正の大幅な改善につながるかどうかを検討する。
- 参考スコア(独自算出の注目度): 25.931773686829796
- License:
- Abstract: In this paper, we present an encoder-decoder model leveraging Flan-T5 for post-Automatic Speech Recognition (ASR) Generative Speech Error Correction (GenSEC), and we refer to it as FlanEC. We explore its application within the GenSEC framework to enhance ASR outputs by mapping n-best hypotheses into a single output sentence. By utilizing n-best lists from ASR models, we aim to improve the linguistic correctness, accuracy, and grammaticality of final ASR transcriptions. Specifically, we investigate whether scaling the training data and incorporating diverse datasets can lead to significant improvements in post-ASR error correction. We evaluate FlanEC using the HyPoradise dataset, providing a comprehensive analysis of the model's effectiveness in this domain. Furthermore, we assess the proposed approach under different settings to evaluate model scalability and efficiency, offering valuable insights into the potential of instruction-tuned encoder-decoder models for this task.
- Abstract(参考訳): 本稿では,Flan-T5を応用したエンコーダ・デコーダモデルを用いて,生成音声誤り訂正(GenSEC)を行い,これをFlanECと呼ぶ。
我々は、n-best仮説を1つの出力文にマッピングすることで、ASR出力を強化するためのGenSECフレームワーク内での適用について検討する。
ASRモデルからのn-bestリストを利用することで、最終的なASR転写の言語的正確性、正確性、文法性を改善することを目指している。
具体的には、トレーニングデータのスケールアップと多様なデータセットの導入が、ASR後のエラー修正の大幅な改善につながるかどうかを検討する。
我々はHyPoradiseデータセットを用いてFlanECを評価し、この領域におけるモデルの有効性を包括的に分析する。
さらに,提案手法を異なる設定で評価し,モデルのスケーラビリティと効率性を評価し,命令調整型エンコーダデコーダモデルの可能性について貴重な知見を提供する。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - ASR Error Correction using Large Language Models [4.75940708384553]
誤り訂正(EC)モデルは、自動音声認識(ASR)転写の精製において重要な役割を果たす。
本研究は,多種多様なシナリオにおける誤り訂正のための大規模言語モデル (LLM) の使用について検討する。
論文 参考訳(メタデータ) (2024-09-14T23:33:38Z) - RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - N-best T5: Robust ASR Error Correction using Multiple Input Hypotheses
and Constrained Decoding Space [40.402050390096456]
本稿では,T5モデルから微調整を行い,モデル入力としてASR N-best Listを利用する,新しいN-best T5モデルを提案する。
事前学習された言語モデルから知識を伝達し、ASR復号化空間からより豊かな情報を得ることにより、提案手法は強力な Conformer-Transducer ベースラインより優れている。
論文 参考訳(メタデータ) (2023-03-01T12:32:34Z) - On the Reliability and Explainability of Language Models for Program
Generation [15.569926313298337]
自動プログラム生成手法の能力と限界について検討する。
私たちは、コード変換に大きく貢献するトークンを強調するために、高度な説明可能なAIアプローチを採用しています。
解析の結果,言語モデルではコード文法や構造情報を認識できるが,入力シーケンスの変化に対するロバスト性は限られていることがわかった。
論文 参考訳(メタデータ) (2023-02-19T14:59:52Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。