論文の概要: PERL: Pinyin Enhanced Rephrasing Language Model for Chinese ASR N-best Error Correction
- arxiv url: http://arxiv.org/abs/2412.03230v2
- Date: Mon, 22 Sep 2025 07:21:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:44.652803
- Title: PERL: Pinyin Enhanced Rephrasing Language Model for Chinese ASR N-best Error Correction
- Title(参考訳): PERL:中国のASR N-best誤り訂正のためのPinyin拡張表現言語モデル
- Authors: Junhong Liang, Bojun Zhang,
- Abstract要約: 既存の中国語のASR補正手法は、中国語の特徴であるピニイン情報を効果的に活用していない。
我々は,N-best修正シナリオに対して明示的に設計された textbfPinyin textbfEnhanced textbfRephrasing textbfLanguage model (PERL) パイプラインを提案する。
- 参考スコア(独自算出の注目度): 0.742779257315787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing Chinese ASR correction methods have not effectively utilized Pinyin information, a unique feature of the Chinese language. In this study, we address this gap by proposing a \textbf{P}inyin \textbf{E}nhanced \textbf{R}ephrasing \textbf{L}anguage model (PERL) pipeline, designed explicitly for N-best correction scenarios. We conduct experiments on the Aishell-1 dataset and our newly proposed DoAD dataset. The results show that our approach outperforms baseline methods, achieving a 29.11\% reduction in Character Error Rate on Aishell-1 and around 70\% CER reduction on domain-specific datasets. PERL predicts the correct length of the output, leveraging the Pinyin information, which is embedded with a semantic model to perform phonetically similar corrections. Extensive experiments demonstrate the effectiveness of correcting wrong characters using N-best output and the low latency of our model.
- Abstract(参考訳): 既存の中国語のASR補正手法は、中国語の特徴であるピニイン情報を効果的に活用していない。
本研究では,N-bestの補正シナリオを明示的に設計したtextbf{P}inyin \textbf{E}nhanced \textbf{R}ephrasing \textbf{L}anguage model (PERL) パイプラインを用いて,このギャップに対処する。
Aishell-1データセットと新たに提案したDoADデータセットについて実験を行った。
その結果,Aishell-1における文字誤り率の29.11倍,ドメイン固有データセットにおける約70倍のCER削減を実現した。
PERLは、意味モデルに埋め込まれたPinyin情報を利用して、出力の正しい長さを予測し、音声的に類似した補正を行う。
大規模な実験では,N-best出力と低レイテンシを用いた誤字訂正の有効性が示された。
関連論文リスト
- GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian [0.21485350418225246]
GliLemはエストニア人のための新しいハイブリッド補題システムである。
本稿では,事前学習したGliNERモデルの柔軟性を活用し,Vabamorfの補間精度を向上させる。
論文 参考訳(メタデータ) (2024-12-29T22:02:00Z) - How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上
低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。
これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文 参考訳(メタデータ) (2024-11-27T10:51:00Z) - NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。
提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。
Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2024-09-20T06:50:56Z) - Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models [11.287933170894311]
724Kの仮説と書き起こしのペアを持つ中国語ASRの誤り訂正を目的とした,特殊なベンチマークデータセットを構築した。
本稿では,テキスト仮説から直接Pinyinを転写するプロンプトに対するPinyin正規化法を提案する。
論文 参考訳(メタデータ) (2024-07-02T03:16:47Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data
Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。
公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文 参考訳(メタデータ) (2023-03-02T12:18:53Z) - Memory Augmented Lookup Dictionary based Language Modeling for Automatic
Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。
新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。
提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文 参考訳(メタデータ) (2022-12-30T22:26:57Z) - Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in
Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。
低周波対象語に対するアライメントを向上するために,逆KDを提案する。
その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文 参考訳(メタデータ) (2021-06-02T02:41:40Z) - Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。
スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文 参考訳(メタデータ) (2020-10-23T18:57:47Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。