Fugu-MT 論文翻訳(概要): PERL: Pinyin Enhanced Rephrasing Language Model for Chinese ASR N-best Error Correction

論文の概要: PERL: Pinyin Enhanced Rephrasing Language Model for Chinese ASR N-best Error Correction

arxiv url: http://arxiv.org/abs/2412.03230v1
Date: Wed, 04 Dec 2024 11:28:52 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-05 21:42:00.645142
Title: PERL: Pinyin Enhanced Rephrasing Language Model for Chinese ASR N-best Error Correction
Title（参考訳）: PERL:中国のASR N-best誤り訂正のためのPinyin拡張表現言語モデル
Authors: Junhong Liang,
Abstract要約: N-best 修正シナリオに特化して設計された Pinyin Enhanced Rephrasing Language Model (PERL) を提案する。 Aishell-1データセットと新たに提案したDoADデータセットについて実験を行った。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: ASR correction methods have predominantly focused on general datasets and have not effectively utilized Pinyin information, unique to the Chinese language. In this study, we address this gap by proposing a Pinyin Enhanced Rephrasing Language Model (PERL), specifically designed for N-best correction scenarios. Additionally, we implement a length predictor module to address the variable-length problem. We conduct experiments on the Aishell-1 dataset and our newly proposed DoAD dataset. The results show that our approach outperforms baseline methods, achieving a 29.11% reduction in Character Error Rate (CER) on Aishell-1 and around 70% CER reduction on domain-specific datasets. Furthermore, our approach leverages Pinyin similarity at the token level, providing an advantage over baselines and leading to superior performance.
Abstract（参考訳）: ASR補正法は主に一般的なデータセットに焦点を合わせており、中国語特有のピニイン情報を効果的に活用していない。本研究では,N-best修正シナリオに特化して設計されたPinyin Enhanced Rephrasing Language Model (PERL)を提案する。さらに,変数長問題に対処するため,長さ予測モジュールを実装した。 Aishell-1データセットと新たに提案したDoADデータセットについて実験を行った。その結果,Aishell-1では文字誤り率(CER)が29.11%低下し,ドメイン固有のデータセットでは約70%のCERが削減された。さらに、トークンレベルでのPinyinの類似性を活用し、ベースラインよりも優位性を提供し、優れたパフォーマンスを実現しています。

関連論文リスト

GliLem: Leveraging GliNER for Contextualized Lemmatization in Estonian [0.21485350418225246]
GliLemはエストニア人のための新しいハイブリッド補題システムである。本稿では,事前学習したGliNERモデルの柔軟性を活用し,Vabamorfの補間精度を向上させる。
論文参考訳（メタデータ） (2024-12-29T22:02:00Z)
How to Learn a New Language? An Efficient Solution for Self-Supervised Learning Models Unseen Languages Adaption in Low-Resource Scenario [72.02391485962127]
音声認識(ASR)における音声自己監視学習(SSL)モデルの性能向上低リソース言語 ASR では、事前訓練された言語と低リソース言語のドメインミスマッチ問題に遭遇する。これらの問題に対処するためのアダプタに基づく従来型の効率的な微調整手法を拡張した。
論文参考訳（メタデータ） (2024-11-27T10:51:00Z)
NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。 NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文参考訳（メタデータ） (2024-11-08T20:11:24Z)
Large Language Model Should Understand Pinyin for Chinese ASR Error Correction [31.13523648668466]
我々は,中国のASR誤り訂正を改善するため,Pinyin-enhanced GECを提案する。提案手法は, 合成誤差をトレーニングに用い, 推論時に最良仮説を用いる。 Aishell-1とCommon Voiceデータセットの実験は、我々のアプローチがテキストのみの入力でGECを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2024-09-20T06:50:56Z)
Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models [11.287933170894311]
724Kの仮説と書き起こしのペアを持つ中国語ASRの誤り訂正を目的とした,特殊なベンチマークデータセットを構築した。本稿では,テキスト仮説から直接Pinyinを転写するプロンプトに対するPinyin正規化法を提案する。
論文参考訳（メタデータ） (2024-07-02T03:16:47Z)
Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文参考訳（メタデータ） (2024-06-06T18:01:02Z)
UZH_CLyp at SemEval-2023 Task 9: Head-First Fine-Tuning and ChatGPT Data Generation for Cross-Lingual Learning in Tweet Intimacy Prediction [3.1798318618973362]
本稿では,SemEval 2023 Task 9「Multilingual Tweet Intimacy Analysis」に対するUZH_CLypの提出について述べる。公式なピアソン相関回帰評価尺度により,全10言語で2番目に高い結果を得た。
論文参考訳（メタデータ） (2023-03-02T12:18:53Z)
Memory Augmented Lookup Dictionary based Language Modeling for Automatic Speech Recognition [20.926163659469587]
LMのための新しいメモリ拡張ルックアップ辞書に基づくトランスフォーマーアーキテクチャを提案する。新しく導入されたルックアップ辞書は、トレーニングセットにリッチなコンテキスト情報を組み込んでおり、ロングテールトークンを正確に予測するのに不可欠である。提案手法は,ワード/文字誤り率とテールトークン誤り率の両方に大きな差で,ベースライントランスフォーマーLMより優れていることを示す。
論文参考訳（メタデータ） (2022-12-30T22:26:57Z)
Rejuvenating Low-Frequency Words: Making the Most of Parallel Data in Non-Autoregressive Translation [98.11249019844281]
知識蒸留(KD)は、非自己回帰翻訳(NAT)モデルを訓練するための合成データを構築するために一般的に用いられる。低周波対象語に対するアライメントを向上するために,逆KDを提案する。その結果,提案手法は翻訳品質を大幅に向上させることができることがわかった。
論文参考訳（メタデータ） (2021-06-02T02:41:40Z)
Ranking Creative Language Characteristics in Small Data Scenarios [52.00161818003478]
DirectRankerを適用して、小さなデータでクリエイティブ言語をランク付けするための、新しいディープモデルを提供します。スパーストレーニングデータを用いた実験により、標準的なニューラルネットワークのランク付け手法の性能は小さなデータセットで崩壊するが、DirectRankerは依然として有効であることがわかった。
論文参考訳（メタデータ） (2020-10-23T18:57:47Z)
Rnn-transducer with language bias for end-to-end Mandarin-English code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文参考訳（メタデータ） (2020-02-19T12:01:33Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。