論文の概要: Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P)
Transduction
- arxiv url: http://arxiv.org/abs/2308.08442v1
- Date: Wed, 16 Aug 2023 15:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:55:25.927430
- Title: Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P)
Transduction
- Title(参考訳): 文レベルGrapheme-to-Phoneme(G2P)トランスダクションにおける露光バイアスの緩和
- Authors: Eunseop Yoon, Hee Suk Yoon, Dhananjaya Gowda, SooHwan Eom, Daehyeok
Kim, John Harvill, Heting Gao, Mark Hasegawa-Johnson, Chanwoo Kim, Chang D.
Yoo
- Abstract要約: ByT5と呼ばれるT5に基づくトークン化なしバイトレベルモデルは、単語レベルのG2P変換に有望な結果を与えた。
本稿では, 文レベルと段落レベルのG2Pの性能を, 損失に基づくサンプリング手法を用いて緩和することで改善できることを示す。
- 参考スコア(独自算出の注目度): 44.19022422439438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Text Transfer Transformer (T5) has recently been considered for the
Grapheme-to-Phoneme (G2P) transduction. As a follow-up, a tokenizer-free
byte-level model based on T5 referred to as ByT5, recently gave promising
results on word-level G2P conversion by representing each input character with
its corresponding UTF-8 encoding. Although it is generally understood that
sentence-level or paragraph-level G2P can improve usability in real-world
applications as it is better suited to perform on heteronyms and linking sounds
between words, we find that using ByT5 for these scenarios is nontrivial. Since
ByT5 operates on the character level, it requires longer decoding steps, which
deteriorates the performance due to the exposure bias commonly observed in
auto-regressive generation models. This paper shows that the performance of
sentence-level and paragraph-level G2P can be improved by mitigating such
exposure bias using our proposed loss-based sampling method.
- Abstract(参考訳): Text-to-Text Transfer Transformer (T5)は、最近Grapheme-to-Phoneme (G2P)トランスダクションとして検討されている。
ByT5と呼ばれるT5に基づくトークンフリーバイトレベルモデルでは,最近,各入力文字を対応するUTF-8エンコーディングで表現することで,単語レベルのG2P変換に有望な結果が得られた。
文レベルのG2Pや段落レベルのG2Pは、異名や単語間の音声のリンクに適しているため、現実世界のアプリケーションでは使い勝手を向上できると一般的に理解されているが、これらのシナリオにByT5を使用することは簡単ではない。
ByT5は文字レベルで動作するため、より長い復号ステップを必要とするため、自動回帰生成モデルでよく見られる露光バイアスにより性能が低下する。
本稿では, 文レベルと段落レベルのG2Pの性能を, 損失に基づくサンプリング手法を用いて緩和することで改善できることを示す。
関連論文リスト
- Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models [74.71484979138161]
Grapheme-to-phoneme (G2P)変換は、Text-to-Speech (TTS)システムにおいて重要なステップである。
文脈対応シナリオの処理におけるLLM(Large Language Models)の成功に触発されて,文脈型G2P変換システムを提案する。
ICKRをG2P変換システムに組み込むことの有効性は、Librig2pデータセットで完全に実証されている。
論文 参考訳(メタデータ) (2024-11-12T05:38:43Z) - MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - Are Character-level Translations Worth the Wait? Comparing ByT5 and mT5
for Machine Translation [9.736284584478032]
特に微調整データに制限がある場合の翻訳における文字レベルのモデリングの有効性を示す。
モデル予測の駆動におけるソーステキストの重要性を評価する一方で,ByT5内の単語レベルのパターンを強調した。
我々は、バイトモデルの効率トレードオフを評価し、翻訳品質を高めるために、非時間クリティカルなシナリオでの使用法を提案する。
論文 参考訳(メタデータ) (2023-02-28T00:50:19Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - EdiT5: Semi-Autoregressive Text-Editing with T5 Warm-Start [21.4394742421462]
EdiT5は、半自動的なテキスト編集アプローチである。
非自己回帰的テキスト編集と自己回帰的復号の長所を兼ね備えている。
論文 参考訳(メタデータ) (2022-05-24T17:13:22Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Transformer based Grapheme-to-Phoneme Conversion [0.9023847175654603]
本稿では,G2P変換へのトランスアーキテクチャの適用について検討する。
我々は、その性能を、繰り返しおよび畳み込みニューラルネットワークに基づくアプローチと比較する。
その結果, 変圧器をベースとしたG2Pは, 単語誤り率の点で, 畳み込みに基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-04-14T07:48:15Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z) - Reducing Non-Normative Text Generation from Language Models [7.293053431456775]
GPT-2のような大規模言語モデルは、インターネットから取り除かれた多様なコーパスで事前訓練されている。
本稿では,ポリシー勾配強化学習手法と規範テキスト分類器を用いて,GPT-2を微調整する手法を提案する。
論文 参考訳(メタデータ) (2020-01-23T19:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。