Fugu-MT 論文翻訳(概要): Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction

論文の概要: Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction

arxiv url: http://arxiv.org/abs/2308.08442v1
Date: Wed, 16 Aug 2023 15:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-17 12:55:25.927430
Title: Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P) Transduction
Title（参考訳）: 文レベルGrapheme-to-Phoneme(G2P)トランスダクションにおける露光バイアスの緩和
Authors: Eunseop Yoon, Hee Suk Yoon, Dhananjaya Gowda, SooHwan Eom, Daehyeok Kim, John Harvill, Heting Gao, Mark Hasegawa-Johnson, Chanwoo Kim, Chang D. Yoo
Abstract要約: ByT5と呼ばれるT5に基づくトークン化なしバイトレベルモデルは、単語レベルのG2P変換に有望な結果を与えた。本稿では, 文レベルと段落レベルのG2Pの性能を, 損失に基づくサンプリング手法を用いて緩和することで改善できることを示す。
参考スコア（独自算出の注目度）: 44.19022422439438
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-Text Transfer Transformer (T5) has recently been considered for the Grapheme-to-Phoneme (G2P) transduction. As a follow-up, a tokenizer-free byte-level model based on T5 referred to as ByT5, recently gave promising results on word-level G2P conversion by representing each input character with its corresponding UTF-8 encoding. Although it is generally understood that sentence-level or paragraph-level G2P can improve usability in real-world applications as it is better suited to perform on heteronyms and linking sounds between words, we find that using ByT5 for these scenarios is nontrivial. Since ByT5 operates on the character level, it requires longer decoding steps, which deteriorates the performance due to the exposure bias commonly observed in auto-regressive generation models. This paper shows that the performance of sentence-level and paragraph-level G2P can be improved by mitigating such exposure bias using our proposed loss-based sampling method.
Abstract（参考訳）: Text-to-Text Transfer Transformer (T5)は、最近Grapheme-to-Phoneme (G2P)トランスダクションとして検討されている。 ByT5と呼ばれるT5に基づくトークンフリーバイトレベルモデルでは,最近,各入力文字を対応するUTF-8エンコーディングで表現することで,単語レベルのG2P変換に有望な結果が得られた。文レベルのG2Pや段落レベルのG2Pは、異名や単語間の音声のリンクに適しているため、現実世界のアプリケーションでは使い勝手を向上できると一般的に理解されているが、これらのシナリオにByT5を使用することは簡単ではない。 ByT5は文字レベルで動作するため、より長い復号ステップを必要とするため、自動回帰生成モデルでよく見られる露光バイアスにより性能が低下する。本稿では, 文レベルと段落レベルのG2Pの性能を, 損失に基づくサンプリング手法を用いて緩和することで改善できることを示す。

関連論文リスト

Detecting Document-level Paraphrased Machine Generated Content: Mimicking Human Writing Style and Involving Discourse Features [57.34477506004105]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。これらの課題を克服するために、新しい方法論とデータセットを導入します。人間の筆記スタイルをエミュレートするエンコーダデコーダモデルであるMhBARTを提案する。また,PDTB前処理による談話解析を統合し,構造的特徴を符号化するモデルであるDTransformerを提案する。
論文参考訳（メタデータ） (2024-12-17T08:47:41Z)
Improving Grapheme-to-Phoneme Conversion through In-Context Knowledge Retrieval with Large Language Models [74.71484979138161]
Grapheme-to-phoneme (G2P)変換は、Text-to-Speech (TTS)システムにおいて重要なステップである。文脈対応シナリオの処理におけるLLM(Large Language Models)の成功に触発されて,文脈型G2P変換システムを提案する。 ICKRをG2P変換システムに組み込むことの有効性は、Librig2pデータセットで完全に実証されている。
論文参考訳（メタデータ） (2024-11-12T05:38:43Z)
MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。 MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文参考訳（メタデータ） (2024-10-28T06:14:12Z)
Are Character-level Translations Worth the Wait? Comparing ByT5 and mT5 for Machine Translation [9.736284584478032]
特に微調整データに制限がある場合の翻訳における文字レベルのモデリングの有効性を示す。モデル予測の駆動におけるソーステキストの重要性を評価する一方で,ByT5内の単語レベルのパターンを強調した。我々は、バイトモデルの効率トレードオフを評価し、翻訳品質を高めるために、非時間クリティカルなシナリオでの使用法を提案する。
論文参考訳（メタデータ） (2023-02-28T00:50:19Z)
Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文参考訳（メタデータ） (2023-01-18T13:29:05Z)
EdiT5: Semi-Autoregressive Text-Editing with T5 Warm-Start [21.4394742421462]
EdiT5は、半自動的なテキスト編集アプローチである。非自己回帰的テキスト編集と自己回帰的復号の長所を兼ね備えている。
論文参考訳（メタデータ） (2022-05-24T17:13:22Z)
Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文参考訳（メタデータ） (2020-05-20T17:25:43Z)
Transformer based Grapheme-to-Phoneme Conversion [0.9023847175654603]
本稿では,G2P変換へのトランスアーキテクチャの適用について検討する。我々は、その性能を、繰り返しおよび畳み込みニューラルネットワークに基づくアプローチと比較する。その結果, 変圧器をベースとしたG2Pは, 単語誤り率の点で, 畳み込みに基づくアプローチよりも優れていた。
論文参考訳（メタデータ） (2020-04-14T07:48:15Z)
Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。 seq2seqモデルの伝統的な学習プロセスには2つの問題がある。本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-09T09:12:26Z)
Reducing Non-Normative Text Generation from Language Models [7.293053431456775]
GPT-2のような大規模言語モデルは、インターネットから取り除かれた多様なコーパスで事前訓練されている。本稿では,ポリシー勾配強化学習手法と規範テキスト分類器を用いて,GPT-2を微調整する手法を提案する。
論文参考訳（メタデータ） (2020-01-23T19:06:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。