論文の概要: Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P)
Transduction
- arxiv url: http://arxiv.org/abs/2308.08442v1
- Date: Wed, 16 Aug 2023 15:49:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 12:55:25.927430
- Title: Mitigating the Exposure Bias in Sentence-Level Grapheme-to-Phoneme (G2P)
Transduction
- Title(参考訳): 文レベルGrapheme-to-Phoneme(G2P)トランスダクションにおける露光バイアスの緩和
- Authors: Eunseop Yoon, Hee Suk Yoon, Dhananjaya Gowda, SooHwan Eom, Daehyeok
Kim, John Harvill, Heting Gao, Mark Hasegawa-Johnson, Chanwoo Kim, Chang D.
Yoo
- Abstract要約: ByT5と呼ばれるT5に基づくトークン化なしバイトレベルモデルは、単語レベルのG2P変換に有望な結果を与えた。
本稿では, 文レベルと段落レベルのG2Pの性能を, 損失に基づくサンプリング手法を用いて緩和することで改善できることを示す。
- 参考スコア(独自算出の注目度): 44.19022422439438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Text Transfer Transformer (T5) has recently been considered for the
Grapheme-to-Phoneme (G2P) transduction. As a follow-up, a tokenizer-free
byte-level model based on T5 referred to as ByT5, recently gave promising
results on word-level G2P conversion by representing each input character with
its corresponding UTF-8 encoding. Although it is generally understood that
sentence-level or paragraph-level G2P can improve usability in real-world
applications as it is better suited to perform on heteronyms and linking sounds
between words, we find that using ByT5 for these scenarios is nontrivial. Since
ByT5 operates on the character level, it requires longer decoding steps, which
deteriorates the performance due to the exposure bias commonly observed in
auto-regressive generation models. This paper shows that the performance of
sentence-level and paragraph-level G2P can be improved by mitigating such
exposure bias using our proposed loss-based sampling method.
- Abstract(参考訳): Text-to-Text Transfer Transformer (T5)は、最近Grapheme-to-Phoneme (G2P)トランスダクションとして検討されている。
ByT5と呼ばれるT5に基づくトークンフリーバイトレベルモデルでは,最近,各入力文字を対応するUTF-8エンコーディングで表現することで,単語レベルのG2P変換に有望な結果が得られた。
文レベルのG2Pや段落レベルのG2Pは、異名や単語間の音声のリンクに適しているため、現実世界のアプリケーションでは使い勝手を向上できると一般的に理解されているが、これらのシナリオにByT5を使用することは簡単ではない。
ByT5は文字レベルで動作するため、より長い復号ステップを必要とするため、自動回帰生成モデルでよく見られる露光バイアスにより性能が低下する。
本稿では, 文レベルと段落レベルのG2Pの性能を, 損失に基づくサンプリング手法を用いて緩和することで改善できることを示す。
関連論文リスト
- Functional Interpolation for Relative Positions Improves Long Context
Transformers [86.12843093589]
本稿では,より長いコンテキストに変換器の一般化を改善するために,プログレッシブなFIREを用いた関数的相対的位置符号化を提案する。
理論的には、これはT5のRPE、Alibi、Kerpleなどの一般的な相対的な位置エンコーディングのいくつかを表現できる。
FIREモデルは、ゼロショット言語モデリングと長文ベンチマークの両方において、より長い文脈での一般化がより優れていることを示す。
論文 参考訳(メタデータ) (2023-10-06T17:59:11Z) - Are Character-level Translations Worth the Wait? Comparing ByT5 and mT5
for Machine Translation [9.736284584478032]
特に微調整データに制限がある場合の翻訳における文字レベルのモデリングの有効性を示す。
モデル予測の駆動におけるソーステキストの重要性を評価する一方で,ByT5内の単語レベルのパターンを強調した。
我々は、バイトモデルの効率トレードオフを評価し、翻訳品質を高めるために、非時間クリティカルなシナリオでの使用法を提案する。
論文 参考訳(メタデータ) (2023-02-28T00:50:19Z) - Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for
Text-to-SQL Parsing [56.232873134174056]
テキストからテキストへのパースにおける大きな課題の1つはドメインの一般化である。
そこで本研究では,テキスト・トゥ・テキスト・パーシングのための特殊なコンポーネントを備えた事前学習されたテキスト・ツー・テキスト・トランスフォーマー・モデルをさらに強化する方法について検討する。
この目的のために,レイヤを持つグラフ認識モデルによって拡張された新しいアーキテクチャ GRAPHIX-T5 を提案する。
論文 参考訳(メタデータ) (2023-01-18T13:29:05Z) - Modeling Context With Linear Attention for Scalable Document-Level
Translation [72.41955536834702]
本稿では,近年の文書翻訳における線形アテンションモデルの有効性について検討し,直流帰納バイアスを促進するためにセンデンシャルゲートで拡張する。
感性ゲーティングはIWSLTの翻訳品質をさらに向上させることを示す。
論文 参考訳(メタデータ) (2022-10-16T03:41:50Z) - EdiT5: Semi-Autoregressive Text-Editing with T5 Warm-Start [21.4394742421462]
EdiT5は、半自動的なテキスト編集アプローチである。
非自己回帰的テキスト編集と自己回帰的復号の長所を兼ね備えている。
論文 参考訳(メタデータ) (2022-05-24T17:13:22Z) - Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text
Models [10.645591218689058]
テキスト・トゥ・テキスト・トランスフォーマー (T5) 文の埋め込みを初めて行う。
本稿では,T5文の埋め込みを抽出する3つの方法について検討する。
エンコーダのみのモデルは、転送タスクとセマンティックテキストの類似性の両方においてBERTベースの文埋め込みよりも優れています。
論文 参考訳(メタデータ) (2021-08-19T18:58:02Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Transformer based Grapheme-to-Phoneme Conversion [0.9023847175654603]
本稿では,G2P変換へのトランスアーキテクチャの適用について検討する。
我々は、その性能を、繰り返しおよび畳み込みニューラルネットワークに基づくアプローチと比較する。
その結果, 変圧器をベースとしたG2Pは, 単語誤り率の点で, 畳み込みに基づくアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-04-14T07:48:15Z) - Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence
Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。
seq2seqモデルの伝統的な学習プロセスには2つの問題がある。
本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-03-09T09:12:26Z) - Reducing Non-Normative Text Generation from Language Models [7.293053431456775]
GPT-2のような大規模言語モデルは、インターネットから取り除かれた多様なコーパスで事前訓練されている。
本稿では,ポリシー勾配強化学習手法と規範テキスト分類器を用いて,GPT-2を微調整する手法を提案する。
論文 参考訳(メタデータ) (2020-01-23T19:06:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。