論文の概要: Patching Leaks in the Charformer for Efficient Character-Level
Generation
- arxiv url: http://arxiv.org/abs/2205.14086v1
- Date: Fri, 27 May 2022 16:36:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 13:59:08.019190
- Title: Patching Leaks in the Charformer for Efficient Character-Level
Generation
- Title(参考訳): 効率的な文字レベル生成のためのcharformerのパッチリーク
- Authors: Lukas Edman, Antonio Toral, Gertjan van Noord
- Abstract要約: 文字ベースの表現は、形態的にリッチな言語に対するサブワードベースの表現よりも重要な利点がある。
GBSTメソッドはCharformerグループ(別名 downsamples)の文字でこの問題を解決するが、Transformerデコーダに適用されると情報が漏洩する。
我々は, 従来のダウンサンプリング法に比べて翻訳品質の点でNMTに明らかなメリットはないことを示した。
- 参考スコア(独自算出の注目度): 3.734153902687548
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Character-based representations have important advantages over subword-based
ones for morphologically rich languages. They come with increased robustness to
noisy input and do not need a separate tokenization step. However, they also
have a crucial disadvantage: they notably increase the length of text
sequences. The GBST method from Charformer groups (aka downsamples) characters
to solve this, but allows information to leak when applied to a Transformer
decoder. We solve this information leak issue, thereby enabling character
grouping in the decoder. We show that Charformer downsampling has no apparent
benefits in NMT over previous downsampling methods in terms of translation
quality, however it can be trained roughly 30% faster. Promising performance on
English--Turkish translation indicate the potential of character-level models
for morphologically-rich languages.
- Abstract(参考訳): 文字ベースの表現は、形態的にリッチな言語に対するサブワードベースの表現よりも重要な利点がある。
ノイズの多い入力に対する堅牢性が高くなり、別のトークン化ステップは必要ない。
しかし、それらには重要な欠点があり、特にテキストシーケンスの長さが増加する。
Charformer グループ (別名 downsamples) の GBST メソッドでこの問題を解決するが、Transformer デコーダに適用されると情報が漏洩する。
この情報漏洩問題を解き、デコーダの文字グループ化を可能にする。
従来のダウンサンプリング手法と比較して,Charformerのダウンサンプリングは翻訳品質の面でNMTに明らかなメリットはないが,約30%高速にトレーニングすることができる。
トルコ語翻訳の性能向上は、形態的に豊かな言語に対する文字レベルのモデルの可能性を示している。
関連論文リスト
- Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Toucan: Token-Aware Character Level Language Modeling [44.85590844938571]
トウカン(Toucan)は、文字レベルのモデルを拡張して「トウカン・アウェア(token-aware)」させる方法である。
言語モデルの性能を損なうことなく文字生成の大幅な高速化を示す。
我々のアプローチは、単一のアイテムとしてトークン化された長いシーケンスの量に繋がる。
論文 参考訳(メタデータ) (2023-11-15T00:57:51Z) - Does Character-level Information Always Improve DRS-based Semantic
Parsing? [9.683269364766426]
State-of-the-art Neural semantic Structures for Representationは文字レベルの表現を使用する。
本研究では,文字列の順序による性能変化の詳細な解析を行う。
その結果,文字レベル情報の導入は,英語とドイツ語のパフォーマンスを向上させるものではないことが示唆された。
論文 参考訳(メタデータ) (2023-06-04T08:54:32Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - How Robust is Neural Machine Translation to Language Imbalance in
Multilingual Tokenizer Training? [86.48323488619629]
トークン化学習コーパスにおいて,言語間でのデータ比が変化するにつれて,翻訳性能がどう変化するかを分析する。
言語が均等にサンプリングされる場合、比較的優れたパフォーマンスが観察されることが多いが、下流のパフォーマンスは、通常予想していたよりも、言語の不均衡に対して堅牢である。
論文 参考訳(メタデータ) (2022-04-29T17:50:36Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Inference-only sub-character decomposition improves translation of
unseen logographic characters [18.148675498274866]
ログソース言語上のニューラルマシン翻訳(NMT)は、未知の文字を翻訳する際に苦労する。
中国語と日本語のNMTにおける既存のイデオログラフに基づくサブ文字分解手法について検討する。
完全部分文字分解は文字翻訳を損なうことが多く、概して矛盾する結果をもたらす。
論文 参考訳(メタデータ) (2020-11-12T17:36:22Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Towards Reasonably-Sized Character-Level Transformer NMT by Finetuning
Subword Systems [78.80826533405019]
トークンセグメンテーションを必要とせずに文字レベルで機能するニューラルネットワーク翻訳モデルが得られることを示す。
我々の研究は、非常に大きくないキャラクタベースモデルを訓練しやすく、高性能化するための重要な一歩である。
論文 参考訳(メタデータ) (2020-04-29T15:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。