論文の概要: Local Byte Fusion for Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2205.11490v1
- Date: Mon, 23 May 2022 17:49:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-24 15:17:01.150340
- Title: Local Byte Fusion for Neural Machine Translation
- Title(参考訳): ニューラルマシン翻訳のための局所バイト融合
- Authors: Makesh Narsimhan Sreedhar, Xiangpeng Wan, Yu Cheng, Junjie Hu
- Abstract要約: サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
- 参考スコア(独自算出の注目度): 19.16966721276286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subword tokenization schemes are the dominant technique used in current NLP
models. However, such schemes can be rigid and tokenizers built on one corpus
do not adapt well to other parallel corpora. It has also been observed that in
multilingual corpora, subword tokenization schemes over-segment low-resource
languages leading to a drop in translation performance. A simple alternative to
subword tokenizers is byte-based methods i.e. tokenization into byte sequences
using encoding schemes such as UTF-8. Byte tokens often represent inputs at a
sub-character granularity i.e. one character can be represented by a sequence
of multiple byte tokens. This results in byte sequences that are significantly
longer than character sequences. Enforcing aggregation of local information in
the lower layers can guide the model to build higher-level semantic
information. We propose a Local Byte Fusion (LOBEF) method for byte-based
machine translation -- utilizing byte $n$-gram and word boundaries -- to
aggregate local semantic information. Extensive experiments on multilingual
translation, zero-shot cross-lingual transfer, and domain adaptation reveal a
consistent improvement over traditional byte-based models and even over subword
techniques. Further analysis also indicates that our byte-based models are
parameter-efficient and can be trained faster than subword models.
- Abstract(参考訳): サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
しかし、そのようなスキームは剛性があり、一方のコーパス上に構築されたトークン化器は他の並列コーパスにうまく適応しない。
多言語コーパスでは、サブワードのトークン化スキームが低リソース言語を多言語化することで翻訳性能が低下することが観察されている。
サブワードトークンライザの単純な代替手段は、UTF-8のような符号化方式を用いてバイト列へのトークン化を行うバイトベースの方法である。
バイトトークンは、しばしばサブキャラクタの粒度で入力を表す。
これにより、文字列よりもかなり長いバイトシーケンスが生成される。
下層層における局所情報の集約は、モデルに高レベルのセマンティック情報を構築するためのガイドとなる。
本稿では,局所意味情報を集約するために,バイトベースの機械翻訳のためのローカルByte Fusion(LOBEF)手法を提案する。
多言語翻訳、ゼロショット交叉変換、ドメイン適応に関する大規模な実験は、従来のバイトベースモデルやサブワード技術よりも一貫して改善されている。
さらに分析した結果、バイトベースモデルはパラメータ効率が高く、サブワードモデルよりも高速にトレーニングできることがわかった。
関連論文リスト
- MoCE: Adaptive Mixture of Contextualization Experts for Byte-based Neural Machine Translation [13.70446799743065]
バイトベースの機械翻訳システムは、多言語設定において大きな可能性を秘めている。
各文字を特定のバイトにマッピングするUnicodeエンコーディングは、新しい言語においても未知の単語の出現を排除している。
局所的な文脈化は、初期意味論をトークンに割り当て、文理解を改善するのに有効であることが証明されている。
本稿では,アダプティブ・マルチスケール・ハイド・アテンション(Ada-MSHA)を提案する。
論文 参考訳(メタデータ) (2024-11-03T08:15:43Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Integrating Multi-scale Contextualized Information for Byte-based Neural Machine Translation [14.826948179996695]
サブワードトークン化はニューラル機械翻訳(NMT)モデルにおける語彙構築の一般的な方法である。
隠れ状態次元の異なる様々なスケールの文脈情報を学習するマルチスケールコンテキスト化(MSC)手法を提案する。
実験により、MSCはサブワードベースおよび他のバイトベースの手法を多言語およびドメイン外のシナリオで大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-05-29T17:19:04Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Neural Machine Translation without Embeddings [44.129310924201604]
多くのNLPモデルは、手作りのトークン化規則とサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。
単純な普遍的な代替手段は、すべてのコンピュータ化されたテキストを8バイトのバイト列として表現することである。
英語から10の異なる言語へのバイトバイト機械翻訳の実験では、BLEUの一貫性が向上し、文字レベルや標準のサブワードレベルモデルに匹敵する結果となった。
論文 参考訳(メタデータ) (2020-08-21T09:54:11Z) - 2kenize: Tying Subword Sequences for Chinese Script Conversion [54.33749520569979]
本稿では,2つのスクリプト間のマッピングと変換をあいまいにできるモデルを提案する。
提案手法は,従来の漢字変換手法よりも精度が6ポイント向上した。
論文 参考訳(メタデータ) (2020-05-07T10:53:05Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。