論文の概要: ByT5: Towards a token-free future with pre-trained byte-to-byte models
- arxiv url: http://arxiv.org/abs/2105.13626v1
- Date: Fri, 28 May 2021 07:03:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-31 13:40:41.670508
- Title: ByT5: Towards a token-free future with pre-trained byte-to-byte models
- Title(参考訳): ByT5: 事前訓練されたバイト単位のモデルでトークンフリーの未来を目指す
- Authors: Linting Xue, Aditya Barua, Noah Constant, Rami Al-Rfou, Sharan Narang,
Mihir Kale, Adam Roberts, Colin Raffel
- Abstract要約: 最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。
標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。
また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
- 参考スコア(独自算出の注目度): 23.532359202069063
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most widely-used pre-trained language models operate on sequences of tokens
corresponding to word or subword units. Encoding text as a sequence of tokens
requires a tokenizer, which is typically created as an independent artifact
from the model. Token-free models that instead operate directly on raw text
(bytes or characters) have many benefits: they can process text in any language
out of the box, they are more robust to noise, and they minimize technical debt
by removing complex and error-prone text preprocessing pipelines. Since byte or
character sequences are longer than token sequences, past work on token-free
models has often introduced new model architectures designed to amortize the
cost of operating directly on raw text. In this paper, we show that a standard
Transformer architecture can be used with minimal modifications to process byte
sequences. We carefully characterize the trade-offs in terms of parameter
count, training FLOPs, and inference speed, and show that byte-level models are
competitive with their token-level counterparts. We also demonstrate that
byte-level models are significantly more robust to noise and perform better on
tasks that are sensitive to spelling and pronunciation. As part of our
contribution, we release a new set of pre-trained byte-level Transformer models
based on the T5 architecture, as well as all code and data used in our
experiments.
- Abstract(参考訳): 最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。
トークンのシーケンスとしてテキストをエンコーディングするには、通常モデルから独立したアーティファクトとして作成されるトークン化子が必要である。
生のテキスト(バイトまたは文字)を直接操作するトークンフリーモデルは、ボックスから任意の言語でテキストを処理することができ、ノイズに対してより堅牢であり、複雑なエラーを起こしやすいテキスト前処理パイプラインを取り除くことで技術的負債を最小限にすることができる。
バイトシーケンスや文字シーケンスはトークンシーケンスよりも長いため、トークンフリーモデルに関する過去の作業では、生のテキストを直接操作するコストを償却するために設計された新しいモデルアーキテクチャがしばしば導入されている。
本稿では,標準トランスフォーマーアーキテクチャをバイト列の処理に最小限の変更を加えることで利用できることを示す。
パラメータカウント, FLOPのトレーニング, 推論速度の観点から, トレードオフを慎重に特徴付け, バイトレベルのモデルがトークンレベルのモデルと競合することを示す。
また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
コントリビュートの一環として,t5アーキテクチャに基づくプリトレーニングされたバイトレベルのトランスフォーマモデルと,実験で使用されるすべてのコードとデータをリリースします。
関連論文リスト
- MrT5: Dynamic Token Merging for Efficient Byte-level Language Models [50.46453950887946]
この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
論文 参考訳(メタデータ) (2024-10-28T06:14:12Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Sentence Bottleneck Autoencoders from Transformer Language Models [53.350633961266375]
我々は、事前訓練されたフリーズトランスフォーマー言語モデルから文レベルのオートエンコーダを構築する。
我々は、文ボトルネックと1層修飾トランスフォーマーデコーダのみを訓練しながら、マスク付き言語モデリングの目的を生成的・認知的言語として適応する。
本研究では,テキスト類似性タスク,スタイル転送,単一文分類タスクにおける事前学習されたトランスフォーマーからの表現をGLUEベンチマークで抽出する手法よりも,大規模な事前学習モデルよりも少ないパラメータを用いて,より高品質な文表現を実現することを示す。
論文 参考訳(メタデータ) (2021-08-31T19:39:55Z) - Learning to Look Inside: Augmenting Token-Based Encoders with
Character-Level Information [29.633735942273997]
XRayEmbは、既存のトークンベースのモデルに文字レベルの情報を適合させる手法である。
我々は,XRayEmbの学習ベクトルを事前学習されたトークン埋め込みのシーケンスに組み込むことで,自己回帰型およびマスク付き事前学習されたトランスフォーマーアーキテクチャの性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-08-01T08:09:26Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation [12.005340904206697]
CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。
CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
論文 参考訳(メタデータ) (2021-03-11T18:57:44Z) - Neural Machine Translation without Embeddings [44.129310924201604]
多くのNLPモデルは、手作りのトークン化規則とサブワード誘導アルゴリズムによって生成されるサブワードトークンのシーケンス上で動作する。
単純な普遍的な代替手段は、すべてのコンピュータ化されたテキストを8バイトのバイト列として表現することである。
英語から10の異なる言語へのバイトバイト機械翻訳の実験では、BLEUの一貫性が向上し、文字レベルや標準のサブワードレベルモデルに匹敵する結果となった。
論文 参考訳(メタデータ) (2020-08-21T09:54:11Z) - Towards Reasonably-Sized Character-Level Transformer NMT by Finetuning
Subword Systems [78.80826533405019]
トークンセグメンテーションを必要とせずに文字レベルで機能するニューラルネットワーク翻訳モデルが得られることを示す。
我々の研究は、非常に大きくないキャラクタベースモデルを訓練しやすく、高性能化するための重要な一歩である。
論文 参考訳(メタデータ) (2020-04-29T15:56:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。