論文の概要: MrT5: Dynamic Token Merging for Efficient Byte-level Language Models
- arxiv url: http://arxiv.org/abs/2410.20771v1
- Date: Mon, 28 Oct 2024 06:14:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:19:20.243886
- Title: MrT5: Dynamic Token Merging for Efficient Byte-level Language Models
- Title(参考訳): MrT5: 効率的なバイトレベルの言語モデルのための動的トークンマージ
- Authors: Julie Kallini, Shikhar Murty, Christopher D. Manning, Christopher Potts, Róbert Csordás,
- Abstract要約: この作業はより効率的なBYT5の派生であるMergeT5(MergeT5)を導入している。
MrT5はトークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
英語のテキストでトレーニングすると、MrT5はその削除機能を複数の言語でゼロショットで転送する機能を示している。
- 参考スコア(独自算出の注目度): 50.46453950887946
- License:
- Abstract: Models that rely on subword tokenization have significant drawbacks, such as sensitivity to character-level noise like spelling errors and inconsistent compression rates across different languages and scripts. While character- or byte-level models like ByT5 attempt to address these concerns, they have not gained widespread adoption -- processing raw byte streams without tokenization results in significantly longer sequence lengths, making training and inference inefficient. This work introduces MrT5 (MergeT5), a more efficient variant of ByT5 that integrates a token deletion mechanism in its encoder to dynamically shorten the input sequence length. After processing through a fixed number of encoder layers, a learnt delete gate determines which tokens are to be removed and which are to be retained for subsequent layers. MrT5 effectively ``merges'' critical information from deleted tokens into a more compact sequence, leveraging contextual information from the remaining tokens. In continued pre-training experiments, we find that MrT5 can achieve significant gains in inference runtime with minimal effect on performance. When trained on English text, MrT5 demonstrates the capability to transfer its deletion feature zero-shot across several languages, with significant additional improvements following multilingual training. Furthermore, MrT5 shows comparable accuracy to ByT5 on downstream evaluations such as XNLI and character-level tasks while reducing sequence lengths by up to 80%. Our approach presents a solution to the practical limitations of existing byte-level models.
- Abstract(参考訳): サブワードトークン化に依存するモデルは、スペルエラーのような文字レベルのノイズに対する感受性や、異なる言語やスクリプト間での一貫性のない圧縮率など、大きな欠点がある。
ByT5のような文字レベルのモデルやバイトレベルのモデルはこれらの懸念に対処しようとするが、広く採用されることはなかった。トークン化なしで生のバイトストリームを処理すると、シーケンス長が大幅に長くなり、トレーニングと推論が非効率になる。
この研究は、より効率的なByT5の変種であるMrT5(MergeT5)を導入し、トークン削除機構をエンコーダに統合し、入力シーケンスの長さを動的に短縮する。
一定の数のエンコーダ層を通して処理した後、学習した削除ゲートは、どのトークンを削除すべきか、どのトークンを後続のレイヤに保持するかを決定する。
MrT5は事実上、削除されたトークンからの重要な情報をよりコンパクトなシーケンスにマージし、残りのトークンからコンテキスト情報を活用する。
継続した事前トレーニング実験では、MrT5は、パフォーマンスに最小限の影響を伴って、推論ランタイムにおいて顕著な向上を達成できることが判明した。
英語のテキストでトレーニングを行うと、MrT5はその削除機能を複数の言語でゼロショットで転送できることを示し、多言語トレーニングの後に大幅に改善された。
さらに、XNLIや文字レベルのタスクなどの下流評価では、ByT5と同等の精度を示し、シーケンス長を最大80%削減している。
提案手法は,既存のバイトレベルのモデルの実用的限界に対する解を提供する。
関連論文リスト
- BTR: Binary Token Representations for Efficient Retrieval Augmented Language Models [77.0501668780182]
Retrieval augmentationは、大規模言語モデルにおける多くの重要な問題に対処する。
検索拡張言語モデル(LM)の実行は遅く、大量の検索されたテキストを処理するため、スケールが困難である。
1ビットベクトルを用いて各トークンを前処理するバイナリトークン表現(BTR)を導入する。
論文 参考訳(メタデータ) (2023-10-02T16:48:47Z) - mmT5: Modular Multilingual Pre-Training Solves Source Language
Hallucinations [54.42422445568523]
mmT5はモジュール型多言語シーケンス・ツー・シーケンスモデルである。
言語固有の情報を言語に依存しない情報から切り離す。
mT5と比較して、mT5はゼロショット設定で正しい言語でテキストを生成する率を7%から99%に向上させる。
論文 参考訳(メタデータ) (2023-05-23T16:38:01Z) - Reducing Sequence Length by Predicting Edit Operations with Large
Language Models [50.66922361766939]
本稿では,ローカルなシーケンス変換タスクに対して,ソーステキストの編集スパンを予測することを提案する。
編集スパンの監督データに大規模言語モデルに対する命令チューニングを適用する。
実験の結果,提案手法は4つのタスクにおいて,ベースラインに匹敵する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-05-19T17:51:05Z) - Evaluating Byte and Wordpiece Level Models for Massively Multilingual
Semantic Parsing [3.431659287330068]
バイトレベル(ByT5)とワードピースベース(mT5)をMASSIVE多言語意味解析データセットの51言語におけるシーケンスモデルと比較する。
すべての言語からのゴールドデータに基づいてトレーニングされたモデルに対して、正確なマッチング精度のギャップを5ポイントに縮めることができます。
論文 参考訳(メタデータ) (2022-12-14T13:48:32Z) - EdiT5: Semi-Autoregressive Text-Editing with T5 Warm-Start [21.4394742421462]
EdiT5は、半自動的なテキスト編集アプローチである。
非自己回帰的テキスト編集と自己回帰的復号の長所を兼ね備えている。
論文 参考訳(メタデータ) (2022-05-24T17:13:22Z) - Sentence-T5: Scalable Sentence Encoders from Pre-trained Text-to-Text
Models [10.645591218689058]
テキスト・トゥ・テキスト・トランスフォーマー (T5) 文の埋め込みを初めて行う。
本稿では,T5文の埋め込みを抽出する3つの方法について検討する。
エンコーダのみのモデルは、転送タスクとセマンティックテキストの類似性の両方においてBERTベースの文埋め込みよりも優れています。
論文 参考訳(メタデータ) (2021-08-19T18:58:02Z) - ByT5: Towards a token-free future with pre-trained byte-to-byte models [23.532359202069063]
最も広く使われている事前訓練言語モデルは、単語またはサブワード単位に対応するトークンのシーケンスで動作する。
標準的な Transformer アーキテクチャは,バイト列の処理に最小限の修正を加えて使用できることを示す。
また、バイトレベルのモデルはノイズに対して著しく堅牢であり、スペルや発音に敏感なタスクでも性能が向上することを示した。
論文 参考訳(メタデータ) (2021-05-28T07:03:22Z) - mT6: Multilingual Pretrained Text-to-Text Transformer with Translation
Pairs [51.67970832510462]
翻訳ペア(mt6)を用いた多言語テキスト間トランスフォーマーの改良
本研究では,機械翻訳,翻訳ペアスパン破壊,翻訳スパン破壊という3つの言語間事前学習タスクについて検討した。
実験の結果,mT6はmT5よりも舌間移動性が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-18T03:24:07Z) - mT5: A massively multilingual pre-trained text-to-text transformer [60.0210636815514]
The Text-to-Text Transfer Transformer (T5) は、統一されたテキスト・トゥ・テキストフォーマットとスケールを利用して、英語のNLPタスクで最先端の結果を得る。
101言語をカバーする新しいCommon Crawlベースのデータセットで事前トレーニングを行ったマルチ言語版T5であるmT5を紹介する。
論文 参考訳(メタデータ) (2020-10-22T17:58:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。