論文の概要: MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End
Language Modeling
- arxiv url: http://arxiv.org/abs/2212.07284v1
- Date: Wed, 14 Dec 2022 15:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:53:11.127060
- Title: MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End
Language Modeling
- Title(参考訳): MANTa:ロバストなエンドツーエンド言語モデリングのための効率的なグラディエントベースのトークン化
- Authors: Nathan Godey, Roman Castagn\'e, \'Eric de la Clergerie, Beno\^it Sagot
- Abstract要約: 本稿では,適応型ニューラルトケニズAtionのモジュールであるMANTaを提案する。
ManTaは、言語モデルでエンドツーエンドにトレーニングされた差別化可能なトークンエーザである。
MANTaは一般ドメインGLUEベンチマークで他のモデルと同等に動作することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Static subword tokenization algorithms have been an essential component of
recent works on language modeling. However, their static nature results in
important flaws that degrade the models' downstream performance and robustness.
In this work, we propose MANTa, a Module for Adaptive Neural TokenizAtion.
MANTa is a differentiable tokenizer trained end-to-end with the language model.
The resulting system offers a trade-off between the expressiveness of
byte-level models and the speed of models trained using subword tokenization.
In addition, our tokenizer is highly explainable since it produces an explicit
segmentation of sequences into blocks. We evaluate our pre-trained model on
several English datasets from different domains as well as on synthetic noise.
We find that MANTa improves robustness to character perturbations and
out-of-domain data. We then show that MANTa performs comparably to other models
on the general-domain GLUE benchmark. Finally, we show that it is considerably
faster than strictly byte-level models.
- Abstract(参考訳): 静的サブワードトークン化アルゴリズムは、近年の言語モデリングにおける重要な要素である。
しかし、静的な性質は、モデルの下流のパフォーマンスと堅牢性を低下させる重要な欠陥をもたらす。
本研究では,適応型ニューラルネットワークトークン化モジュールmantaを提案する。
MANTaは言語モデルとエンドツーエンドでトレーニングされた差別化可能なトークンである。
結果として得られるシステムは、バイトレベルのモデルの表現性と、サブワードトークン化を用いて訓練されたモデルの速度との間のトレードオフを提供する。
さらに、トークン化器は、ブロックに配列を明示的に分割するので、非常に説明しやすい。
我々は、異なるドメインの英語データセットと合成ノイズに基づく事前学習モデルの評価を行った。
MANTaは文字摂動やドメイン外データに対する堅牢性を向上させる。
次に、MANTaが一般ドメインGLUEベンチマークで他のモデルと同等に動作することを示す。
最後に、厳密なバイトレベルのモデルよりもかなり高速であることを示す。
関連論文リスト
- Relation-based Counterfactual Data Augmentation and Contrastive Learning for Robustifying Natural Language Inference Models [0.0]
本稿では,トークンベースおよび文ベースの拡張手法を用いて,対実文ペアを生成する手法を提案する。
提案手法は,NLIモデルの性能とロバスト性を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-28T03:43:25Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は言語モデル(LM)における多くの未理解の欠点と関連している
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
我々は、さらなるトレーニングや最適化を必要とせず、トークン化バイアスを除去する次世代サンプリングアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - Can Perplexity Predict Fine-Tuning Performance? An Investigation of Tokenization Effects on Sequential Language Models for Nepali [0.0]
サブワードが言語モデルの理解能力にどのように影響するかの研究はほとんどなく、少数の言語に限られている。
ネパールの比較的小さな言語モデルを事前訓練するために、6つの異なるトークン化スキームを使用し、下流のタスクを微調整するために学んだ表現を使用しました。
論文 参考訳(メタデータ) (2024-04-28T05:26:12Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - What is the best recipe for character-level encoder-only modelling? [2.792030485253753]
本稿では,文字レベルで文脈化された表現を出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。
我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルの性能より,最も優れたキャラクタレベルのモデルの方が優れていることを発見した。
本稿は,多言語表現のための文字レベルモデルの即興性を実証し,NLP実践者がトークンベースモデルのドロップイン代替として試すことを推奨するものである。
論文 参考訳(メタデータ) (2023-05-09T14:00:15Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。