論文の概要: MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End
Language Modeling
- arxiv url: http://arxiv.org/abs/2212.07284v1
- Date: Wed, 14 Dec 2022 15:33:44 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 14:53:11.127060
- Title: MANTa: Efficient Gradient-Based Tokenization for Robust End-to-End
Language Modeling
- Title(参考訳): MANTa:ロバストなエンドツーエンド言語モデリングのための効率的なグラディエントベースのトークン化
- Authors: Nathan Godey, Roman Castagn\'e, \'Eric de la Clergerie, Beno\^it Sagot
- Abstract要約: 本稿では,適応型ニューラルトケニズAtionのモジュールであるMANTaを提案する。
ManTaは、言語モデルでエンドツーエンドにトレーニングされた差別化可能なトークンエーザである。
MANTaは一般ドメインGLUEベンチマークで他のモデルと同等に動作することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Static subword tokenization algorithms have been an essential component of
recent works on language modeling. However, their static nature results in
important flaws that degrade the models' downstream performance and robustness.
In this work, we propose MANTa, a Module for Adaptive Neural TokenizAtion.
MANTa is a differentiable tokenizer trained end-to-end with the language model.
The resulting system offers a trade-off between the expressiveness of
byte-level models and the speed of models trained using subword tokenization.
In addition, our tokenizer is highly explainable since it produces an explicit
segmentation of sequences into blocks. We evaluate our pre-trained model on
several English datasets from different domains as well as on synthetic noise.
We find that MANTa improves robustness to character perturbations and
out-of-domain data. We then show that MANTa performs comparably to other models
on the general-domain GLUE benchmark. Finally, we show that it is considerably
faster than strictly byte-level models.
- Abstract(参考訳): 静的サブワードトークン化アルゴリズムは、近年の言語モデリングにおける重要な要素である。
しかし、静的な性質は、モデルの下流のパフォーマンスと堅牢性を低下させる重要な欠陥をもたらす。
本研究では,適応型ニューラルネットワークトークン化モジュールmantaを提案する。
MANTaは言語モデルとエンドツーエンドでトレーニングされた差別化可能なトークンである。
結果として得られるシステムは、バイトレベルのモデルの表現性と、サブワードトークン化を用いて訓練されたモデルの速度との間のトレードオフを提供する。
さらに、トークン化器は、ブロックに配列を明示的に分割するので、非常に説明しやすい。
我々は、異なるドメインの英語データセットと合成ノイズに基づく事前学習モデルの評価を行った。
MANTaは文字摂動やドメイン外データに対する堅牢性を向上させる。
次に、MANTaが一般ドメインGLUEベンチマークで他のモデルと同等に動作することを示す。
最後に、厳密なバイトレベルのモデルよりもかなり高速であることを示す。
関連論文リスト
- Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - What is the best recipe for character-level encoder-only modelling? [2.792030485253753]
本稿では,文字レベルで文脈化された表現を出力する言語理解モデルの最近の進歩をベンチマークすることを目的とする。
我々は,同一データ上で同じ設定でトレーニングされたトークンベースのモデルの性能より,最も優れたキャラクタレベルのモデルの方が優れていることを発見した。
本稿は,多言語表現のための文字レベルモデルの即興性を実証し,NLP実践者がトークンベースモデルのドロップイン代替として試すことを推奨するものである。
論文 参考訳(メタデータ) (2023-05-09T14:00:15Z) - BenchCLAMP: A Benchmark for Evaluating Language Models on Syntactic and
Semantic Parsing [55.058258437125524]
本稿では,制約付きLanguage Model Parsingを評価するベンチマークであるBenchCLAMPを紹介する。
APIを通じてのみ利用可能な2つのGPT-3変種を含む8つの言語モデルをベンチマークする。
実験により,エンコーダ-デコーダ事前学習言語モデルでは,モデル出力が有効であると制約された場合に,構文解析や意味解析の最先端手法を超えることができることがわかった。
論文 参考訳(メタデータ) (2022-06-21T18:34:11Z) - An Application of Pseudo-Log-Likelihoods to Natural Language Scoring [5.382454613390483]
比較的少ないパラメータとトレーニングステップを持つ言語モデルは、最近の大規模なデータセットでそれを上回るパフォーマンスを得ることができる。
二項選択タスクにおける常識推論のための絶対的最先端結果を生成する。
より小さなモデルの堅牢性は、構成性の観点から理解されるべきである。
論文 参考訳(メタデータ) (2022-01-23T22:00:54Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Explaining and Improving Model Behavior with k Nearest Neighbor
Representations [107.24850861390196]
モデルの予測に責任のあるトレーニング例を特定するために, k 近傍表現を提案する。
我々は,kNN表現が学習した素因関係を明らかにするのに有効であることを示す。
以上の結果から,kNN手法により,直交モデルが逆入力に対してより堅牢であることが示唆された。
論文 参考訳(メタデータ) (2020-10-18T16:55:25Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。