論文の概要: Semantic Tokenizer for Enhanced Natural Language Processing
- arxiv url: http://arxiv.org/abs/2304.12404v1
- Date: Mon, 24 Apr 2023 19:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 22:54:33.523592
- Title: Semantic Tokenizer for Enhanced Natural Language Processing
- Title(参考訳): 拡張自然言語処理のための意味トークン化
- Authors: Sandeep Mehta, Darpan Shah, Ravindra Kulkarni, Cornelia Caragea
- Abstract要約: 本稿では,セマンティクスを用いて語彙構成を行う新しいトークン化手法を提案する。
トークン化子は、語彙で表されるワードフォームの数を2倍以上にする。
- 参考スコア(独自算出の注目度): 32.605667552915854
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Traditionally, NLP performance improvement has been focused on improving
models and increasing the number of model parameters. NLP vocabulary
construction has remained focused on maximizing the number of words represented
through subword regularization. We present a novel tokenizer that uses
semantics to drive vocabulary construction. The tokenizer includes a trainer
that uses stemming to enhance subword formation. Further optimizations and
adaptations are implemented to minimize the number of words that cannot be
encoded. The encoder is updated to integrate with the trainer. The tokenizer is
implemented as a drop-in replacement for the SentencePiece tokenizer. The new
tokenizer more than doubles the number of wordforms represented in the
vocabulary. The enhanced vocabulary significantly improves NLP model
convergence, and improves quality of word and sentence embeddings. Our
experimental results show top performance on two Glue tasks using BERT-base,
improving on models more than 50X in size.
- Abstract(参考訳): 従来、nlpのパフォーマンス改善はモデルの改善とモデルパラメータ数の増加に重点を置いてきた。
NLP語彙構成は、サブワード正規化によって表現される単語の数を最大化することに集中している。
本稿では,セマンティクスを用いて語彙構成を行う新しいトークン化手法を提案する。
トークン化装置は、サブワード形成の強化にステーミングを使用するトレーナーを含む。
さらに最適化と適応を行い、符号化できない単語の数を最小化する。
エンコーダはトレーナーと統合するために更新される。
トークン化装置は、文片トークン化器のドロップイン代替として実装される。
新しいトークン化子は、語彙で表されるワードフォームの数を2倍以上にする。
拡張語彙はNLPモデルの収束を著しく改善し、単語と文の埋め込みの品質を向上する。
実験の結果,BERTベースを用いた2つのGlueタスクの上位性能を示し,50倍以上のモデルで改善した。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - NFLAT: Non-Flat-Lattice Transformer for Chinese Named Entity Recognition [39.308634515653914]
我々は,計算コストとメモリコストを効果的に削減する新しい語彙拡張手法であるInterFormerを提唱する。
FLATと比較して「単語文字」と「単語」の不要な注意計算を減らす
これにより、メモリ使用量が約50%削減され、ネットワークトレーニングのためにより広範なレキシコンやより高いバッチを使用することができる。
論文 参考訳(メタデータ) (2022-05-12T01:55:37Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality [24.80654159288458]
本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
論文 参考訳(メタデータ) (2020-10-24T01:08:28Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。