論文の概要: Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality
- arxiv url: http://arxiv.org/abs/2010.12730v3
- Date: Fri, 24 Sep 2021 02:09:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 12:44:44.448528
- Title: Char2Subword: Extending the Subword Embedding Space Using Robust
Character Compositionality
- Title(参考訳): Char2Subword:ロバストな文字合成による埋め込み空間の拡張
- Authors: Gustavo Aguilar, Bryan McCann, Tong Niu, Nazneen Rajani, Nitish
Keskar, Thamar Solorio
- Abstract要約: 本稿では,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのモジュールは、ミススペル、単語のインフレクション、ケーシング、句読点などの文字レベルの変更に対して堅牢です。
我々は,mBERTにモジュールを組み込むことで,ソーシャルメディア言語コードスイッチング評価(LinCE)ベンチマークの性能が大幅に向上することを示した。
- 参考スコア(独自算出の注目度): 24.80654159288458
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Byte-pair encoding (BPE) is a ubiquitous algorithm in the subword
tokenization process of language models as it provides multiple benefits.
However, this process is solely based on pre-training data statistics, making
it hard for the tokenizer to handle infrequent spellings. On the other hand,
though robust to misspellings, pure character-level models often lead to
unreasonably long sequences and make it harder for the model to learn
meaningful words. To alleviate these challenges, we propose a character-based
subword module (char2subword) that learns the subword embedding table in
pre-trained models like BERT. Our char2subword module builds representations
from characters out of the subword vocabulary, and it can be used as a drop-in
replacement of the subword embedding table. The module is robust to
character-level alterations such as misspellings, word inflection, casing, and
punctuation. We integrate it further with BERT through pre-training while
keeping BERT transformer parameters fixed--and thus, providing a practical
method. Finally, we show that incorporating our module to mBERT significantly
improves the performance on the social media linguistic code-switching
evaluation (LinCE) benchmark.
- Abstract(参考訳): バイトペア符号化(BPE)は、言語モデルのサブワードトークン化プロセスにおいて、複数の利点を提供するユビキタスアルゴリズムである。
しかし、このプロセスは単に事前トレーニングデータ統計に基づいており、トークン処理者が頻繁にスペルを処理するのが難しくなる。
一方、ミススペルには頑丈だが、純粋な文字レベルのモデルはしばしば不合理に長いシーケンスをもたらし、モデルが意味のある単語を学ぶのを難しくする。
これらの課題を解決するために,BERT のような事前学習モデルにおけるサブワード埋め込みテーブルを学習する文字ベースのサブワードモジュール (char2subword) を提案する。
私たちのchar2subwordモジュールは、サブワード語彙から文字からの表現を構築し、サブワード埋め込みテーブルのドロップイン代替として使用できます。
このモジュールは、ミススペル、単語の反転、ケーシング、句読点などの文字レベルの変更に対して堅牢である。
BERT変換器パラメータを固定したまま、事前学習によりBERTとさらに統合し、実用的な方法を提供する。
最後に,このモジュールをmBERTに組み込むことで,LinCE(LinCE)ベンチマークの性能が大幅に向上することを示す。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - A General and Flexible Multi-concept Parsing Framework for Multilingual Semantic Matching [60.51839859852572]
我々は,テキストを多言語セマンティックマッチングのためのマルチコンセプトに分解し,NERモデルに依存するモデルからモデルを解放することを提案する。
英語データセットのQQPとMRPC、中国語データセットのMedical-SMについて包括的な実験を行った。
論文 参考訳(メタデータ) (2024-03-05T13:55:16Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - Towards preserving word order importance through Forced Invalidation [80.33036864442182]
事前学習された言語モデルは単語の順序に敏感であることを示す。
我々は,単語順序の重要性を維持するために強制的無効化を提案する。
実験の結果,強制的無効化は単語順に対するモデルの感度を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2023-04-11T13:42:10Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-04-10T18:54:43Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - CharBERT: Character-aware Pre-trained Language Model [36.9333890698306]
本稿ではCharBERTという文字認識事前学習言語モデルを提案する。
まず、逐次的文字表現から各トークンに対する文脈単語埋め込みを構築する。
次に、新しい異種相互作用モジュールによって文字とサブワードの表現を融合する。
論文 参考訳(メタデータ) (2020-11-03T07:13:06Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。