論文の概要: A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning
- arxiv url: http://arxiv.org/abs/2204.10815v1
- Date: Fri, 22 Apr 2022 16:50:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 13:03:02.577591
- Title: A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning
- Title(参考訳): エンドツーエンドタスク学習のための語彙自由多言語ニューラルトケナイザ
- Authors: Md Mofijul Islam, Gustavo Aguilar, Pragaash Ponnusamy, Clint Solomon
Mathialagan, Chengyuan Ma, Chenlei Guo
- Abstract要約: サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
- 参考スコア(独自算出の注目度): 8.052271364177988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subword tokenization is a commonly used input pre-processing step in most
recent NLP models. However, it limits the models' ability to leverage
end-to-end task learning. Its frequency-based vocabulary creation compromises
tokenization in low-resource languages, leading models to produce suboptimal
representations. Additionally, the dependency on a fixed vocabulary limits the
subword models' adaptability across languages and domains. In this work, we
propose a vocabulary-free neural tokenizer by distilling segmentation
information from heuristic-based subword tokenization. We pre-train our
character-based tokenizer by processing unique words from multilingual corpus,
thereby extensively increasing word diversity across languages. Unlike the
predefined and fixed vocabularies in subword methods, our tokenizer allows
end-to-end task learning, resulting in optimal task-specific tokenization. The
experimental results show that replacing the subword tokenizer with our neural
tokenizer consistently improves performance on multilingual (NLI) and
code-switching (sentiment analysis) tasks, with larger gains in low-resource
languages. Additionally, our neural tokenizer exhibits a robust performance on
downstream tasks when adversarial noise is present (typos and misspelling),
further increasing the initial improvements over statistical subword
tokenizers.
- Abstract(参考訳): サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理ステップである。
しかし、エンドツーエンドのタスク学習を活用できるモデルの能力には制限がある。
周波数ベースの語彙生成は、低リソース言語におけるトークン化を損なうため、モデルが準最適表現を生成する。
さらに、固定語彙への依存は、言語とドメイン間のサブワードモデルの適応性を制限する。
本研究では,ヒューリスティックなサブワードトークン化からセグメンテーション情報を抽出し,語彙のないニューラルトークン化手法を提案する。
我々は多言語コーパスから一意な単語を処理して文字ベースのトークン化器を事前訓練し、言語間における単語の多様性を大きく向上させる。
サブワードメソッドで予め定義された語彙や固定された語彙とは異なり、tokenizerはエンドツーエンドのタスク学習を可能にし、最適なタスク固有のトークン化を実現します。
実験結果から,サブワードトークンライザをニューラルトークンライザに置き換えることで,マルチリンガル(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスが一貫して向上し,低リソース言語では大きな向上が見られた。
さらに,ニューラルトークン化器は,逆雑音(タイプミスやスペルミス)が存在する場合の下流タスクにおけるロバストな性能を示し,統計的サブワードトークン化器に対する初期改善をさらに高めている。
関連論文リスト
- MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Rethinking Tokenization: Crafting Better Tokenizers for Large Language
Models [0.0]
トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。
本稿では,トークンと型とのバランスを,単語レベルからサブワードレベルへのトークン化の進化を追究する。
Less-is-Better (LiB) モデルは LLM トークンの新たなアプローチになり得る。
論文 参考訳(メタデータ) (2024-03-01T10:03:07Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Semantic Tokenizer for Enhanced Natural Language Processing [32.605667552915854]
本稿では,セマンティクスを用いて語彙構成を行う新しいトークン化手法を提案する。
トークン化子は、語彙で表されるワードフォームの数を2倍以上にする。
論文 参考訳(メタデータ) (2023-04-24T19:33:41Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。