論文の概要: Word-Level Representation From Bytes For Language Modeling
- arxiv url: http://arxiv.org/abs/2211.12677v1
- Date: Wed, 23 Nov 2022 03:11:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 15:07:22.485941
- Title: Word-Level Representation From Bytes For Language Modeling
- Title(参考訳): 言語モデリングのためのバイトからの単語レベル表現
- Authors: Chu-Tak Lee, Qipeng Guo, Xipeng Qiu
- Abstract要約: サブワードのトークン化はノイズに対して堅牢ではなく、新しい言語への一般化が難しい。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠蔽状態に基づくサブワードレベルの予測を導入する。
Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%程度しかない。
- 参考スコア(独自算出の注目度): 46.28198397863388
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern language models mostly take sub-words as input, a design that balances
the trade-off between vocabulary size, number of parameters, and performance.
However, sub-word tokenization still has disadvantages like not being robust to
noise and difficult to generalize to new languages. Also, the current trend of
scaling up models reveals that larger models require larger embeddings but that
makes parallelization hard. Previous work on image classification proves
splitting raw input into a sequence of chucks is a strong, model-agnostic
inductive bias. Based on this observation, we rethink the existing
character-aware method that takes character-level inputs but makes word-level
sequence modeling and prediction. We overhaul this method by introducing a
cross-attention network that builds word-level representation directly from
bytes, and a sub-word level prediction based on word-level hidden states to
avoid the time and space requirement of word-level prediction. With these two
improvements combined, we have a token free model with slim input embeddings
for downstream tasks. We name our method Byte2Word and perform evaluations on
language modeling and text classification. Experiments show that Byte2Word is
on par with the strong sub-word baseline BERT but only takes up 10\% of
embedding size. We further test our method on synthetic noise and cross-lingual
transfer and find it competitive to baseline methods on both settings.
- Abstract(参考訳): 現代の言語モデルは、主にサブワードを入力として取り、語彙のサイズ、パラメータの数、パフォーマンスのトレードオフをバランスさせる設計である。
しかし、サブワードトークン化には、ノイズに対して堅牢で、新しい言語への一般化が難しいといった欠点がある。
また、モデルをスケールアップする現在のトレンドは、より大きなモデルにはより大きな埋め込みが必要だが、並列化を難しくすることを示している。
画像分類に関するこれまでの研究は、生の入力をチャックの列に分割することは、強いモデルに依存しない帰納バイアスであることを示した。
本研究は,文字レベルの入力を取り入れつつ,単語レベルのシーケンスモデリングと予測を行う既存の文字認識手法を再考する。
本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠れ状態に基づくサブワードレベルの予測を導入して,単語レベルの予測の時間と空間要件を回避する。
これら2つの改善を組み合わせることで、下流タスク用のスリムな入力埋め込みを備えたトークンフリーモデルが得られる。
提案手法はByte2Wordと命名し,言語モデリングとテキスト分類の評価を行う。
実験の結果、Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%に過ぎなかった。
さらに,合成雑音と言語間伝達に関する手法をテストした結果,両設定のベースライン法と比較した。
関連論文リスト
- Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - From Characters to Words: Hierarchical Pre-trained Language Model for
Open-vocabulary Language Understanding [22.390804161191635]
自然言語理解のための現在の最先端モデルは、原文を離散トークンに変換するための前処理ステップを必要とする。
トークン化として知られるこのプロセスは、事前に構築された単語またはサブワード形態素の語彙に依存している。
階層的な2段階のアプローチを採用する新しいオープン語彙言語モデルを導入する。
論文 参考訳(メタデータ) (2023-05-23T23:22:20Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Between words and characters: A Brief History of Open-Vocabulary
Modeling and Tokenization in NLP [22.772546707304766]
単語と文字のハイブリッドなアプローチと,学習セグメンテーションに基づくサブワードベースのアプローチが提案され,評価されていることを示す。
すべてのアプリケーションに対して銀の弾丸特異解が存在することはあり得ない。
論文 参考訳(メタデータ) (2021-12-20T13:04:18Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。