論文の概要: Byte BPE Tokenization as an Inverse string Homomorphism
- arxiv url: http://arxiv.org/abs/2412.03160v1
- Date: Wed, 04 Dec 2024 09:38:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:57.921659
- Title: Byte BPE Tokenization as an Inverse string Homomorphism
- Title(参考訳): 逆文字列準同型としてのByte BPEトークン化
- Authors: Saibo Geng, Sankalp Gambhir, Chris Wendler, Robert West,
- Abstract要約: トークン化は文字列とトークンの間の逆準同型として作用することを示す。
これは、原言語の文字空間とトークン化された言語のトークン空間が同型であることを示唆している。
また、トークン化器から返されるあいまいなトークン化を指す固有トークン化の概念についても検討する。
- 参考スコア(独自算出の注目度): 12.885921620444272
- License:
- Abstract: Tokenization is an important preprocessing step in the training and inference of large language models (LLMs). While there has been extensive research on the expressive power of the neural achitectures used in LLMs, the impact of tokenization has not been well understood. In this work, we demonstrate that tokenization, irrespective of the algorithm used, acts as an inverse homomorphism between strings and tokens. This suggests that the character space of the source language and the token space of the tokenized language are homomorphic, preserving the structural properties of the source language. Additionally, we explore the concept of proper tokenization, which refers to an unambiguous tokenization returned from the tokenizer. Our analysis reveals that the expressiveness of neural architectures in recognizing context-free languages is not affected by tokenization.
- Abstract(参考訳): トークン化は、大規模言語モデル(LLM)のトレーニングと推論において重要な前処理ステップである。
LLMで使用される神経軸索の表現力について広範な研究がなされているが、トークン化の影響はよく理解されていない。
本研究では、使用するアルゴリズムによらず、トークン化が文字列とトークンの間の逆準同型として作用することを示す。
このことは、ソース言語の文字空間とトークン化された言語のトークン空間が同型であり、ソース言語の構造的特性を保存することを示唆している。
さらに、トークン化器から返されるあいまいなトークン化を指す適切なトークン化の概念についても検討する。
分析の結果,文脈自由言語認識におけるニューラルアーキテクチャの表現性は,トークン化の影響を受けないことが明らかとなった。
関連論文リスト
- On the Proper Treatment of Tokenization in Psycholinguistics [53.960910019072436]
論文は、トークンレベルの言語モデルは、精神言語学研究で使用される前に、文字レベルの言語モデルにマージ化されるべきであると主張している。
興味領域自体のサブプライムよりも心理学的予測が優れている様々な焦点領域を見いだす。
論文 参考訳(メタデータ) (2024-10-03T17:18:03Z) - Different Tokenization Schemes Lead to Comparable Performance in Spanish Number Agreement [5.223020867766102]
異なるトークン化方式がスペイン語の複数形の数字合意にどのように影響するかを検討する。
形態的に整列したトークン化は他のトークン化方式と同様に機能する。
以上の結果から,形態的トークン化は性能に厳密には要求されないことが示唆された。
論文 参考訳(メタデータ) (2024-03-20T17:01:56Z) - Rethinking Tokenization: Crafting Better Tokenizers for Large Language
Models [0.0]
トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。
本稿では,トークンと型とのバランスを,単語レベルからサブワードレベルへのトークン化の進化を追究する。
Less-is-Better (LiB) モデルは LLM トークンの新たなアプローチになり得る。
論文 参考訳(メタデータ) (2024-03-01T10:03:07Z) - How Important Is Tokenization in French Medical Masked Language Models? [7.866517623371908]
自然言語処理(NLP)分野において,サブワードトークン化が主流となっている。
本稿では,フランス生物医学領域におけるサブワードトークン化の複雑さを,多種多様なNLPタスクにまたがって探究する。
従来のトークン化手法に形態素に富んだ単語セグメンテーションを統合するオリジナルトークン化戦略を導入する。
論文 参考訳(メタデータ) (2024-02-22T23:11:08Z) - Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Analyzing Cognitive Plausibility of Subword Tokenization [9.510439539246846]
サブワードトークン化はトークン化のデファクトスタンダードになっている。
本稿では,サブワードトークン化の認知的妥当性に着目した新しい評価パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-20T08:25:37Z) - mCL-NER: Cross-Lingual Named Entity Recognition via Multi-view
Contrastive Learning [54.523172171533645]
CrossNERは多言語コーパスの不足により不均一な性能から生じる課題に直面している。
言語横断的名前付きエンティティ認識(mCL-NER)のためのマルチビューコントラスト学習を提案する。
40言語にまたがるXTREMEベンチマーク実験では、従来のデータ駆動型およびモデルベースアプローチよりもmCL-NERの方が優れていることを示した。
論文 参考訳(メタデータ) (2023-08-17T16:02:29Z) - Transparency Helps Reveal When Language Models Learn Meaning [71.96920839263457]
合成データを用いた体系的な実験により,すべての表現が文脈に依存しない意味を持つ言語では,自己回帰型とマスキング型の両方の言語モデルが,表現間の意味的関係をエミュレートする。
自然言語に目を向けると、特定の現象(参照不透明さ)による実験は、現在の言語モデルが自然言語の意味論をうまく表現していないという証拠を増大させる。
論文 参考訳(メタデータ) (2022-10-14T02:35:19Z) - Better Than Whitespace: Information Retrieval for Languages without
Custom Tokenizers [48.036317742487796]
語彙マッチング検索アルゴリズムのための新しいトークン化手法を提案する。
教師なしのデータから自動的に構築できるWordPieceトークンライザを使用します。
以上の結果から,mBERTトークン化器は,ほとんどの言語において,"アウト・オブ・ザ・ボックス(out of the box)"を検索するための強い関連信号を提供することがわかった。
論文 参考訳(メタデータ) (2022-10-11T14:32:46Z) - Unsupervised Distillation of Syntactic Information from Contextualized
Word Representations [62.230491683411536]
我々は,ニューラルネットワーク表現における意味論と構造学の非教師なしの絡み合いの課題に取り組む。
この目的のために、構造的に類似しているが意味的に異なる文群を自動的に生成する。
我々は、我々の変換クラスタベクトルが、語彙的意味論ではなく構造的特性によって空間に現れることを実証する。
論文 参考訳(メタデータ) (2020-10-11T15:13:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。