論文の概要: Rethinking Tokenization: Crafting Better Tokenizers for Large Language
Models
- arxiv url: http://arxiv.org/abs/2403.00417v1
- Date: Fri, 1 Mar 2024 10:03:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-05 17:50:34.598785
- Title: Rethinking Tokenization: Crafting Better Tokenizers for Large Language
Models
- Title(参考訳): トークン化を再考する - 大規模言語モデルのためのより良いトークン作成
- Authors: Jinbiao Yang
- Abstract要約: トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。
本稿では,トークンと型とのバランスを,単語レベルからサブワードレベルへのトークン化の進化を追究する。
Less-is-Better (LiB) モデルは LLM トークンの新たなアプローチになり得る。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization significantly influences language models(LMs)' performance. This
paper traces the evolution of tokenizers from word-level to subword-level,
analyzing how they balance tokens and types to enhance model adaptability while
controlling complexity. Despite subword tokenizers like Byte Pair Encoding
(BPE) overcoming many word tokenizer limitations, they encounter difficulties
in handling non-Latin languages and depend heavily on extensive training data
and computational resources to grasp the nuances of multiword expressions
(MWEs). This article argues that tokenizers, more than mere technical tools,
should drawing inspiration from the cognitive science about human language
processing. This study then introduces the "Principle of Least Effort" from
cognitive science, that humans naturally seek to reduce cognitive effort, and
discusses the benefits of this principle for tokenizer development. Based on
this principle, the paper proposes that the Less-is-Better (LiB) model could be
a new approach for LLM tokenizer. The LiB model can autonomously learn an
integrated vocabulary consisting of subwords, words, and MWEs, which
effectively reduces both the numbers of tokens and types. Comparative
evaluations show that the LiB tokenizer outperforms existing word and BPE
tokenizers, presenting an innovative method for tokenizer development, and
hinting at the possibility of future cognitive science-based tokenizers being
more efficient.
- Abstract(参考訳): トークン化は言語モデル(LM)のパフォーマンスに大きく影響する。
本論文は,トークン化器の単語レベルからサブワードレベルへの進化をトレースし,複雑度を制御しながら,モデルの適応性を高めるためにトークンと型のバランスをとる方法を分析する。
バイトペアエンコーディング(bpe)のようなサブワードトークンは、多くの単語トークンライザの制限を克服するが、非ラテン言語を扱うことが困難であり、多語式(mwes)のニュアンスを理解するために、広範なトレーニングデータと計算リソースに大きく依存している。
この記事では、トークン化ツールは単なる技術ツール以上のもので、人間の言語処理に関する認知科学からインスピレーションを得るべきだ、と論じる。
この研究は、人間が自然に認知的努力を減らそうとする認知科学の「最小の努力の原理」を導入し、トークン化剤開発におけるこの原理の利点について論じる。
この原理に基づいて、LLMトークンーの新しいアプローチとしてLiB(Les-is-Better)モデルを提案する。
LiBモデルは、サブワード、単語、MWEからなる統合語彙を自律的に学習することができ、トークンの数と型の両方を効果的に削減できる。
比較評価により、libトークン化器は既存のwordおよびbpeトークン化器よりも優れており、トークン化器開発のための革新的な方法を示し、将来の認知科学ベースのトークン化器がより効率的になる可能性を示唆している。
関連論文リスト
- Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [44.84219266082269]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Tokens, the oft-overlooked appetizer: Large language models, the distributional hypothesis, and meaning [31.632816425798108]
トークン化は多くの言語モデルの現在のアーキテクチャにおいて必要なコンポーネントである。
トークン化事前学習はバイアスやその他の望ましくないコンテンツのバックドアになり得ることを示す。
トークン化アルゴリズムの目的関数が大規模言語モデルの認知に影響を及ぼす証拠を中継する。
論文 参考訳(メタデータ) (2024-12-14T18:18:52Z) - Large Concept Models: Language Modeling in a Sentence Representation Space [62.73366944266477]
本稿では,概念を命名した明示的な高レベルな意味表現に基づくアーキテクチャの試みを行う。
概念は言語とモダリティに依存しないものであり、フローにおけるより高いレベルの考えや行動を表している。
本モデルでは,多くの言語に対して,ゼロショットの一般化性能が顕著であることを示す。
論文 参考訳(メタデータ) (2024-12-11T23:36:20Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Improving Language Models Meaning Understanding and Consistency by
Learning Conceptual Roles from Dictionary [65.268245109828]
現代事前訓練言語モデル(PLM)の非人間的行動は、その信頼性を損なう主要な原因である。
驚くべき現象は、矛盾した結果を生み出す不整合予測の生成である。
本研究では,PLMの認知度を向上させることで,一貫性のない行動問題を緩和する実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-24T06:15:15Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - More Than Words: Collocation Tokenization for Latent Dirichlet
Allocation Models [71.42030830910227]
モデルが異なる環境でクラスタリングの品質を測定するための新しい指標を提案する。
マージトークンでトレーニングされたトピックは、マージされていないモデルよりも、より明確で、一貫性があり、トピックを区別する効果が高いトピックキーをもたらすことを示す。
論文 参考訳(メタデータ) (2021-08-24T14:08:19Z) - ERICA: Improving Entity and Relation Understanding for Pre-trained
Language Models via Contrastive Learning [97.10875695679499]
そこで本研究では, ERICA という新たなコントラスト学習フレームワークを提案し, エンティティとその関係をテキストでより深く理解する。
実験の結果,提案する erica フレームワークは文書レベルの言語理解タスクにおいて一貫した改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:35:22Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。