論文の概要: Tokenization as Finite-State Transduction
- arxiv url: http://arxiv.org/abs/2410.15696v1
- Date: Mon, 21 Oct 2024 07:10:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:17:51.425230
- Title: Tokenization as Finite-State Transduction
- Title(参考訳): 有限状態変換としてのトークン化
- Authors: Marco Cognetta, Naoaki Okazaki,
- Abstract要約: 正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
- 参考スコア(独自算出の注目度): 24.19959327497118
- License:
- Abstract: Tokenization is the first step in modern neural language model pipelines where an input text is converted to a sequence of subword tokens. We introduce from first principles a finite-state transduction framework which can efficiently encode all possible tokenizations of a regular language. We then constructively show that Byte-Pair Encoding (BPE) and MaxMatch (WordPiece), two popular tokenization schemes, fit within this framework. For BPE, this is particularly surprising given its resemblance to context-free grammar and the fact that it does not tokenize strings from left to right. An application of this is to guided generation, where the outputs of a language model are constrained to match some pattern. Here, patterns are encoded at the character level, which creates a mismatch between the constraints and the model's subword vocabulary. While past work has focused only on constraining outputs without regard to the underlying tokenization algorithm, our framework allows for simultaneously constraining the model outputs to match a specified pattern while also adhering to the underlying tokenizer's canonical tokenization.
- Abstract(参考訳): トークン化は、入力テキストがサブワードトークンのシーケンスに変換される、現代のニューラルネットワークモデルパイプラインの最初のステップである。
本稿では,正規言語のすべてのトークン化を効率的にエンコードできる有限状態トランスダクションフレームワークについて,第一原理から紹介する。
次に、Byte-Pair Encoding(BPE)とMaxMatch(WordPiece)という2つの一般的なトークン化スキームがこのフレームワークに適合していることを示します。
BPEにとってこれは、文脈自由文法に類似していることと、文字列を左から右にトークン化しないという事実から、特に驚くべきことである。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
ここで、パターンは文字レベルでエンコードされ、制約とモデルのサブワード語彙のミスマッチを生成する。
従来の作業では,トークン化アルゴリズムの基盤となるアルゴリズムを使わずに,出力を制約することのみに重点を置いてきたが,本フレームワークでは,モデル出力を特定のパターンにマッチさせると同時に,基盤となるトークン化の標準トークン化に固執することができる。
関連論文リスト
- Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - CosyVoice: A Scalable Multilingual Zero-shot Text-to-speech Synthesizer based on Supervised Semantic Tokens [49.569695524535454]
本稿では, ベクトル量子化をエンコーダに挿入することにより, 多言語音声認識モデルから導出される, 教師付きセマンティックトークンを用いた音声表現を提案する。
トークンをベースとした拡張性のあるゼロショットTSシンセサイザーであるCosyVoiceは,テキスト・ツー・ツー・ケン生成のためのLLMと,トークン・ツー・音声合成のための条件付きフローマッチングモデルから構成される。
論文 参考訳(メタデータ) (2024-07-07T15:16:19Z) - Understanding and Mitigating Tokenization Bias in Language Models [6.418593476658017]
State-of-the-art言語モデルは自己回帰型であり、トークンとして知られるサブワード単位で動作する。
一般的な符号化方式は、より多くのトレーニングやデータで緩和できないサンプリングバイアスを引き起こすことを示す。
トークン化データに基づいて訓練された任意の言語モデルからバイアスのない推定値を得るための新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-24T17:38:02Z) - Constructing a BPE Tokenization DFA [0.0]
多くの自然言語処理システムは、オープン語彙問題に対処するためにテキストのトークン化を操作している。
本稿では,一般的なバイトペア符号化技術によって生成されるトークン化を直接操作するために設計された決定論的有限オートマトンを効率的に構築するためのアルゴリズムを提案し,解析する。
論文 参考訳(メタデータ) (2024-05-13T11:59:24Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - Object Recognition as Next Token Prediction [99.40793702627396]
オブジェクト認識を次のトークン予測として提案する。
その考え方は、画像埋め込みからフォームラベルへのテキストトークンの自動回帰予測を行う言語デコーダを適用することである。
論文 参考訳(メタデータ) (2023-12-04T18:58:40Z) - Lexinvariant Language Models [84.2829117441298]
離散語彙記号から連続ベクトルへの写像であるトークン埋め込みは、任意の言語モデル(LM)の中心にある
我々は、語彙記号に不変であり、したがって実際に固定トークン埋め込みを必要としないテクスチトレキシン変種モデルについて研究する。
十分長い文脈を条件として,レキシン変項LMは標準言語モデルに匹敵する難易度が得られることを示す。
論文 参考訳(メタデータ) (2023-05-24T19:10:46Z) - Local Byte Fusion for Neural Machine Translation [19.16966721276286]
サブワードトークン化スキームは、現在のNLPモデルで使用される主要なテクニックである。
バイトベースのメソッド、すなわちバイトシーケンスへのトークン化は代替手段である。
多言語翻訳、ゼロショット交叉変換、ドメイン適応の実験は、従来のモデルよりも一貫した改善を示している。
論文 参考訳(メタデータ) (2022-05-23T17:49:02Z) - Charformer: Fast Character Transformers via Gradient-based Subword
Tokenization [50.16128796194463]
モデルの一部としてサブワードトークン化をエンドツーエンドに学習する新しいモデル帰納バイアスを提案する。
文字から潜在単語表現を自動的に学習する,ソフトグラデーションベースのサブワードトークンモジュール(GBST)を導入する。
また、GBSTを統合し、バイトレベルで動作する深層トランスフォーマーモデルであるCharformerを紹介する。
論文 参考訳(メタデータ) (2021-06-23T22:24:14Z) - CANINE: Pre-training an Efficient Tokenization-Free Encoder for Language
Representation [12.005340904206697]
CANINEは、明示的なトークン化や語彙のない文字シーケンス上で直接動作する神経エンコーダです。
CanINEは、TyDi QAにおいて、比較可能なmBERTモデルを >= 1 F1 で上回っている。
論文 参考訳(メタデータ) (2021-03-11T18:57:44Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。