論文の概要: KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications
- arxiv url: http://arxiv.org/abs/2503.17247v1
- Date: Fri, 21 Mar 2025 15:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:58:31.239475
- Title: KL3M Tokenizers: A Family of Domain-Specific and Character-Level Tokenizers for Legal, Financial, and Preprocessing Applications
- Title(参考訳): KL3M Tokenizers:法、財務、前処理のためのドメイン特化および文字レベルTokenizersファミリー
- Authors: Michael J Bommarito, Daniel Martin Katz, Jillian Bommarito,
- Abstract要約: 我々は、法律、財務、政府文書のためのドメイン固有のBPEトークンーザを紹介する。
我々のkl3m-004-128k-cased tokenizerはGPT-4oやLlama3よりも9-17%少ないトークンをドメイン固有の文書に使用しています。
専門用語では、私たちのケースドトークンライザはさらに効率的で、法律用語のトークンを最大83%、金融用語のトークンを最大39%削減しています。
- 参考スコア(独自算出の注目度): 13.284214798785847
- License:
- Abstract: We present the KL3M tokenizers, a family of specialized tokenizers for legal, financial, and governmental text. Despite established work on tokenization, specialized tokenizers for professional domains remain understudied. Our paper offers two main contributions to this area. First, we introduce domain-specific BPE tokenizers for legal, financial, and governmental text. Our kl3m-004-128k-cased tokenizer uses 9-17% fewer tokens than GPT-4o and Llama3 for domain-specific documents, despite having a smaller vocabulary. For specialized terminology, our cased tokenizer is even more efficient, using up to 83% fewer tokens for legal terms and 39% fewer tokens for financial terms. Second, we develop character-level BPE tokenizers (4K, 8K, and 16K vocabulary sizes) for text correction tasks like OCR post-processing. These tokenizers keep consistent token boundaries between error-containing and correct text, making it easier for models to learn correction patterns. These tokenizers help professional applications by fitting more text in context windows, reducing computational needs, and preserving the meaning of domain-specific terms. Our analysis shows these efficiency gains directly benefit the processing of long legal and financial documents. We release all tokenizers and code through GitHub and Hugging Face to support further research in specialized tokenization.
- Abstract(参考訳): 我々はKL3Mトークンーザを、法律、財務、政府文書のための特殊トークンーザのファミリーとして紹介する。
トークン化の研究は確立されたものの、プロのドメインのための特別なトークン化ツールはまだ検討されていない。
私たちの論文はこの分野に2つの主要な貢献をしている。
まずドメイン固有のBPEトークンを,法的,財政的,政府的なテキストに導入する。
我々のkl3m-004-128k-cased tokenizerは、語彙が小さいにもかかわらず、GPT-4oやLlama3よりも9-17%少ないトークンを使用する。
専門用語では、私たちのケースドトークンライザはさらに効率的で、法律用語のトークンを最大83%、金融用語のトークンを最大39%削減しています。
第2に,OCR後処理のようなテキスト修正タスクのための文字レベルBPEトークン(4K,8K,16K語彙サイズ)を開発する。
これらのトークンライザはエラーを含むテキストと正しいテキストの間に一貫したトークン境界を保持しており、モデルの修正パターンの学習を容易にする。
これらのトークンライザは、コンテキストウィンドウにより多くのテキストを適合させ、計算の必要性を減らし、ドメイン固有の用語の意味を保存することで、プロフェッショナルなアプリケーションに役立つ。
我々の分析によると、これらの効率性は、長い法律文書や財務文書の処理に直接利益をもたらす。
GitHubとHugging Faceを通じて、すべてのトークンライザとコードをリリースして、特別なトークン化に関するさらなる研究を支援しています。
関連論文リスト
- Enhancing Cross-Tokenizer Knowledge Distillation with Contextual Dynamical Mapping [85.48043537327258]
コンテキスト動的マッピング(CDM)は、新しいクロストケナイザー蒸留フレームワークである。
文脈情報を用いてシーケンスアライメントの精度を高め、語彙マッピングを動的に改善する。
本手法は, 種々のベンチマークにおいて, 既存のクロストケナイザー蒸留ベースラインに対して有意な優位性を示す。
論文 参考訳(メタデータ) (2025-02-16T12:46:07Z) - Beyond Literal Token Overlap: Token Alignability for Multilinguality [53.680462160878925]
我々は,多言語トークン化の効果と品質を理解する新しい方法として,サブワードトークン整合性を提案する。
特に、この指標は、スクリプトが異なっており、リテラルトークンの重複が低い場合、多言語性を予測する。
言語間移動のための最適な言語ペアを特定するために,我々のサブワードトークン整合性指標を推奨する。
論文 参考訳(メタデータ) (2025-02-10T13:50:12Z) - Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - A cost minimization approach to fix the vocabulary size in a tokenizer for an End-to-End ASR system [10.70500939394669]
Byte Pair Piece(BPE)やWordPieceのようなトークン化アルゴリズムは、音声認識システムの全体的なトレーニングプロセスで使用されるトークンを特定するのに人気がある。
LibriSpeech 100 時間セットの実験を通して,トークンの数を慎重に選択することで,エンドツーエンドの ASR システムの性能が向上することを示す。
論文 参考訳(メタデータ) (2024-04-29T12:16:21Z) - Scaffold-BPE: Enhancing Byte Pair Encoding for Large Language Models with Simple and Effective Scaffold Token Removal [58.29382184006158]
そこで本研究では,パラメータフリー,計算ライト,実装容易な修正による動的足場トークン除去機構を組み込んだScaffold-BPEを提案する。
言語モデリングや機械翻訳の広範な実験において、Scaffold-BPEはオリジナルのBPEよりも一貫して優れていた。
論文 参考訳(メタデータ) (2024-04-27T07:12:07Z) - Tokenization Is More Than Compression [14.939912120571728]
Byte-Pairのような既存のトークン化アプローチ。
(BPE)はデータ圧縮の分野に由来する。
PathPieceは、文書のテキストを与えられた語彙に対して最小のトークン数に分割する新しいトークンライザである。
論文 参考訳(メタデータ) (2024-02-28T14:52:15Z) - N-gram Boosting: Improving Contextual Biasing with Normalized N-gram
Targets [1.9908600514057855]
単一トークンではなく、正規化されたユニグラムとn-グラムで動作する2段階のキーワードブースティング機構を提案する。
これにより、独自のドメイン内データセットに対して26%、LibriSpeechでは2%のキーワード認識率が改善されます。
論文 参考訳(メタデータ) (2023-08-04T00:23:14Z) - Vcc: Scaling Transformers to 128K Tokens or More by Prioritizing
Important Tokens [65.4435926060951]
本稿では,超長周期の変換器の効率を,各層でより小さな表現に圧縮することで向上することを提案する。
我々のアルゴリズムは効率的であるだけでなく(4Kと16Kのベースラインに比べて3倍以上の効率向上を達成する)、多数のタスクで競合/ベターパフォーマンスを提供する。
論文 参考訳(メタデータ) (2023-05-07T10:32:18Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。