論文の概要: Stop Taking Tokenizers for Granted: They Are Core Design Decisions in Large Language Models
- arxiv url: http://arxiv.org/abs/2601.13260v2
- Date: Sat, 24 Jan 2026 00:39:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 13:23:48.783911
- Title: Stop Taking Tokenizers for Granted: They Are Core Design Decisions in Large Language Models
- Title(参考訳): 認可された tokenizer の使用をやめる - 大規模言語モデルにおけるコア設計の決定
- Authors: Sawsan Alqahtani, Mir Tafseer Nayeem, Md Tahmid Rahman Laskar, Tasnim Mohiuddin, M Saiful Bari,
- Abstract要約: トークン化はすべての大きな言語モデルの基礎となるが、未理論で一貫性のない設計のコンポーネントのままである。
我々は、言語、ドメイン、デプロイメントの考慮によってガイドされた、トークン化とモデルの共同設計を統合したコンテキスト対応フレームワークを論じる。
- 参考スコア(独自算出の注目度): 13.843070750282605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization underlies every large language model, yet it remains an under-theorized and inconsistently designed component. Common subword approaches such as Byte Pair Encoding (BPE) offer scalability but often misalign with linguistic structure, amplify bias, and waste capacity across languages and domains. This paper reframes tokenization as a core modeling decision rather than a preprocessing step. We argue for a context-aware framework that integrates tokenizer and model co-design, guided by linguistic, domain, and deployment considerations. Standardized evaluation and transparent reporting are essential to make tokenization choices accountable and comparable. Treating tokenization as a core design problem, not a technical afterthought, can yield language technologies that are fairer, more efficient, and more adaptable.
- Abstract(参考訳): トークン化はすべての大きな言語モデルの基礎となるが、未理論で一貫性のない設計のコンポーネントのままである。
Byte Pair Encoding (BPE)のような一般的なサブワードのアプローチは、スケーラビリティを提供するが、言語構造やバイアスの増幅、言語やドメイン間のムダの容量を誤ることが多い。
本稿では、トークン化を前処理ステップではなく、コアモデリング決定として再設定する。
我々は、言語、ドメイン、デプロイメントの考慮によってガイドされた、トークン化とモデルの共同設計を統合したコンテキスト対応フレームワークを論じる。
トークン化の選択を説明責任と同等にするためには、標準化された評価と透過的な報告が不可欠である。
トークン化を技術的な再考ではなく、中核的な設計問題として扱うことは、より公平で、より効率的で、より適応可能な言語技術を生み出すことができる。
関連論文リスト
- The Roots of Performance Disparity in Multilingual Language Models: Intrinsic Modeling Difficulty or Design Choices? [42.515122675241486]
現在のシステムは世界中の言語で不均一なパフォーマンスを提供する。
本研究は,これらのギャップが持続する理由と,それらが固有の言語的困難を反映しているか,あるいは人工物をモデル化するかを考察する。
論文 参考訳(メタデータ) (2026-01-12T05:25:39Z) - Reflection Pretraining Enables Token-Level Self-Correction in Biological Sequence Models [82.79223371188756]
CoT(Chain-of-Thought)は、大規模言語モデルを用いた自然言語処理において、高度なタスク解決機能を備えている。
CoTをタンパク質やRNA言語モデルのような非自然言語ドメインに適用することは、まだ不可能である。
生物シークエンスモデルではじめて事前学習を導入し、中間的推論を行えるようにした。
論文 参考訳(メタデータ) (2025-12-24T05:25:17Z) - Tokenization Disparities as Infrastructure Bias: How Subword Systems Create Inequities in LLM Access and Efficiency [6.943451388015595]
トークン化の格差は、人工知能への公平なアクセスを達成する上で重要な障壁となる。
本研究では,200以上の言語におけるトークン化効率の大規模クロス言語的評価を行う。
論文 参考訳(メタデータ) (2025-10-14T11:14:38Z) - On the Entity-Level Alignment in Crosslingual Consistency [62.33186691736433]
SubSubとSubInjは、主題の英語翻訳を言語間のプロンプトに統合し、実際のリコール精度と一貫性を大きく向上させた。
これらの介入はモデルの内部ピボット言語処理を通じて概念空間における実体表現のアライメントを強化する。
論文 参考訳(メタデータ) (2025-10-11T16:26:50Z) - Sketch-of-Thought: Efficient LLM Reasoning with Adaptive Cognitive-Inspired Sketching [64.74765550805024]
Chain-of-Thoughtはステップバイステップの問題解決を促すが、中間出力の過剰な冗長性を犠牲にすることが多い。
我々は,認知にインスパイアされた推論パラダイムを言語制約と統合する促進フレームワークであるSketch-of-Thought(SoT)を提案する。
SoTはトークンを最大84%削減し、18の推論データセットで最小限の精度ロスを達成している。
論文 参考訳(メタデータ) (2025-03-07T06:57:17Z) - Tokenization Standards for Linguistic Integrity: Turkish as a Benchmark [0.29687381456163997]
トークン化はNLPの基本的な前処理ステップであり、大きな言語モデルが構文、形態素合成、意味構造をキャプチャする能力に直接影響を及ぼす。
本稿では,形態的にリッチで低リソースな言語における課題に対処する,トークン化戦略を評価するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-10T21:47:49Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - Supporting Cross-language Cross-project Bug Localization Using Pre-trained Language Models [2.5121668584771837]
既存のテクニックは、アプリケーション固有のデータに依存しているため、一般化性とデプロイメントに苦労することが多い。
本稿では,プロジェクトと言語の境界を超越したバグローカライゼーションのための,PLMに基づく新しい言語モデルを提案する。
論文 参考訳(メタデータ) (2024-07-03T01:09:36Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。