論文の概要: Zonkey: A Hierarchical Diffusion Language Model with Differentiable Tokenization and Probabilistic Attention
- arxiv url: http://arxiv.org/abs/2601.21768v1
- Date: Thu, 29 Jan 2026 14:17:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.887362
- Title: Zonkey: A Hierarchical Diffusion Language Model with Differentiable Tokenization and Probabilistic Attention
- Title(参考訳): Zonkey: 異なるトークン化と確率的注意を持つ階層型拡散言語モデル
- Authors: Alon Rozental,
- Abstract要約: Zonkeyは階層的な拡散モデルであり、生文字から文書レベルの表現まで、完全にトレーニング可能なパイプラインを通じて制限に対処する。
コアとなるのは、確率的開始順序(BOS)決定を学習する、差別化可能なトークンである。
Zonkeyは、ノイズからコヒーレントで可変長のテキストを生成し、創発的な階層を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have revolutionized natural language processing, yet they remain constrained by fixed, non-differentiable tokenizers like Byte Pair Encoding (BPE), which hinder end-to-end optimization and adaptability to noisy or domain-specific data. We introduce Zonkey, a hierarchical diffusion model that addresses these limitations through a fully trainable pipeline from raw characters to document-level representations. At its core is a differentiable tokenizer (Segment Splitter) that learns probabilistic beginning-of-sequence (BOS) decisions, enabling adaptive splits that emerge as linguistically meaningful (e.g., word boundaries at spaces, sentence starts at periods) without explicit supervision. This differentiability is enabled by our novel Probabilistic Attention mechanism, which incorporates position-specific existence probabilities to simulate soft masking over theoretically infinite sequences while preserving gradients. Sequences decay probabilistically rather than relying on end-of-sequence tokens, supporting variable-length outputs. Hierarchical levels compress sequences into higher abstractions (e.g., character n-grams to word-like vectors, then sentence-like), with reconstruction via our Denoising Diffusion Mixed Model (DDMM) for stable and efficient denoising in latent space. A Stitcher ensures overlap invariance across segments. Trained end-to-end on Wikipedia, Zonkey generates coherent, variable-length text from noise, demonstrating emergent hierarchies and promising qualitative alignment to data distributions compared to entropy-based learnable tokenizers. Our approach advances toward fully gradient-based LLMs, with potential for better domain adaptation and scalable generation. We release the source code for training and reproducing our experiments.
- Abstract(参考訳): 大規模言語モデル (LLM) は自然言語処理に革命をもたらしたが、Byte Pair Encoding (BPE) のような固定化されていないトークン化ツールによって制約され続けており、これはエンドツーエンドの最適化とノイズやドメイン固有のデータへの適応性を妨げている。
Zonkeyは、生文字から文書レベルの表現まで、完全に訓練可能なパイプラインを通してこれらの制限に対処する階層的拡散モデルである。
その中核となるのが差別化可能なトークンーザ(セグメント・スプリッター)であり、言語的に意味のある(例えば、空間における単語境界、文は期間で始まる)適応的な分割を可能にする、確率的開始順序決定(BOS)を学ぶ。
この微分性は、位置特異的存在確率を組み込んだ新しい確率的注意機構によって実現され、勾配を保ちながら理論上無限列上のソフトマスキングをシミュレートする。
シーケンスは、可変長の出力をサポートするために、エンド・オブ・シーケンストークンに頼るのではなく、確率的に減衰する。
階層レベルでは、列を高い抽象化(例えば、文字n-gramから単語のようなベクトル、文のような)に圧縮し、遅延空間における安定かつ効率的な復調のためのDenoising Diffusion Mixed Model(DDMM)を通して再構成する。
Stitcherはセグメント間の重複不変性を保証する。
Wikipediaのエンドツーエンドで訓練されたZonkeyは、ノイズから一貫性のある可変長のテキストを生成し、エントロピーベースの学習可能なトークン化器と比較して、創発的階層とデータ分散への質的な整合性を示す。
我々のアプローチは、より優れたドメイン適応とスケーラブルな生成の可能性を秘め、完全に勾配に基づくLLMへと進む。
実験のトレーニングと再現のためのソースコードをリリースします。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - FLEXITOKENS: Flexible Tokenization for Evolving Language Models [9.003053181721823]
言語モデル(LM)は、単純な微調整によって新しいデータ分布に適応することが困難である。
これは、そのサブワードトークンーザの剛性のためであり、通常は適応中に変化しない。
我々は、トークン化を適応させるために、学習可能なトークン化器を備えたバイトレベルのLMを開発する。
論文 参考訳(メタデータ) (2025-07-17T01:55:41Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。