論文の概要: Token Maturation: Autoregressive Language Generation via Continuous Token Dynamics
- arxiv url: http://arxiv.org/abs/2601.04854v1
- Date: Thu, 08 Jan 2026 11:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.183254
- Title: Token Maturation: Autoregressive Language Generation via Continuous Token Dynamics
- Title(参考訳): Token Maturation:Continuous Token Dynamicsによる自動回帰言語生成
- Authors: Oshri Naparstek,
- Abstract要約: 本稿では,複数の更新ステップにまたがる連続ベクトルとしてトークンが表現される言語生成の連続的自己回帰的定式化を導入する。
この成熟過程だけでは、決定論的復号法(argmax)を用いてコヒーレントで多様なテキストを生成するのに十分であることを示す。
力学や履歴の平滑化のような追加の摂動は自然に組み込むことができるが、モデルが機能するためには必要ではない。
- 参考スコア(独自算出の注目度): 0.7252027234425333
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Autoregressive language models are conventionally defined over discrete token sequences, committing to a specific token at every generation step. This early discretization forces uncertainty to be resolved through token-level sampling, often leading to instability, repetition, and sensitivity to decoding heuristics. In this work, we introduce a continuous autoregressive formulation of language generation in which tokens are represented as continuous vectors that \emph{mature} over multiple update steps before being discretized. Rather than sampling tokens, the model evolves continuous token representations through a deterministic dynamical process, committing to a discrete token only when the representation has sufficiently converged. Discrete text is recovered via hard decoding, while uncertainty is maintained and resolved in the continuous space. We show that this maturation process alone is sufficient to produce coherent and diverse text using deterministic decoding (argmax), without reliance on token-level sampling, diffusion-style denoising, or auxiliary stabilization mechanisms. Additional perturbations, such as stochastic dynamics or history smoothing, can be incorporated naturally but are not required for the model to function. To our knowledge, this is the first autoregressive language model that generates text by evolving continuous token representations to convergence prior to discretization, enabling stable generation without token-level sampling.
- Abstract(参考訳): 自己回帰言語モデルは、通常、個々のトークンシーケンス上で定義され、生成ステップ毎に特定のトークンにコミットする。
この早期の離散化は、トークンレベルのサンプリングを通じて不確実性を解決させ、しばしば不安定性、繰り返し、そしてヒューリスティックの復号化に対する感度をもたらす。
本稿では,複数の更新ステップ上でトークンが連続ベクトルとして表現される言語生成の連続的自己回帰的定式化を導入する。
トークンをサンプリングする代わりに、モデルは決定論的ダイナミックなプロセスを通じて連続的なトークン表現を進化させ、表現が十分に収束した時にのみ離散トークンにコミットする。
離散テキストはハードデコードによって復元され、不確実性は連続空間で維持および解決される。
この成熟過程だけでは,トークンレベルサンプリング,拡散型復調,補助安定化機構に依存することなく,決定論的復号法(argmax)を用いてコヒーレントで多様なテキストを生成することができることを示す。
確率力学や歴史平滑化のような追加の摂動は自然に組み込むことができるが、モデルが機能するためには必要ではない。
我々の知る限り、これは離散化の前に連続トークン表現を収束させてテキストを生成する最初の自己回帰言語モデルであり、トークンレベルサンプリングなしで安定した生成を可能にする。
関連論文リスト
- Just on Time: Token-Level Early Stopping for Diffusion Language Models [0.0]
拡散言語モデルは、しばしば計算的に非効率な反復的洗練を通じてテキストを生成する。
トレーニング不要でトークンレベルの早期停止アプローチを導入し,各位置における収束を独立に識別する。
これにより、タスク固有の微調整をせずに、適応的な各トーケン凍結が得られ、必要な拡散ステップの総数を大幅に削減する。
論文 参考訳(メタデータ) (2026-02-11T18:44:04Z) - Kelix Technical Report [86.64551727600104]
我々は、完全離散自己回帰統一モデルであるKelixを紹介し、離散的および連続的な視覚表現間の理解ギャップを埋める。
最近の研究は、完全自己回帰型マルチモーダルモデリングを可能にするために、離散的な視覚的トークン化を探求している。
論文 参考訳(メタデータ) (2026-02-10T14:48:26Z) - Zonkey: A Hierarchical Diffusion Language Model with Differentiable Tokenization and Probabilistic Attention [0.0]
Zonkeyは階層的な拡散モデルであり、生文字から文書レベルの表現まで、完全にトレーニング可能なパイプラインを通じて制限に対処する。
コアとなるのは、確率的開始順序(BOS)決定を学習する、差別化可能なトークンである。
Zonkeyは、ノイズからコヒーレントで可変長のテキストを生成し、創発的な階層を示す。
論文 参考訳(メタデータ) (2026-01-29T14:17:37Z) - Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - Continuously Augmented Discrete Diffusion model for Categorical Generative Modeling [87.34677262370924]
標準離散拡散モデルは、吸収[MASK]トークンにそれらをマッピングすることで、すべての観測されていない状態を同一に扱う。
これは'インフォメーション・ヴォイド'を生成します。そこでは、偽のトークンから推測できるセマンティック情報は、デノイングステップの間に失われます。
連続的拡張離散拡散(Continuously Augmented Discrete Diffusion)は、連続的な潜在空間における対拡散で離散状態空間を拡大するフレームワークである。
論文 参考訳(メタデータ) (2025-10-01T18:00:56Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [85.82112629564942]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。
本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。
提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文 参考訳(メタデータ) (2025-03-20T17:59:59Z) - Improve Variational Autoencoder for Text Generationwith Discrete Latent
Bottleneck [52.08901549360262]
変分オートエンコーダ(VAE)は、エンドツーエンドの表現学習において必須のツールである。
VAEは強い自己回帰デコーダで潜伏変数を無視する傾向がある。
よりコンパクトな潜在空間において暗黙的な潜在特徴マッチングを強制する原理的アプローチを提案する。
論文 参考訳(メタデータ) (2020-04-22T14:41:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。