論文の概要: Language Modeling with Hyperspherical Flows
- arxiv url: http://arxiv.org/abs/2605.11125v2
- Date: Sat, 16 May 2026 19:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.267928
- Title: Language Modeling with Hyperspherical Flows
- Title(参考訳): 超球面流れを用いた言語モデリング
- Authors: Justin Deschenaux, Caglar Gulcehre,
- Abstract要約: 近年のフロー言語モデル (FLM) は連続的な流れを言語に適用し、決定論的ODEを持つデータにノイズを伝達する。
$mathbbS$-FLMは、クロスエントロピーで学習した速度場に沿って$mathbbSd-1$の回転ベクトルによってシーケンスを生成する。
$mathbbS$-FLMは、大語彙推論における連続フロー言語モデルを大幅に改善する。
- 参考スコア(独自算出の注目度): 12.083218729202963
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete Diffusion Language Models progressed rapidly as an alternative to autoregressive (AR) models, motivated by their parallel generation abilities. However, for tractability, discrete diffusion models sample from a factorized distribution, which is less expressive than AR. Recent Flow Language Models (FLMs) apply continuous flows to language, transporting noise to data with a deterministic ODE that avoids factorized sampling. FLMs operate on one-hot vectors whose dimension scales with the vocabulary size, making FLMs costly to train. Moreover, since all distinct one-hot embeddings are equidistant in $\ell_2$, adding Gaussian noise does not have a clear semantic interpretation (unlike images, where Gaussian noise progressively degrades structure). We introduce $\mathbb{S}$-FLM, a latent FLM in the hypersphere. $\mathbb{S}$-FLM generates sequences by rotating vectors in $\mathbb{S}^{d-1}$ along a velocity field learned with cross-entropy, avoiding the overhead of materializing one-hot vectors. Previous FLMs match AR in Generative Perplexity (Gen.\ PPL), but samples with high likelihood are not necessarily correct in verifiable domains such as math and code. $\mathbb{S}$-FLM substantially improves continuous flow language models on large-vocabulary reasoning and closes the gap to masked diffusion under standard-temperature sampling ($T=1$), while a gap remains under optimized low-temperature ($T=0.1$) decoding.
- Abstract(参考訳): 離散拡散言語モデルは、その並列生成能力によって動機付けられた自己回帰(AR)モデルに代わるものとして急速に進歩した。
しかし、トラクタビリティでは、ARよりも表現力の低い因子分布から離散拡散モデルがサンプリングされる。
近年のフロー言語モデル (FLM) は連続的な流れを言語に適用し、分解されたサンプリングを避ける決定論的ODEでデータにノイズを伝達する。
FLMは、語彙サイズで寸法がスケールする1ホットベクトルで動作し、FLMを訓練するのにコストがかかる。
さらに、全ての異なる1ホット埋め込みは$\ell_2$に等しいので、ガウスノイズを追加することは明確な意味解釈を持たない(ガウスノイズが徐々に構造を劣化させるような画像とは違って)。
超球面の潜伏FLMである$\mathbb{S}$-FLMを導入する。
$\mathbb{S}$-FLM は、1ホットベクトルを物質化するオーバーヘッドを避けるために、クロスエントロピーで学習した速度場に沿って $\mathbb{S}^{d-1}$ の回転ベクトルによってシーケンスを生成する。
以前のFLMはジェネレーティブ・パープレクティビティ(ジェネラル・パープレクティ)のARにマッチする。
しかし、高い確率のサンプルは必ずしも数学やコードのような検証可能な領域では正しいとは限らない。
$\mathbb{S}$-FLMは、大語彙推論の連続フロー言語モデルを大幅に改善し、標準温度サンプリング(T=1$)の下でマスク拡散のギャップを閉じる。
関連論文リスト
- Towards Closing the Autoregressive Gap in Language Modeling via Entropy-Gated Continuous Bitstream Diffusion [14.692250535148196]
拡散言語モデル(DLM)は並列で順序に依存しない生成を約束するが、歴史的にはサンプルの品質と多様性において自己回帰モデルに遅れを取ってきた。
トークン埋め込みに対する最近の連続流れと拡散アプローチは、このギャップを狭め、連続状態空間が言語に非常に有効であることを示唆している。
本研究では,テキストを固定幅のバイナリビットストリーム上での連続拡散プロセスとしてモデル化することにより,自己回帰的ギャップをさらに埋める。
論文 参考訳(メタデータ) (2026-05-07T22:50:51Z) - Total Variation Rates for Riemannian Flow Matching [8.235086108564998]
RFMサンプリングのための漸近的トータル変分解析法を開発した。
我々の重要な技術的要素は、2つの多様体ODEフロー間のTVの進化を管理する微分不等式である。
論文 参考訳(メタデータ) (2026-02-05T01:06:53Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Local Flow Matching Generative Models [19.859984725284896]
フローマッチング(英: Flow Matching, FM)は、2つの分布を補間する連続的かつ非可逆的な流れを学習するためのシミュレーション不要な手法である。
FMサブモデルのシーケンスを連続的に学習するLFM(Local Flow Matching)と呼ばれるステップワイズFMモデルを提案する。
FMと比較して, LFMの訓練効率と競争的生成性能の改善を実証的に実証した。
論文 参考訳(メタデータ) (2024-10-03T14:53:10Z) - A Sharp Convergence Theory for The Probability Flow ODEs of Diffusion Models [45.60426164657739]
拡散型サンプリング器の非漸近収束理論を開発する。
我々は、$d/varepsilon$がターゲット分布を$varepsilon$トータル偏差距離に近似するのに十分であることを証明した。
我々の結果は、$ell$のスコア推定誤差がデータ生成プロセスの品質にどのように影響するかも特徴付ける。
論文 参考訳(メタデータ) (2024-08-05T09:02:24Z) - Amortizing intractable inference in diffusion models for vision, language, and control [89.65631572949702]
本稿では,p(mathbfx)$以前の拡散生成モデルとブラックボックス制約,あるいは関数$r(mathbfx)$からなるモデルにおいて,データ上の後部サンプルである $mathbfxsim prm post(mathbfx)propto p(mathbfx)r(mathbfx)$について検討する。
我々は,データフリー学習目標である相対軌道バランスの正しさを,サンプルから抽出した拡散モデルの訓練のために証明する。
論文 参考訳(メタデータ) (2024-05-31T16:18:46Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Structured Denoising Diffusion Models in Discrete State-Spaces [15.488176444698404]
本稿では離散化拡散確率モデル(D3PM)を離散データに適用する。
遷移行列の選択は、画像およびテキスト領域における結果の改善につながる重要な設計決定である。
テキストでは、このモデルクラスは、LM1B上の大きな語彙にスケールしながら、文字レベルのテキスト生成に強い結果をもたらす。
論文 参考訳(メタデータ) (2021-07-07T04:11:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。