論文の概要: Enabling Approximate Joint Sampling in Diffusion LMs
- arxiv url: http://arxiv.org/abs/2509.22738v1
- Date: Thu, 25 Sep 2025 21:23:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:18.839377
- Title: Enabling Approximate Joint Sampling in Diffusion LMs
- Title(参考訳): 拡散膜における近似継手サンプリング
- Authors: Parikshit Bansal, Sujay Sanghavi,
- Abstract要約: マスケ拡散言語モデルでは、トークンを順に、そして潜在的に並列にアンマキングすることでテキストを生成する。
本稿では,1つのフルモデルフォワードパスにおいて,関節分布からの複数のトークンのサンプルをエミュレートする方法を考案する。
- 参考スコア(独自算出の注目度): 16.729589221035074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In autoregressive language models, each token is sampled by conditioning on all the past tokens; the overall string has thus been sampled from the correct underlying joint distribution represented by the model. In contrast, masked diffusion language models generate text by unmasking tokens out of order and potentially in parallel. Generating an overall string sampled from the correct underlying joint distribution would (again) require exactly one token unmasking in every full-model forward pass. The more tokens unmasked in parallel, the further away the string is from the true joint; this can be seen in the resulting drop in accuracy (but, increase in speed). In this paper we devise a way to {\em approximately} sample multiple tokens from the joint distribution in a single full-model forward pass; we do so by developing a new lightweight single-layer ``sampler" on top of an existing large diffusion LM. One forward pass of the full model can now be followed by multiple forward passes of only this sampler layer, to yield multiple unmasked tokens. Our sampler is trained to mimic exact joint sampling from the (frozen) full model. We show the effectiveness of our approximate joint sampling for both pretrained-only (Dream-7B-Base) and instruction-tuned (Dream-7B-Instruct) models on language modeling and math \& coding tasks. When four tokens are unmasked for each full-model denoising step, our sampling algorithm achieves a MAUVE score of 0.87 (vs marginal baseline of 0.31) with respect to the true joint distribution.
- Abstract(参考訳): 自己回帰言語モデルでは、各トークンは過去の全てのトークンを条件付けすることでサンプリングされる。
対照的に、マスク付き拡散言語モデルでは、トークンを順番に、そして潜在的に並列にアンマキングすることで、テキストを生成する。
正しい関節分布からサンプリングされた全体文字列を生成するには、すべてのフルモデルフォワードパスで正確に1つのトークンを解き放つ必要がある。
平行に振る舞うトークンが多ければ多いほど、弦は真の関節から遠ざかる。
本稿では,1つのフルモデルフォワードパスにおいて,関節分布から複数のトークンを略してサンプリングする方法を考案し,既存の大規模拡散LM上に新しい軽量単一層「サンプラー」を開発する。
フルモデルの1つのフォワードパスは、このサンプル層のみの複数のフォワードパスによって、複数のアンマスクトークンが生成される。
我々のサンプルは、(凍結した)フルモデルからの正確な関節サンプリングを模倣するように訓練されている。
本研究では,事前学習した(Dream-7B-Base)モデルと命令学習した(Dream-7B-Instruct)モデルの両方に対する近似的な関節サンプリングの有効性を示す。
本アルゴリズムでは, 実関節分布に対するMAUVEスコア0.87(vs marginal baseline of 0.31)を達成する。
関連論文リスト
- Don't Settle Too Early: Self-Reflective Remasking for Diffusion Language Models [40.902681492117786]
RemeDiはマスクベースのDLMで、トークンの分布と各ステップにおけるトークン毎の信頼スコアを予測する。
モデルに不正トークンを検出して再マスクする教師付き微調整を含む、この能力をトレーニングするために、リマスク対応パイプラインをトレーニングします。
実験により、RemeDiは複数のデータセット上のオープンソースのDLMの最先端の結果を達成することが示された。
論文 参考訳(メタデータ) (2025-09-28T05:39:49Z) - Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。
BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。
提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文 参考訳(メタデータ) (2025-06-17T02:37:04Z) - Accelerating Diffusion LLMs via Adaptive Parallel Decoding [50.9948753314669]
並列にサンプリングされたトークンの数を動的に調整する新しい手法であるアダプティブ並列復号法(APD)を導入する。
APDは、ダウンストリームベンチマークで最小限の品質劣化を伴って、非常に高いスループットを提供する。
論文 参考訳(メタデータ) (2025-05-31T06:10:10Z) - Text Generation Beyond Discrete Token Sampling [75.96920867382859]
入力の混合(Mixture of Inputs, MoI)は、自動回帰生成のためのトレーニング不要な方法である。
MoIはQwQ-32B、Nemotron-Super-49B、Gemma-3-27B、DAPO-Qwen-32Bを含む複数のモデルのパフォーマンスを継続的に改善している。
論文 参考訳(メタデータ) (2025-05-20T18:41:46Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Exact Byte-Level Probabilities from Tokenized Language Models for FIM-Tasks and Model Ensembles [23.134664392314264]
トークン化は、言語モデル(LM)における多くの未理解の欠点と関連している。
本研究は, トークン化がモデルとバイトレベルのモデルを比較し比較することによって, モデル性能に与える影響について検討する。
本稿では,学習トークン分布と等価バイトレベル分布とのマッピングを確立するフレームワークであるByte-Token Representation Lemmaを紹介する。
論文 参考訳(メタデータ) (2024-10-11T23:30:42Z) - Score Mismatching for Generative Modeling [4.413162309652114]
そこで我々は,一段階サンプリングを用いた新しいスコアベースモデルを提案する。
我々は、スコアネットワークから逆転した勾配で全ての時間ステップを圧縮するようにスタンドアロンのジェネレータを訓練する。
生成器に有意義な勾配を与えるため、スコアネットワークは実データ分布を同時にマッチングし、偽データ分布を誤マッチするように訓練される。
論文 参考訳(メタデータ) (2023-09-20T03:47:12Z) - Masked Generative Modeling with Enhanced Sampling Scheme [1.3927943269211591]
拡張サンプリングスキーム(ESS)は、サンプルの多様性と忠実さの両方を保証する。
ESSは、Naive Iterative Decoding、Critical Reverse Smpling、Critical Resamplingの3つのステージで構成されている。
非条件サンプリングとクラス条件サンプリングの両方において、ESSの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-09-14T09:42:13Z) - Extreme Masking for Learning Instance and Distributed Visual
Representations [50.152264456036114]
本稿では,個々のトークン上の分散表現を同時に学習するためのスケーラブルなアプローチと,総合的なインスタンス表現を提案する。
分散トークンを表すために自己アテンションブロックを使用し、続いてクロスアテンションブロックを使用して全体インスタンスを集約します。
我々のモデルであるExtreMAは、未成熟なサブセットからのインスタンス表現をトレーニングして、無傷な入力からそれを予測する、プレーンなBYOLアプローチに従っています。
論文 参考訳(メタデータ) (2022-06-09T17:59:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。