論文の概要: WeFT: Weighted Entropy-driven Fine-Tuning for dLLMs
- arxiv url: http://arxiv.org/abs/2509.20863v1
- Date: Thu, 25 Sep 2025 07:55:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.772102
- Title: WeFT: Weighted Entropy-driven Fine-Tuning for dLLMs
- Title(参考訳): WeFT:dLLMの軽量エントロピー駆動ファインチューニング
- Authors: Guowei Xu, Wenxin Xu, Jiawang Zhao, Kaisheng Ma,
- Abstract要約: 拡散言語モデルのための重み付きSFT法であるWeFTを提案し、トークンはエントロピーに基づいて異なる重みを割り当てる。
WFTは、s1K、s1K-1.1および3kサンプルをopen-r1からトレーニングし、広く使用されている4つの推論ベンチマークで標準SFTよりも39%、64%、83%の相対的な改善を達成している。
コードとモデルは公開されます。
- 参考スコア(独自算出の注目度): 26.47103180380179
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion models have recently shown strong potential in language modeling, offering faster generation compared to traditional autoregressive approaches. However, applying supervised fine-tuning (SFT) to diffusion models remains challenging, as they lack precise probability estimates at each denoising step. While the diffusion mechanism enables the model to reason over entire sequences, it also makes the generation process less predictable and often inconsistent. This highlights the importance of controlling key tokens that guide the direction of generation. To address this issue, we propose WeFT, a weighted SFT method for diffusion language models, where tokens are assigned different weights based on their entropy. Derived from diffusion theory, WeFT delivers substantial gains: training on s1K, s1K-1.1, and 3k samples from open-r1, it achieves relative improvements of 39%, 64%, and 83% over standard SFT on four widely used reasoning benchmarks (Sudoku, Countdown, GSM8K, and MATH-500). The code and models will be made publicly available.
- Abstract(参考訳): 拡散モデルは近年、従来の自己回帰的アプローチに比べて高速な生成を提供する言語モデリングにおいて大きな可能性を示している。
しかし,拡散モデルへの教師付き微調整(SFT)の適用は,各段階で正確な確率推定を欠いているため,依然として困難である。
拡散機構は、モデルをシーケンス全体にわたって推論することを可能にするが、生成プロセスの予測が難しく、しばしば矛盾する。
これは生成の方向を導くキートークンを制御することの重要性を強調している。
本稿では,拡散言語モデルのための重み付きSFT手法であるWeFTを提案し,トークンのエントロピーに基づいて異なる重みを割り当てる。
s1K, s1K-1.1, 3kサンプルをopen-r1からトレーニングすることで、広く使用されている4つの推論ベンチマーク(Sudoku, Countdown, GSM8K, MATH-500)で標準SFTよりも39%, 64%, 83%の相対的な改善を実現している。
コードとモデルは公開されます。
関連論文リスト
- DiffusionNFT: Online Diffusion Reinforcement with Forward Process [99.94852379720153]
Diffusion Negative-aware FineTuning (DiffusionNFT) は、フローマッチングを通じて前方プロセス上で直接拡散モデルを最適化する新しいオンラインRLパラダイムである。
DiffusionNFTは、CFGフリーのFlowGRPOよりも25倍効率が高い。
論文 参考訳(メタデータ) (2025-09-19T16:09:33Z) - Discrete Diffusion Models for Language Generation [0.0]
本論文は、自然言語生成のための離散拡散モデルの実現可能性と性能について考察する。
我々は、生成性能を評価するためにBits Per Token(BPT)、Negative Log-Likelihood(NLL)、Perplexity(PPL)、Batch Processing Speedを使用します。
ARモデルは平均BPTが4.59で圧縮性能が向上するが、D3PMは処理速度が向上し、毎秒3.97バッチに達する。
論文 参考訳(メタデータ) (2025-07-02T23:43:02Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Heavy-Tailed Diffusion Models [38.713884992630675]
従来の拡散・流れマッチングモデルでは, 重み付き挙動を捉えることができないことを示す。
ヘビーテール推定のための拡散フレームワークを再利用することで、この問題に対処する。
既存の拡散・流動モデルの拡張である t-EDM と t-Flow を導入する。
論文 参考訳(メタデータ) (2024-10-18T04:29:46Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Q-Diffusion: Quantizing Diffusion Models [52.978047249670276]
ポストトレーニング量子化(PTQ)は、他のタスクに対するゴーツー圧縮法であると考えられている。
本稿では,一意なマルチステップパイプラインとモデルアーキテクチャに適した新しいPTQ手法を提案する。
提案手法は,完全精度の非条件拡散モデルを同等の性能を維持しつつ4ビットに定量化できることを示す。
論文 参考訳(メタデータ) (2023-02-08T19:38:59Z) - Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion
Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。
我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文 参考訳(メタデータ) (2023-01-10T13:15:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。