論文の概要: Teach Diffusion Language Models to Learn from Their Own Mistakes
- arxiv url: http://arxiv.org/abs/2601.06428v1
- Date: Sat, 10 Jan 2026 05:04:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.810633
- Title: Teach Diffusion Language Models to Learn from Their Own Mistakes
- Title(参考訳): 自己の誤りから学ぶための教師拡散言語モデル
- Authors: Liming Liu, Binxuan Huang, Xin Liu, Bing Yin, Tuo Zhao,
- Abstract要約: Masked Diffusion Language Models (DLM) は、複数のトークンを並列に生成することで、大幅な速度を達成する。
並列サンプリングアプローチでは、強い依存性エラーが発生し、生成ステップのサイズが大きくなるにつれて品質が急速に低下する。
高品質なマルチトークン生成のためのデカップリング自己補正を提案する。
- 参考スコア(独自算出の注目度): 45.68746718883178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked Diffusion Language Models (DLMs) achieve significant speed by generating multiple tokens in parallel. However, this parallel sampling approach, especially when using fewer inference steps, will introduce strong dependency errors and cause quality to deteriorate rapidly as the generation step size grows. As a result, reliable self-correction becomes essential for maintaining high-quality multi-token generation. To address this, we propose Decoupled Self-Correction (DSC), a novel two-stage methodology. DSC first fully optimizes the DLM's generative ability before freezing the model and training a specialized correction head. This decoupling preserves the model's peak SFT performance and ensures the generated errors used for correction head training are of higher quality. Additionally, we introduce Future-Context Augmentation (FCA) to maximize the correction head's accuracy. FCA generalizes the error training distribution by augmenting samples with ground-truth tokens, effectively training the head to utilize a richer, future-looking context. This mechanism is used for reliably detecting the subtle errors of the high-fidelity base model. Our DSC framework enables the model, at inference time, to jointly generate and revise tokens, thereby correcting errors introduced by multi-token generation and mitigating error accumulation across steps. Experiments on mathematical reasoning and code generation benchmarks demonstrate that our approach substantially reduces the quality degradation associated with larger generation steps, allowing DLMs to achieve both high generation speed and strong output fidelity.
- Abstract(参考訳): Masked Diffusion Language Models (DLM) は、複数のトークンを並列に生成することで、大幅な速度を達成する。
しかし、この並列サンプリングアプローチは、特に推論ステップが少ない場合、強い依存性エラーが発生し、生成ステップのサイズが大きくなるにつれて品質が急速に低下する。
結果として、高品質なマルチトークン生成を維持するためには、信頼性の高い自己補正が不可欠となる。
そこで我々は,新しい2段階の手法であるDecoupled Self-Correction (DSC)を提案する。
DSCはまず、モデルを凍結し、特別な修正ヘッドを訓練する前に、DLMの生成能力を完全に最適化する。
このデカップリングは、モデルのピークSFT性能を保ち、修正ヘッドトレーニングに使用される生成されたエラーが高品質であることを保証する。
さらに,補正ヘッドの精度を最大化するために,FCA(Future-Context Augmentation)を導入する。
FCAは,地味なトークンでサンプルを増強することにより,エラートレーニング分布を一般化し,よりリッチで将来的なコンテキストを活用するために,効果的に頭部を訓練する。
この機構は、高忠実度ベースモデルの微妙な誤差を確実に検出するために用いられる。
我々のDSCフレームワークは、推論時に、トークンを共同生成し、修正することで、マルチトークン生成によるエラーを補正し、ステップ間でエラーの蓄積を軽減します。
数式推論とコード生成ベンチマークの実験により、我々の手法は、より大きな生成ステップに関連する品質劣化を著しく低減し、DLMが高生成速度と高出力忠実性の両方を達成することを実証した。
関連論文リスト
- Continuous Autoregressive Language Models [56.49239051750678]
我々はCALM(Continuous Autoregressive Language Models)を紹介する。
CALMは高忠実度オートエンコーダを使用して、Kトークンの塊を1つの連続ベクトルに圧縮する。
我々は、堅牢なトレーニング、評価、および制御可能なサンプリングを可能にする包括的可能性のないフレームワークを開発する。
論文 参考訳(メタデータ) (2025-10-31T17:58:11Z) - From Denoising to Refining: A Corrective Framework for Vision-Language Diffusion Model [72.73512218682187]
ReDiff(Refining-enhanced diffusion framework)は、モデルに自身のエラーを特定し、修正するように教えるフレームワークである。
まず、合成エラーを修正するためにモデルをトレーニングすることで、基礎的なリビジョン機能を具現化し、次に、新しいオンライン自己補正ループを実装します。
この誤り駆動学習は、モデルに既存の出力を再検討し、洗練する重要な能力を与え、エラーカスケードを効果的に破壊する。
論文 参考訳(メタデータ) (2025-10-22T06:58:55Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Hybrid Autoregressive-Diffusion Model for Real-Time Sign Language Production [0.0]
我々は手話生成のための自己回帰モデルと拡散モデルを組み合わせたハイブリッドアプローチを開発する。
微粒な体の動きを捉えるため,異なる音節から細かな特徴を別々に抽出するマルチスケール・ポース表現モジュールを設計した。
ポーズ生成過程を動的に導くために,共同レベルの信頼度スコアを利用する信頼度対応型因果注意機構を導入する。
論文 参考訳(メタデータ) (2025-07-12T01:34:50Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - Fast Autoregressive Models for Continuous Latent Generation [49.079819389916764]
自己回帰モデルは、特にNLPにおいて、シーケンシャルなデータ生成において顕著な成功を収めている。
最近の研究で、マスク付き自己回帰モデル(MAR)は拡散ヘッドを用いて連続空間内のトーケン分布をモデル化することによって量子化をバイパスする。
本稿では,MARの拡散ヘッドを軽量ショートカットヘッドに置き換える新しいフレームワークであるFast AutoRegressive Model (FAR)を提案する。
論文 参考訳(メタデータ) (2025-04-24T13:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。