論文の概要: Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding
- arxiv url: http://arxiv.org/abs/2508.19529v1
- Date: Wed, 27 Aug 2025 02:49:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-28 19:07:41.473076
- Title: Blockwise SFT for Diffusion Language Models: Reconciling Bidirectional Attention and Autoregressive Decoding
- Title(参考訳): 拡散言語モデルのためのブロックワイズSFT:双方向注意と自己回帰復号の再構成
- Authors: Bowen Sun, Yujun Cai, Ming-Hsuan Yang, Yiwei Wang,
- Abstract要約: 離散拡散言語モデルは、テキスト生成に強い可能性を示している。
半自己回帰推論による微調整ミスアライメントの標準化
我々は、応答を固定サイズブロックに分割するBlockwise SFTを提案する。
- 参考スコア(独自算出の注目度): 60.06816407728172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Discrete diffusion language models have shown strong potential for text generation, yet standard supervised fine-tuning (SFT) misaligns with their semi-autoregressive inference: training randomly masks tokens across the entire response, while inference generates fixed-size blocks sequentially. This mismatch introduces noisy prefixes and leaky suffixes, biasing gradients away from the desired blockwise likelihood. We propose Blockwise SFT, which partitions responses into fixed-size blocks, selects one active block per step for stochastic masking, freezes all preceding tokens, and fully hides future ones. Loss is computed only over the active block, directly mirroring the blockwise decoding process. Experiments on GSM8K, MATH, and MetaMathQA show consistent gains over classical SFT under equal compute or token budgets. Block size consistency studies and ablations confirm that improvements stem from faithful training-inference alignment rather than incidental masking effects. Our results highlight the importance of matching supervision granularity to the decoding procedure in diffusion-based language models.
- Abstract(参考訳): 離散拡散言語モデルは、テキスト生成に強い可能性を示しているが、標準教師付き微調整(SFT)は、半自己回帰的推論(英語版)と誤認している: ランダムにトークンをランダムにマスクし、推論は固定サイズのブロックを逐次生成する。
このミスマッチはノイズの多い接頭辞と漏れた接尾辞を導入し、望ましいブロックワイズから勾配を逸脱させる。
提案するBlockwise SFTは,応答を固定サイズブロックに分割し,確率的マスキングのために1ステップに1つのアクティブブロックを選択し,先行するトークンをすべて凍結し,将来のブロックを完全に隠蔽する。
ロスはアクティブブロック上でのみ計算され、ブロック単位の復号プロセスを直接反映する。
GSM8K、MATH、MetaMathQAの実験では、同じ計算やトークンの予算の下で古典的なSFTよりも一貫した利得を示している。
ブロックサイズ整合性の研究と改善は、改善が偶発的なマスキング効果よりも忠実なトレーニング-推論アライメントに起因していることを確認する。
この結果から,拡散型言語モデルにおける復号処理の監督的粒度マッチングの重要性が浮き彫りになった。
関連論文リスト
- Plan for Speed: Dilated Scheduling for Masked Diffusion Language Models [13.575063025878208]
マスク付き拡散言語モデルは高速で非自己回帰的なテキスト生成を約束する。
モデルの信頼性に基づいてアンマスクするトークンを選択する既存のサンプルは、複数の位置を並列にアンマスクする際のインタラクションを無視する。
DUS(Dilated Unmasking Scheduler)は、列位置を非隣接拡張群に分割し、それらを並列に分割する推論のみのプランナーフリーな手法である。
論文 参考訳(メタデータ) (2025-06-23T18:49:23Z) - DiffusionAttacker: Diffusion-Driven Prompt Manipulation for LLM Jailbreak [51.8218217407928]
大規模言語モデル (LLM) は、慎重に入力を行うと有害なコンテンツを生成する可能性がある。
本稿では,拡散モデルにインスパイアされたジェイルブレイク書き換えのためのエンドツーエンド生成手法であるDiffusionAttackerを紹介する。
論文 参考訳(メタデータ) (2024-12-23T12:44:54Z) - MaskGCT: Zero-Shot Text-to-Speech with Masked Generative Codec Transformer [9.100416536151869]
Masked Generative Codec Transformer (MaskGCT) は完全に非自己回帰型テキスト音声変換モデルである。
MaskGCTは、テキストと音声の監督、および電話レベルの持続時間予測の明示的なアライメント情報を必要としない。
100K時間以内の実験では、MaskGCTが現在の最先端のゼロショットTSシステムより優れていたことが示されている。
論文 参考訳(メタデータ) (2024-09-01T15:26:30Z) - Exploring and Improving Drafts in Blockwise Parallel Decoding [37.295672367973886]
言語モデルの推論速度を改善する手法として,Sternらによりブロックワイド並列復号法 (BPD) が提案された。
本稿では,ブロックドラフトの理解と改善に2つの方法で貢献する。
改良されたブロックドラフトは、ブロック効率が+5-21%向上することを示した。
論文 参考訳(メタデータ) (2024-04-14T11:49:38Z) - BASS: Block-wise Adaptation for Speech Summarization [47.518484305407185]
本研究では,非常に長い列の要約モデルを漸進的に訓練する手法を開発した。
音声要約はストリーミングプロセスとして実現され、各ブロック毎に仮説要約が更新される。
How2データセットの実験により、提案したブロックワイドトレーニング手法は、乱れた入力ベースライン上のROUGE-L上で絶対的に3ポイント向上することを示した。
論文 参考訳(メタデータ) (2023-07-17T03:31:36Z) - Streaming End-to-End ASR based on Blockwise Non-Autoregressive Models [57.20432226304683]
非自己回帰(NAR)モデリングは、音声処理においてますます注目を集めている。
エンドツーエンドのNAR音声認識システムを提案する。
提案手法は低レイテンシ条件下でのオンラインASR認識を改善する。
論文 参考訳(メタデータ) (2021-07-20T11:42:26Z) - Fast End-to-End Speech Recognition via a Non-Autoregressive Model and
Cross-Modal Knowledge Transferring from BERT [72.93855288283059]
LASO (Listen Attentively, and Spell Once) と呼ばれる非自動回帰音声認識モデルを提案する。
モデルは、エンコーダ、デコーダ、および位置依存集合体(PDS)からなる。
論文 参考訳(メタデータ) (2021-02-15T15:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。