論文の概要: Reward-Weighted Sampling: Enhancing Non-Autoregressive Characteristics in Masked Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2509.00707v1
- Date: Sun, 31 Aug 2025 05:48:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.355277
- Title: Reward-Weighted Sampling: Enhancing Non-Autoregressive Characteristics in Masked Diffusion LLMs
- Title(参考訳): Reward-Weighted Smpling:Masked Diffusion LLMにおける非自己回帰特性の向上
- Authors: Daehoon Gwak, Minseo Jung, Junwoo Park, Minho Park, ChaeHun Park, Junha Hyung, Jaegul Choo,
- Abstract要約: 仮面拡散モデル (MDMs) は、大規模言語モデリングの非自己回帰的な代替手段として有望なものである。
MDMの標準的な復号法は、各拡散ステップにおける個々のトークンの信頼度に基づいて、独立してトークンを選択する。
本稿では,反復拡散過程において大域的な信号を提供するために,Reward-Weighted Smpling (RWS)を提案する。
- 参考スコア(独自算出の注目度): 44.55861996331439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) offer a promising non-autoregressive alternative for large language modeling. Standard decoding methods for MDMs, such as confidence-based sampling, select tokens independently based on individual token confidences at each diffusion step. However, we observe that this independent token selection often results in generation orders resembling sequential autoregressive processes, limiting the advantages of non-autoregressive modeling. To mitigate this pheonomenon, we propose Reward-Weighted Sampling (RWS), a novel decoding strategy that leverages an external reward model to provide a principled global signal during the iterative diffusion process. Specifically, at each diffusion step, RWS evaluates the quality of the entire intermediate sequence and scales token logits accordingly, guiding token selection by integrating global sequence-level coherence. This method selectively increases the confidence of tokens that initially have lower scores, thereby promoting a more non-autoregressive generation order. Furthermore, we provide theoretical justification showing that reward-weighted logit scaling induces beneficial rank reversals in token selection and consistently improves expected reward. Experiments demonstrate that RWS significantly promotes non-autoregressive generation orders, leading to improvements across multiple evaluation metrics. These results highlight the effectiveness of integrating global signals in enhancing both the non-autoregressive properties and overall performance of MDMs.
- Abstract(参考訳): 仮面拡散モデル (MDMs) は、大規模言語モデリングの非自己回帰的な代替手段として有望なものである。
信頼に基づくサンプリングなどのMDMの標準復号法では、拡散ステップ毎に個々のトークンの信頼度に基づいて独立してトークンを選択する。
しかし、この独立トークン選択は、しばしば連続的な自己回帰的プロセスに似た生成順序をもたらし、非自己回帰的モデリングの利点を制限している。
この現象を緩和するため, 反復拡散過程において, 外部報酬モデルを活用する新しい復号法であるReward-Weighted Sampling (RWS)を提案する。
具体的には、各拡散段階において、RWSは中間系列全体の品質を評価し、それに応じてトークンロジットをスケールし、グローバルシーケンスレベルのコヒーレンスを統合することでトークン選択を導く。
この方法は、最初に低いスコアを持つトークンの信頼度を選択的に増加させ、より非自己回帰的な生成順序を促進させる。
さらに,報酬重み付きロジットスケーリングがトークン選択において有益なランク逆転を誘導し,期待される報酬を継続的に改善することを示す理論的正当性を示す。
実験により、RWSは非自己回帰的な生成順序を著しく促進し、複数の評価指標の改善をもたらすことが示された。
これらの結果は,MDMの非自己回帰特性と全体的な性能の両面において,グローバル信号の統合の有効性を強調した。
関連論文リスト
- Multi-Metric Preference Alignment for Generative Speech Restoration [15.696247605348383]
生成モデルに対するマルチメトリックな選好アライメント戦略を提案する。
3つの異なる生成パラダイムの一貫性と重要なパフォーマンス向上を観察する。
我々のアライメントモデルは強力な'データアノテータ'として機能し、高品質な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2025-08-24T07:05:10Z) - PC-Sampler: Position-Aware Calibration of Decoding Bias in Masked Diffusion Models [33.98279129315148]
マスク付き拡散モデル(MDM)は、シーケンス生成のための強力な非自己回帰的な代替手段である。
本稿では,新しいデコード戦略である位置認識信頼度校正サンプリング(PC-Sampler)を紹介する。
PC-Samplerは、既存のMDMデコード戦略を平均で10%以上上回っている。
論文 参考訳(メタデータ) (2025-08-18T15:38:37Z) - Dynamic and Generalizable Process Reward Modeling [74.36829922727026]
本稿では,細粒度,多次元の報酬基準を捕捉,記憶するための報酬木を特徴とする動的および一般化可能なプロセスリワードモデリング(DG-PRM)を提案する。
実験結果から,DG-PRMは有意なベンチマーク性能を達成し,高い報酬を伴うタスク間のモデル性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-07-23T18:17:22Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Utilizing Multiple Inputs Autoregressive Models for Bearing Remaining
Useful Life Prediction [3.448070371030467]
軸受のRUL予測において,この課題に対処する新しい多入力自己回帰モデルを提案する。
自己回帰反復により、モデルはグローバルな受容場を獲得し、一般化の限界を効果的に克服する。
PMH2012データセットの実証評価では, 同様の自己回帰アプローチを用いたバックボーンネットワークと比較して, ルート平均角誤差(RMSE)とスコアが有意に低いことが示されている。
論文 参考訳(メタデータ) (2023-11-26T09:50:32Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。