論文の概要: Reward-Weighted Sampling: Enhancing Non-Autoregressive Characteristics in Masked Diffusion LLMs
- arxiv url: http://arxiv.org/abs/2509.00707v2
- Date: Sat, 20 Sep 2025 05:43:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 14:36:45.559205
- Title: Reward-Weighted Sampling: Enhancing Non-Autoregressive Characteristics in Masked Diffusion LLMs
- Title(参考訳): Reward-Weighted Smpling:Masked Diffusion LLMにおける非自己回帰特性の向上
- Authors: Daehoon Gwak, Minseo Jung, Junwoo Park, Minho Park, ChaeHun Park, Junha Hyung, Jaegul Choo,
- Abstract要約: 仮面拡散モデル (MDMs) は、大規模言語モデリングの非自己回帰的な代替手段として有望なものである。
MDMの標準的な復号法は、各拡散ステップにおける個々のトークンの信頼度に基づいて、独立してトークンを選択する。
本稿では,反復拡散過程において大域的な信号を提供するために,Reward-Weighted Smpling (RWS)を提案する。
- 参考スコア(独自算出の注目度): 44.55861996331439
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Masked diffusion models (MDMs) offer a promising non-autoregressive alternative for large language modeling. Standard decoding methods for MDMs, such as confidence-based sampling, select tokens independently based on individual token confidences at each diffusion step. However, we observe that this independent token selection often results in generation orders resembling sequential autoregressive processes, limiting the advantages of non-autoregressive modeling. To mitigate this pheonomenon, we propose Reward-Weighted Sampling (RWS), a novel decoding strategy that leverages an external reward model to provide a principled global signal during the iterative diffusion process. Specifically, at each diffusion step, RWS evaluates the quality of the entire intermediate sequence and scales token logits accordingly, guiding token selection by integrating global sequence-level coherence. This method selectively increases the confidence of tokens that initially have lower scores, thereby promoting a more non-autoregressive generation order. Furthermore, we provide theoretical justification showing that reward-weighted logit scaling induces beneficial rank reversals in token selection and consistently improves expected reward. Experiments demonstrate that RWS significantly promotes non-autoregressive generation orders, leading to improvements across multiple evaluation metrics. These results highlight the effectiveness of integrating global signals in enhancing both the non-autoregressive properties and overall performance of MDMs.
- Abstract(参考訳): 仮面拡散モデル (MDMs) は、大規模言語モデリングの非自己回帰的な代替手段として有望なものである。
信頼に基づくサンプリングなどのMDMの標準復号法では、拡散ステップ毎に個々のトークンの信頼度に基づいて独立してトークンを選択する。
しかし、この独立トークン選択は、しばしば連続的な自己回帰的プロセスに似た生成順序をもたらし、非自己回帰的モデリングの利点を制限している。
この現象を緩和するため, 反復拡散過程において, 外部報酬モデルを活用する新しい復号法であるReward-Weighted Sampling (RWS)を提案する。
具体的には、各拡散段階において、RWSは中間系列全体の品質を評価し、それに応じてトークンロジットをスケールし、グローバルシーケンスレベルのコヒーレンスを統合することでトークン選択を導く。
この方法は、最初に低いスコアを持つトークンの信頼度を選択的に増加させ、より非自己回帰的な生成順序を促進させる。
さらに,報酬重み付きロジットスケーリングがトークン選択において有益なランク逆転を誘導し,期待される報酬を継続的に改善することを示す理論的正当性を示す。
実験により、RWSは非自己回帰的な生成順序を著しく促進し、複数の評価指標の改善をもたらすことが示された。
これらの結果は,MDMの非自己回帰特性と全体的な性能の両面において,グローバル信号の統合の有効性を強調した。
関連論文リスト
- Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文 参考訳(メタデータ) (2026-02-02T09:21:45Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - STDD:Spatio-Temporal Dynamics-Driven Token Refinement in Diffusion Language Models [12.172699141988728]
拡散言語モデル(DLM)は、すべてのトークン位置を並列に反復的に記述することでテキストを生成する。
本稿では,各トークンの時間変動と空間偏差を動的に検出する新しいリマキング手法を提案する。
我々のアプローチは、主要なデータセット間でのDLMの運用効率を大幅に改善し、最大8.9倍のスピードアップを実現します。
論文 参考訳(メタデータ) (2025-12-07T12:53:48Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - Improving Deepfake Detection with Reinforcement Learning-Based Adaptive Data Augmentation [60.04281435591454]
CRDA(Curriculum Reinforcement-Learning Data Augmentation)は、マルチドメインの偽造機能を段階的にマスターするための検出器を導く新しいフレームワークである。
私たちのアプローチの中心は、強化学習と因果推論を統合することです。
提案手法は検出器の一般化性を大幅に向上し,複数のクロスドメインデータセット間でSOTA法より優れている。
論文 参考訳(メタデータ) (2025-11-10T12:45:52Z) - Consolidating Reinforcement Learning for Multimodal Discrete Diffusion Models [40.82263997290613]
離散拡散においてスケーラブルなマルチモーダル強化学習を実現するための,最初の実行可能なアプローチであるMaskGRPOを紹介する。
MaskGRPOはより安定的で効率的なアップデートをもたらし、推論性能が向上し、世代品質が向上する。
論文 参考訳(メタデータ) (2025-10-03T10:36:24Z) - Multi-Metric Preference Alignment for Generative Speech Restoration [15.696247605348383]
生成モデルに対するマルチメトリックな選好アライメント戦略を提案する。
3つの異なる生成パラダイムの一貫性と重要なパフォーマンス向上を観察する。
我々のアライメントモデルは強力な'データアノテータ'として機能し、高品質な擬似ラベルを生成する。
論文 参考訳(メタデータ) (2025-08-24T07:05:10Z) - PC-Sampler: Position-Aware Calibration of Decoding Bias in Masked Diffusion Models [33.98279129315148]
マスク付き拡散モデル(MDM)は、シーケンス生成のための強力な非自己回帰的な代替手段である。
本稿では,新しいデコード戦略である位置認識信頼度校正サンプリング(PC-Sampler)を紹介する。
PC-Samplerは、既存のMDMデコード戦略を平均で10%以上上回っている。
論文 参考訳(メタデータ) (2025-08-18T15:38:37Z) - Dynamic and Generalizable Process Reward Modeling [74.36829922727026]
本稿では,細粒度,多次元の報酬基準を捕捉,記憶するための報酬木を特徴とする動的および一般化可能なプロセスリワードモデリング(DG-PRM)を提案する。
実験結果から,DG-PRMは有意なベンチマーク性能を達成し,高い報酬を伴うタスク間のモデル性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-07-23T18:17:22Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Reviving Any-Subset Autoregressive Models with Principled Parallel Sampling and Speculative Decoding [55.2480439325792]
任意の順序言語モデルでは、正しい関節分布からトークンを並列にサンプリングする方法がオープンな問題である。
我々は,任意のサブセット自動回帰モデル (AS-ARM) という,異なるモデルのクラスが解を持っていることを発見した。
我々は,AS-ARMがベンチマークタスクを埋め込んだ200M未満のパラメータモデル間で最先端の性能を実現し,コード生成における50倍のモデルの性能とほぼ一致していることを示す。
論文 参考訳(メタデータ) (2025-04-29T06:33:13Z) - Steering Masked Discrete Diffusion Models via Discrete Denoising Posterior Prediction [88.65168366064061]
本稿では,確率論的推論の課題として,事前学習したMDMを操る作業を行う新しいフレームワークであるDDPPを紹介する。
私たちのフレームワークは、3つの新しい目標のファミリーにつながります。
Wet-lab Validation(ウェット・ラブ・バリデーション)を用いて,報酬最適化タンパク質配列の過渡的発現を観察する。
論文 参考訳(メタデータ) (2024-10-10T17:18:30Z) - Utilizing Multiple Inputs Autoregressive Models for Bearing Remaining
Useful Life Prediction [3.448070371030467]
軸受のRUL予測において,この課題に対処する新しい多入力自己回帰モデルを提案する。
自己回帰反復により、モデルはグローバルな受容場を獲得し、一般化の限界を効果的に克服する。
PMH2012データセットの実証評価では, 同様の自己回帰アプローチを用いたバックボーンネットワークと比較して, ルート平均角誤差(RMSE)とスコアが有意に低いことが示されている。
論文 参考訳(メタデータ) (2023-11-26T09:50:32Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Sparse Model Soups: A Recipe for Improved Pruning via Model Averaging [24.64264715041198]
Sparse Model Soups (SMS) は,各プルー・リトレインサイクルを前フェーズから平均モデルに開始することでスパースモデルをマージする新しい手法である。
SMSはスパース性を保ち、スパースネットワークの利点を悪用し、モジュール化され、完全に並列化可能であり、IMPのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2023-06-29T08:49:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。