論文の概要: Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.01849v1
- Date: Mon, 02 Feb 2026 09:21:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.036578
- Title: Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models
- Title(参考訳): 擬似拡散言語モデルのための自己回帰系列モンテカルロ
- Authors: Ziwei Luo, Ziqi Jin, Lei Wang, Lidong Bing, Thomas B. Schön,
- Abstract要約: 本研究は自己回帰型モンテカルロ(SMC)を提示する。
提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。
粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
- 参考スコア(独自算出の注目度): 58.946955321428845
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work presents self-rewarding sequential Monte Carlo (SMC), an inference-time scaling algorithm enabling effective sampling of masked diffusion language models (MDLMs). Our algorithm stems from the observation that most existing MDLMs rely on a confidence-based sampling strategy, where only tokens with the highest prediction confidence are preserved at each step. This restricts the generation to a noise-sensitive, greedy decoding paradigm, resulting in an inevitable collapse in the diversity of possible paths. We address this problem by launching multiple interacting diffusion processes in parallel, referred to as particles, for trajectory exploration. Importantly, we introduce the trajectory-level confidence as a self-rewarding signal for assigning particle importance weights. During sampling, particles are iteratively weighted and resampled to systematically steer generation towards globally confident, high-quality samples. Our self-rewarding SMC is verified on various masked diffusion language models and benchmarks, achieving significant improvement without extra training or reward guidance, while effectively converting parallel inference capacity into improved sampling quality. Our code is available at https://github.com/Algolzw/self-rewarding-smc.
- Abstract(参考訳): 本研究は,仮面拡散言語モデル(MDLM)の効率的なサンプリングを可能にする推論時間スケーリングアルゴリズムであるモンテカルロ(SMC)を提案する。
提案アルゴリズムは,ほとんどの既存のMDLMが,各ステップで最も高い予測信頼度を持つトークンのみが保存される信頼に基づくサンプリング戦略に依存していることに由来する。
これにより、生成はノイズに敏感で強欲な復号パラダイムに制限され、可能なパスの多様性が必然的に崩壊する。
我々は、軌道探索のために、粒子と呼ばれる複数の相互作用拡散過程を並列に立ち上げることにより、この問題に対処する。
重要なことは,粒子重み付けのための自己回帰信号として,軌道レベルの信頼度を導入することである。
サンプリング中、粒子は反復的に重み付けされ、体系的にステア・ジェネレーションに再サンプリングされる。
我々の自己回帰SMCは、様々なマスク付き拡散言語モデルとベンチマークで検証され、追加のトレーニングや報酬ガイダンスなしで大幅に改善され、並列推論能力はサンプリング品質の向上に効果的に変換される。
私たちのコードはhttps://github.com/Algolzw/self-rewarding-smc.comで公開されています。
関連論文リスト
- dUltra: Ultra-Fast Diffusion Language Models via Reinforcement Learning [36.12942468805232]
マスク付き拡散言語モデルは並列トークン生成の可能性を秘めている。
オープンソースのMDLMは、モデルフォワードパス毎に5トークン未満をデコードする。
dUltraは効率的な並列デコーディングのためのアンマスク戦略を学ぶ。
論文 参考訳(メタデータ) (2025-12-24T23:31:48Z) - Learning Unmasking Policies for Diffusion Language Models [33.44995119635116]
言語モデル(dLLM)は、多くのタスクにおいて、自己回帰的な処理の下流のパフォーマンスにマッチする。
特別なマスクトークンで満たされたバッファが、モデルの語彙からサンプリングされたトークンに徐々に置き換えられる。
本研究では,強化学習を用いたサンプリング手順の訓練を提案する。
論文 参考訳(メタデータ) (2025-12-09T20:44:33Z) - Saber: An Efficient Sampling with Adaptive Acceleration and Backtracking Enhanced Remasking for Diffusion Language Model [98.35868970993232]
拡散言語モデル(DLM)は、支配的な自己回帰パラダイムに代わる強力で有望な選択肢として現れています。
コード生成における推論速度と出力品質の向上を実現するために,適応加速度を用いた効率的なサンプリングとバックトラック強化リマッシング(セイバー)を導入する。
論文 参考訳(メタデータ) (2025-10-20T23:38:12Z) - Reward-Weighted Sampling: Enhancing Non-Autoregressive Characteristics in Masked Diffusion LLMs [44.55861996331439]
仮面拡散モデル (MDMs) は、大規模言語モデリングの非自己回帰的な代替手段として有望なものである。
MDMの標準的な復号法は、各拡散ステップにおける個々のトークンの信頼度に基づいて、独立してトークンを選択する。
本稿では,反復拡散過程において大域的な信号を提供するために,Reward-Weighted Smpling (RWS)を提案する。
論文 参考訳(メタデータ) (2025-08-31T05:48:30Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - CamoDiffusion: Camouflaged Object Detection via Conditional Diffusion
Models [72.93652777646233]
カモフラーゲ型物体検出(COD)は、カモフラーゲ型物体とその周囲の類似性が高いため、コンピュータビジョンにおいて難しい課題である。
本研究では,CODを拡散モデルを利用した条件付きマスク生成タスクとして扱う新しいパラダイムを提案する。
カモ拡散(CamoDiffusion)と呼ばれる本手法では,拡散モデルのデノナイズプロセスを用いてマスクの雑音を反復的に低減する。
論文 参考訳(メタデータ) (2023-05-29T07:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。