Fugu-MT 論文翻訳(概要): Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching

論文の概要: Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching

arxiv url: http://arxiv.org/abs/2602.22871v1
Date: Thu, 26 Feb 2026 11:08:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-27 18:41:22.656522
Title: Test-Time Scaling with Diffusion Language Models via Reward-Guided Stitching
Title（参考訳）: Reward-Guided Stitchingによる拡散言語モデルによるテスト時間スケーリング
Authors: Roy Miles, Aysim Toker, Andreea-Maria Oncescu, Songcen Xu, Jiankang Deng, Ismail Elezi,
Abstract要約: 本稿では,安価な拡散サンプリング推論をステップレベル候補の再利用プールに変換する自己整合性フレームワークを提案する。ステップレベルの再結合は、難しい問題に対して最も有益であることがわかった。トレーニング不要のフレームワークは、6つの数学およびコーディングタスクの平均精度を最大2倍改善します。
参考スコア（独自算出の注目度）: 66.39914384073145
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Reasoning with large language models often benefits from generating multiple chains-of-thought, but existing aggregation strategies are typically trajectory-level (e.g., selecting the best trace or voting on the final answer), discarding useful intermediate work from partial or "nearly correct" attempts. We propose Stitching Noisy Diffusion Thoughts, a self-consistency framework that turns cheap diffusion-sampled reasoning into a reusable pool of step-level candidates. Given a problem, we (i) sample many diverse, low-cost reasoning trajectories using a masked diffusion language model, (ii) score every intermediate step with an off-the-shelf process reward model (PRM), and (iii) stitch these highest-quality steps across trajectories into a composite rationale. This rationale then conditions an autoregressive (AR) model (solver) to recompute only the final answer. This modular pipeline separates exploration (diffusion) from evaluation and solution synthesis, avoiding monolithic unified hybrids while preserving broad search. Across math reasoning benchmarks, we find that step-level recombination is most beneficial on harder problems, and ablations highlight the importance of the final AR solver in converting stitched but imperfect rationales into accurate answers. Using low-confidence diffusion sampling with parallel, independent rollouts, our training-free framework improves average accuracy by up to 23.8% across six math and coding tasks. At the same time, it achieves up to a 1.8x latency reduction relative to both traditional diffusion models (e.g., Dream, LLaDA) and unified architectures (e.g., TiDAR). Code is available at https://github.com/roymiles/diffusion-stitching.
Abstract（参考訳）: 大きな言語モデルによる推論は、しばしば複数のチェーン・オブ・シントを生成することの恩恵を受けるが、既存の集約戦略は通常、トラジェクトリレベル(例えば、ベストトレースの選択や最終回答の投票など)であり、部分的あるいは"ほぼ正しい"試みから有用な中間作業を捨てる。我々は、安価な拡散サンプリング推論をステップレベルの候補の再利用プールに変える自己整合性フレームワークであるStitching Noisy Diffusion Thoughtsを提案する。問題があれば、私たちは (i)マスク拡散言語モデルを用いた多種多様な低コスト推論軌道のサンプル。 (二)オフ・ザ・プロセス報酬モデル(PRM)による各中間段階のスコア、及び (三)これら軌道にまたがる高品質な工程を複合的理性に縫い合わせること。この論理は、最終解のみを再計算するために自己回帰(AR)モデル(ソルバ)を条件付ける。このモジュールパイプラインは、探索(拡散)と評価とソリューション合成を分離し、広い探索を維持しながらモノリシックな統合ハイブリッドを回避する。数学推論ベンチマーク全体では、ステップレベルの再結合は難しい問題に対して最も有益であることが分かり、縫合されたが不完全な有理を正確な解に変換する上での最終的なARソルバの重要性が強調された。並列で独立したロールアウトによる低信頼拡散サンプリングを用いて、6つの数学およびコーディングタスクの平均精度を最大23.8%向上させる。同時に、従来の拡散モデル(例:Dream、LLaDA)と統合アーキテクチャ(例:TiDAR)の両方と比較して最大1.8倍のレイテンシ低減を実現している。コードはhttps://github.com/roymiles/diffusion-stitching.comで入手できる。

関連論文リスト

Free Lunch for Pass@$k$? Low Cost Diverse Sampling for Diffusion Language Models [17.37935640125399]
本稿では,拡散言語モデルにおける生成多様性を高めるための,無償で低コストな介入手法を提案する。提案手法は, 各サンプルが前回のサンプルの特徴空間から反発されるような, バッチ内の中間サンプルを逐次修正する。リトレーニングやビームサーチを必要とする従来の方法とは異なり、我々の戦略は無視できる計算オーバーヘッドを発生させる。
論文参考訳（メタデータ） (2026-03-05T07:35:07Z)
Self-Rewarding Sequential Monte Carlo for Masked Diffusion Language Models [58.946955321428845]
本研究は自己回帰型モンテカルロ(SMC)を提示する。提案アルゴリズムは,既存のMDLMのほとんどが信頼性に基づくサンプリング戦略に依存している点に起因している。粒子重み付けのための自己回帰信号として軌道レベルの信頼性を導入する。
論文参考訳（メタデータ） (2026-02-02T09:21:45Z)
Efficiency vs. Fidelity: A Comparative Analysis of Diffusion Probabilistic Models and Flow Matching on Low-Resource Hardware [0.0]
Denoising Diffusion Probabilistic Models (DDPMs) は、生成画像合成における新しい最先端技術を確立した。本研究では,新たなフローマッチングパラダイムに対するDDPMの比較分析を行った。
論文参考訳（メタデータ） (2025-11-24T18:19:42Z)
RFG: Test-Time Scaling for Diffusion Large Language Model Reasoning with Reward-Free Guidance [101.30279597148973]
プロセス報酬を明示せずにdLLMの推論軌道を導出するためのRFGを提案する。 RFGは、すべてのタスクとモデルタイプに一貫して大きな改善をもたらし、最大9.2%の精度向上を実現している。
論文参考訳（メタデータ） (2025-09-29T23:59:16Z)
Accelerating LLM Reasoning via Early Rejection with Partial Reward Modeling [12.835376812101323]
PRMも部分的リワードモデルであるという仮説を導入する。これにより、中間トークンレベル信号に基づく原理的な早期拒絶が可能となる。算数推論のベンチマークでは、最終的な性能を劣化させることなく、最大1.4$times$-9$times$の推論FLOPを削減できる。
論文参考訳（メタデータ） (2025-08-04T00:58:56Z)
Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文参考訳（メタデータ） (2025-07-11T08:00:47Z)
ReCUT: Balancing Reasoning Length and Accuracy in LLMs via Stepwise Trails and Preference Optimization [16.51303604678232]
Reasoning Compression ThroUgh Stepwise Trials (ReCUT) は推論軌道の精度と長さのバランスをとるための新しい手法である。複数の数学推論データセットとバックボーンモデルによる実験結果から、ReCUTは推論の長さを約30～50%削減することが示された。
論文参考訳（メタデータ） (2025-06-12T15:43:01Z)
Fractured Chain-of-Thought Reasoning [61.647243580650446]
完全CoTと解のみのサンプリングを補間する統合推論時間戦略であるフラクチャードサンプリングを導入する。フラクチャードサンプリングは、Pass@kとトークンの予算に対して、急激なログ線形スケーリングゲインをもたらすため、優れた精度とコストのトレードオフを一貫して達成できることを示す。
論文参考訳（メタデータ） (2025-05-19T11:30:41Z)
Self-Refining Diffusion Samplers: Enabling Parallelization via Parareal Iterations [53.180374639531145]
自己精製拡散サンプリング(SRDS)は、サンプル品質を維持し、追加の並列計算コストでレイテンシを向上させることができる。微分方程式の並列時間積分法であるPararealアルゴリズムから着想を得た。
論文参考訳（メタデータ） (2024-12-11T11:08:09Z)
DCR: Divide-and-Conquer Reasoning for Multi-choice Question Answering with LLMs [9.561022942046279]
大規模言語モデル(LLM)の推論能力を高めるため,DCR(Divide and Conquer Reasoning)を提案する。まず、信頼性スコア(mathcalCS$)に基づいて質問を2つのサブセットに分類する。特に,質問を信頼性スコア(mathcalCS$)に基づいて2つのサブセットに分類する。
論文参考訳（メタデータ） (2024-01-10T14:38:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。