論文の概要: Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2602.01842v1
- Date: Mon, 02 Feb 2026 09:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.030429
- Title: Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models
- Title(参考訳): Prism: 離散拡散言語モデルのための階層探索と自己検証による効率的なテスト時間スケーリング
- Authors: Jinbin Bai, Yixuan Li, Yuchen Zhu, Yi Xin, Qingyu Shi, Aosong Feng, Xiaohong Liu, Molei Tao, Jianru Xue, Xiangtai Li, Ming-Hsuan Yang,
- Abstract要約: LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
- 参考スコア(独自算出の注目度): 96.0074341403456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Inference-time compute has re-emerged as a practical way to improve LLM reasoning. Most test-time scaling (TTS) algorithms rely on autoregressive decoding, which is ill-suited to discrete diffusion language models (dLLMs) due to their parallel decoding over the entire sequence. As a result, developing effective and efficient TTS methods to unlock dLLMs' full generative potential remains an underexplored challenge. To address this, we propose Prism (Pruning, Remasking, and Integrated Self-verification Method), an efficient TTS framework for dLLMs that (i) performs Hierarchical Trajectory Search (HTS) which dynamically prunes and reallocates compute in an early-to-mid denoising window, (ii) introduces Local branching with partial remasking to explore diverse implementations while preserving high-confidence tokens, and (iii) replaces external verifiers with Self-Verified Feedback (SVF) obtained via self-evaluation prompts on intermediate completions. Across four mathematical reasoning and code generation benchmarks on three dLLMs, including LLaDA 8B Instruct, Dream 7B Instruct, and LLaDA 2.0-mini, our Prism achieves a favorable performance-efficiency trade-off, matching best-of-N performance with substantially fewer function evaluations (NFE). The code is released at https://github.com/viiika/Prism.
- Abstract(参考訳): LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング (TTS) のアルゴリズムの多くは自動回帰デコーディングに依存しており、このアルゴリズムは配列全体の並列デコーディングのために離散拡散言語モデル (dLLM) に不適である。
結果として、dLLMsの完全な生成能を解き放つための効率的かつ効率的なTS法の開発は、未発見の課題である。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism (Pruning, Remasking, and Integrated Self-verification Method) を提案する。
i) 階層的軌道探索(Hierarchical Trajectory Search, HTS)を実行する。
(II)高信頼トークンを保持しつつ、多種多様な実装を探索する部分リマキングによるローカルブランチを導入し、
(iii) 中間完了時の自己評価プロンプトによって得られた自己検証フィードバック(SVF)を外部検証器に置き換える。
LLaDA 8B Instruct、Dream 7B Instruct、LLaDA 2.0-miniを含む3つのdLLM上の4つの数学的推論およびコード生成ベンチマークにおいて、我々のPrismは、NFE ( best-of-N performance) とほぼ少ない関数評価(英語版) (NFE) に適合する、良好な性能と効率のトレードオフを達成する。
コードはhttps://github.com/viiika/Prism.comで公開されている。
関連論文リスト
- S3-CoT: Self-Sampled Succinct Reasoning Enables Efficient Chain-of-Thought LLMs [48.80914119283909]
チェーン・オブ・シークレット(CoT)を備えた大規模言語モデルは、強力なパフォーマンスを実現し、振る舞いの窓を提供する。
最近の証拠は、CoT能力の改善には冗長な推論プロセスが伴うことを示唆している。
本研究では,効率的なCoT学習のためのアクティベーションステアリングに基づく自己サンプリングフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-02T11:37:36Z) - dMLLM-TTS: Self-Verified and Efficient Test-Time Scaling for Diffusion Multi-Modal Large Language Models [40.03969764207708]
Diffusion Multi-modal Large Language Models (dMLLMs) は画像生成と理解を統一する新しいアーキテクチャとして最近登場した。
提案するdMLLM-TTSは,2つの相補的スケーリング軸上で動作し,その全生成ポテンシャルを解放する新しいフレームワークである。
我々のフレームワークは線形探索の最大6倍の効率で生成品質を大幅に向上させる。
論文 参考訳(メタデータ) (2025-12-22T14:31:58Z) - LaSeR: Reinforcement Learning with Last-Token Self-Rewarding [54.72617309922891]
RLVR(Reinforcement Learning with Verifiable Rewards)は、Large Language Models(LLM)の推論能力を高めるためのコアパラダイムとして登場した。
従来、LLMは2つの異なるプロンプトテンプレートを使用してソリューションと自己検証をシーケンシャルに生成し、効率を大幅に低下させる必要があった。
本稿では,従来のRLVR損失をMSE損失で増大させるアルゴリズムであるLaSeR(Reinforcement Learning with Last-Token Self-Rewarding)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:55:11Z) - Spiffy: Multiplying Diffusion LLM Acceleration via Lossless Speculative Decoding [40.96405124314983]
拡散LDM (dLLMs) は、最近自己回帰LDM (AR-LLMs) の強力な代替品として登場した。
現在利用可能なオープンソースdLLMは、多くの場合、より低いレートで生成される。
本稿では,dLLM推論を$mathbf2.8-3.1times$で高速化し,モデルの出力分布を確実に保存する投機的復号アルゴリズムであるSpiffyを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:58:21Z) - DiffuCoder: Understanding and Improving Masked Diffusion Models for Code Generation [68.19756761027351]
拡散大言語モデル(dLLM)は自己回帰(AR)モデルの魅力的な代替品である。
本研究は,それらの認知過程と強化学習手法について考察する。
我々の研究は、dLLM生成のメカニズムについて深い洞察を与え、効果的な拡散ネイティブなRLトレーニングフレームワークを提供します。
論文 参考訳(メタデータ) (2025-06-25T17:35:47Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。