論文の概要: Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2509.23146v1
- Date: Sat, 27 Sep 2025 06:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.069713
- Title: Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models
- Title(参考訳): マスケード拡散言語モデルにおけるTReASUReの木の逆方向探索
- Authors: Zichao Yu, Ming Li, Wenyi Zhang, Weiguo Gao,
- Abstract要約: ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
TReASUReは、パープレキシティ、言語受容性、感情と毒性の制御に関する最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 13.433506313486701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree search has recently emerged as a powerful framework for aligning generative models with task-specific rewards at test time. Applying tree search to Masked Diffusion Language Models, however, introduces two key challenges: (i) parallel unmasking yields highly correlated branches, limiting exploration, and (ii) reward evaluation via sampled completions produces high-variance estimates, making pruning unstable. We propose TReASURe, a tree-search test-time alignment method that addresses these issues. It introduces (i) UnmaskBranch, a branching strategy based on first-hitting unmasking that diversifies both token content and reveal order with a single model call per parent node, and (ii) ResubstituteScore, a pruning rule that uses deterministic resubstitution to score partially masked sequences with low-variance proxy completions. Theoretically, we quantify branching efficiency gains in NFEs (number of function evaluations), show that the scoring rule approximates the true reward with error bounded by predictive uncertainty, and prove improvements with larger tree widths. Empirically, TReASURe achieves state-of-the-art results on perplexity, linguistic acceptability, and control of sentiment and toxicity, outperforming prior methods under matched compute budgets, with especially strong gains in low-NFE regimes.
- Abstract(参考訳): 最近、ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
Masked Diffusion Language Models へのツリー検索の適用には,2つの重要な課題がある。
(i)平行な解凍は、高い相関関係の分岐、探索の制限、及び
(II) 模擬完了による報酬評価は, 高分散推定を生じ, プルーニングの不安定化を招いた。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
紹介
(i)UnmaskBranchは、トークンの内容の多様化と、親ノード毎に1つのモデルコールで順序を明示する、ファーストヒッティングアンマッシングに基づく分岐戦略である。
(ii)置換スコア(ResubstituteScore)は、決定論的置換を用いて、低分散プロキシ補完を伴う部分的にマスキングされたシーケンスをスコアするプルーニングルールである。
理論的には,NFEにおける分岐効率のゲイン(関数評価数)を定量化し,予測不確実性によって境界付けられた誤差で真報酬を近似し,木幅を大きくすることで改善を証明している。
実証的な結果として、TReASUReは、難易度、言語的受容性、感情と毒性の制御に関する最先端の成果を達成し、マッチングされた計算予算の下で以前の方法よりも優れており、特に低NFE体制において大きな利益を上げている。
関連論文リスト
- Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Diffusion Language Model Inference with Monte Carlo Tree Search [22.7649405246503]
拡散言語モデル (DLMs) は自己回帰生成の魅力的な代替手段として登場した。
本稿では,DLM推論の原理的探索機構であるMEDALを紹介する。
複数のベンチマークで、MEDALは既存の推論戦略よりも最大22.0%改善されている。
論文 参考訳(メタデータ) (2025-12-13T04:30:02Z) - Ensembling LLM-Induced Decision Trees for Explainable and Robust Error Detection [24.742137117129502]
エラー検出はデータ品質の確保に重要である。
近年の最先端ED法では,大規模言語モデル(LLM)に組み込まれた事前学習された知識と意味的能力を利用して,細胞が誤っているかを直接ラベル付けしている。
ED(termed TreeED)の決定木を誘導するLLM-as-an-inducerフレームワークを提案し,さらにコンセンサス検出(termed ForestED)のために複数の木をアンサンブルする。
我々の手法は正確で説明可能で堅牢であり、最高のベースラインに対して平均16.1%のF1スコア改善を実現している。
論文 参考訳(メタデータ) (2025-12-08T07:40:48Z) - Lookahead Unmasking Elicits Accurate Decoding in Diffusion Language Models [51.12873073612084]
Masked Diffusion Models (MDM) は、反復的にトークンをアンマキングすることで生成される言語モデルであるが、その性能はアンマキングの推測時間順序に依存する。
提案するLookUM(LookUM)は,これらの問題に対処し,サンプリングを可能な全注文に対して経路選択として再構成する。
LookUMはピーク性能を達成するために2~3つの経路しか必要とせず、極めて効率的な経路選択を示す。
論文 参考訳(メタデータ) (2025-11-04T02:37:37Z) - Parallel Sampling from Masked Diffusion Models via Conditional Independence Testing [4.707859580472452]
仮面拡散モデル(MDM)は、離散テキスト生成のための自己回帰モデル(ARM)に代わる魅力的な代替手段を提供する。
シーケンシャルな左から右への生成ではなく、並列トークンサンプリングを可能にする。
本稿では,このトレードオフを再現するモデル非依存のサンプル装置PUNTを紹介する。
論文 参考訳(メタデータ) (2025-10-24T18:41:26Z) - TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeRPO: Tree Relative Policy Optimization [65.51935468270916]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - RASD: Retrieval-Augmented Speculative Decoding [5.3926068062773895]
投機的復号化は大規模言語モデル(LLM)における推論を加速する
本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-03-05T12:10:14Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models [56.32800938317095]
既存の検証器はテスト時の木探索技術に準最適である。
トークン制御値モデル(TVM)を提案する。
TVMは各トークンに、正しい最終回答に達する確率を反映した確率を割り当てる。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Lookback for Learning to Branch [77.32867454769936]
Bipartite Graph Neural Networks (GNN) は、ディープラーニングに基づくMixed-Integer Linear Program (MILP) の重要コンポーネントであることが示されている。
近年の研究では、分岐とバウンド(B&B)の解法における分岐(可変選択)を置き換える上で、そのようなGNNの有効性が実証されている。
論文 参考訳(メタデータ) (2022-06-30T02:33:32Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。