論文の概要: Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2509.23146v1
- Date: Sat, 27 Sep 2025 06:22:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.069713
- Title: Tree Reward-Aligned Search for TReASURe in Masked Diffusion Language Models
- Title(参考訳): マスケード拡散言語モデルにおけるTReASUReの木の逆方向探索
- Authors: Zichao Yu, Ming Li, Wenyi Zhang, Weiguo Gao,
- Abstract要約: ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
TReASUReは、パープレキシティ、言語受容性、感情と毒性の制御に関する最先端の結果を達成する。
- 参考スコア(独自算出の注目度): 13.433506313486701
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tree search has recently emerged as a powerful framework for aligning generative models with task-specific rewards at test time. Applying tree search to Masked Diffusion Language Models, however, introduces two key challenges: (i) parallel unmasking yields highly correlated branches, limiting exploration, and (ii) reward evaluation via sampled completions produces high-variance estimates, making pruning unstable. We propose TReASURe, a tree-search test-time alignment method that addresses these issues. It introduces (i) UnmaskBranch, a branching strategy based on first-hitting unmasking that diversifies both token content and reveal order with a single model call per parent node, and (ii) ResubstituteScore, a pruning rule that uses deterministic resubstitution to score partially masked sequences with low-variance proxy completions. Theoretically, we quantify branching efficiency gains in NFEs (number of function evaluations), show that the scoring rule approximates the true reward with error bounded by predictive uncertainty, and prove improvements with larger tree widths. Empirically, TReASURe achieves state-of-the-art results on perplexity, linguistic acceptability, and control of sentiment and toxicity, outperforming prior methods under matched compute budgets, with especially strong gains in low-NFE regimes.
- Abstract(参考訳): 最近、ツリー検索は、生成モデルとタスク固有の報酬をテスト時に整合させる強力なフレームワークとして登場した。
Masked Diffusion Language Models へのツリー検索の適用には,2つの重要な課題がある。
(i)平行な解凍は、高い相関関係の分岐、探索の制限、及び
(II) 模擬完了による報酬評価は, 高分散推定を生じ, プルーニングの不安定化を招いた。
これらの問題に対処する木探索テスト時間アライメント手法であるTReASUReを提案する。
紹介
(i)UnmaskBranchは、トークンの内容の多様化と、親ノード毎に1つのモデルコールで順序を明示する、ファーストヒッティングアンマッシングに基づく分岐戦略である。
(ii)置換スコア(ResubstituteScore)は、決定論的置換を用いて、低分散プロキシ補完を伴う部分的にマスキングされたシーケンスをスコアするプルーニングルールである。
理論的には,NFEにおける分岐効率のゲイン(関数評価数)を定量化し,予測不確実性によって境界付けられた誤差で真報酬を近似し,木幅を大きくすることで改善を証明している。
実証的な結果として、TReASUReは、難易度、言語的受容性、感情と毒性の制御に関する最先端の成果を達成し、マッチングされた計算予算の下で以前の方法よりも優れており、特に低NFE体制において大きな利益を上げている。
関連論文リスト
- TreePO: Bridging the Gap of Policy Optimization and Efficacy and Inference Efficiency with Heuristic Tree-based Modeling [65.46347858249295]
TreePOは自己誘導型ロールアウトアルゴリズムで、シーケンス生成を木構造検索プロセスとして見る。
TreePOは基本的に、探索の多様性を保存または強化しながら、更新毎の計算負担を削減します。
論文 参考訳(メタデータ) (2025-08-24T16:52:37Z) - TreeRPO: Tree Relative Policy Optimization [65.51935468270916]
nameは、ツリーサンプリングを用いて、様々な推論ステップで報酬の数学的期待を推定する新しい方法である。
GRPOの集団相対的な報酬訓練機構に基づいて、木サンプリング時に生成されたステップレベルグループに基づいて報酬を革新的に計算する。
論文 参考訳(メタデータ) (2025-06-05T15:56:38Z) - RASD: Retrieval-Augmented Speculative Decoding [5.3926068062773895]
投機的復号化は大規模言語モデル(LLM)における推論を加速する
本稿では,モデルに基づく投機的復号化を促進する検索手法を採用したRASD(Retrieval-Augmented Speculative Decoding)を提案する。
論文 参考訳(メタデータ) (2025-03-05T12:10:14Z) - Don't Get Lost in the Trees: Streamlining LLM Reasoning by Overcoming Tree Search Exploration Pitfalls [83.89771461061903]
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
検証者による木探索アルゴリズムの最近の進歩は、大規模言語モデル(LLM)の推論能力を大幅に向上させた。
意味論的に等価なコンテンツを持つ冗長な状態による$textitover-Exploration$と、検証器のスコアリングにおける高いばらつきに起因する$textitunder-Exploration$である。
各種木探索アルゴリズムに適合するフレキシブルなプラグアンドプレイシステムであるFETCHを提案する。
論文 参考訳(メタデータ) (2025-02-16T16:12:01Z) - Token-Supervised Value Models for Enhancing Mathematical Problem-Solving Capabilities of Large Language Models [56.32800938317095]
既存の検証器はテスト時の木探索技術に準最適である。
トークン制御値モデル(TVM)を提案する。
TVMは各トークンに、正しい最終回答に達する確率を反映した確率を割り当てる。
論文 参考訳(メタデータ) (2024-07-12T13:16:50Z) - Feature Attenuation of Defective Representation Can Resolve Incomplete Masking on Anomaly Detection [1.0358639819750703]
教師なし異常検出(UAD)研究では、計算効率が高くスケーラブルなソリューションを開発する必要がある。
再建・塗り替えのアプローチを再考し、強みと弱みを分析して改善する。
異常再構成の特徴情報を減衰させる2つの層のみを用いるFADeR(Feature Attenuation of Defective Representation)を提案する。
論文 参考訳(メタデータ) (2024-07-05T15:44:53Z) - Recursive Speculative Decoding: Accelerating LLM Inference via Sampling
Without Replacement [11.91629418177851]
投機的復号法(英: Speculative decoding)は、大規模言語モデルの推論・加速度法である。
近年の作業では、草稿の伐採によってこの方法が進歩している。
再帰的投機的復号法(Recursive Speculative Decoding:RSD)を提案する。
論文 参考訳(メタデータ) (2024-02-21T22:57:49Z) - Lookback for Learning to Branch [77.32867454769936]
Bipartite Graph Neural Networks (GNN) は、ディープラーニングに基づくMixed-Integer Linear Program (MILP) の重要コンポーネントであることが示されている。
近年の研究では、分岐とバウンド(B&B)の解法における分岐(可変選択)を置き換える上で、そのようなGNNの有効性が実証されている。
論文 参考訳(メタデータ) (2022-06-30T02:33:32Z) - Complex Event Forecasting with Prediction Suffix Trees: Extended
Technical Report [70.7321040534471]
複合イベント認識(CER)システムは、イベントのリアルタイムストリーム上のパターンを"即時"検出する能力によって、過去20年間に人気が高まっている。
このような現象が実際にCERエンジンによって検出される前に、パターンがいつ発生するかを予測する方法が不足している。
複雑なイベント予測の問題に対処しようとする形式的なフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-01T09:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。