論文の概要: T-SCEND: Test-time Scalable MCTS-enhanced Diffusion Model
- arxiv url: http://arxiv.org/abs/2502.01989v2
- Date: Wed, 05 Feb 2025 02:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 11:04:45.521147
- Title: T-SCEND: Test-time Scalable MCTS-enhanced Diffusion Model
- Title(参考訳): T-SCEND:テスト時間スケーラブルMCTS拡張拡散モデル
- Authors: Tao Zhang, Jia-Shu Pan, Ruiqi Feng, Tailin Wu,
- Abstract要約: Test-time Scalable MCTS-enhanced Diffusion Model (T-SCEND)は拡散モデルの推論能力を大幅に改善する新しいフレームワークである。
T-SCENDは、デノナイジングプロセスと、新しいハイブリッドモンテカルロツリーサーチを統合している。
本稿では,T-SCENDの学習目標とスケーラブルな推論手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 7.250494262573953
- License:
- Abstract: We introduce Test-time Scalable MCTS-enhanced Diffusion Model (T-SCEND), a novel framework that significantly improves diffusion model's reasoning capabilities with better energy-based training and scaling up test-time computation. We first show that na\"ively scaling up inference budget for diffusion models yields marginal gain. To address this, the training of T-SCEND consists of a novel linear-regression negative contrastive learning objective to improve the performance-energy consistency of the energy landscape, and a KL regularization to reduce adversarial sampling. During inference, T-SCEND integrates the denoising process with a novel hybrid Monte Carlo Tree Search (hMCTS), which sequentially performs best-of-N random search and MCTS as denoising proceeds. On challenging reasoning tasks of Maze and Sudoku, we demonstrate the effectiveness of T-SCEND's training objective and scalable inference method. In particular, trained with Maze sizes of up to $6\times6$, our T-SCEND solves $88\%$ of Maze problems with much larger sizes of $15\times15$, while standard diffusion completely fails. Code to reproduce the experiments can be found at https://github.com/AI4Science-WestlakeU/t_scend.
- Abstract(参考訳): エネルギーベーストレーニングの改善とテスト時間計算のスケールアップにより拡散モデルの推論能力を大幅に向上する新しいフレームワークであるT-SCEND(Test-time Scalable MCTS-enhanced Diffusion Model)を紹介する。
まず、拡散モデルの推論予算を「段階的に拡大する」ことが限界ゲインをもたらすことを示す。
これを解決するために、T-SCENDのトレーニングは、エネルギーランドスケープのパフォーマンスとエネルギーの整合性を改善するための新しい線形回帰負の対照的な学習目標と、対向サンプリングを減らすためのKL正規化から構成される。
推論中、T-SCEND はモンテカルロ木探索 (hMCTS) とデノナイジングプロセスを統合し、デノナイジング処理として N のランダム探索と MCTS を順次実行する。
Maze と Sudoku の挑戦的推論タスクについて,T-SCEND の学習目標と拡張的推論手法の有効性を実証する。
特にMazeのサイズを最大6ドル(約6,800円)までトレーニングしたT-SCENDは、15ドル(約1,300円)のMazeの問題を8,8セント(約8,800円)で解決していますが、標準拡散は完全に失敗します。
実験を再現するコードはhttps://github.com/AI4Science-WestlakeU/t_scendにある。
関連論文リスト
- Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
MCTDは拡散フレームワーク内での探索・探索トレードオフの制御などのMCTSの利点を享受する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning [32.45574194957491]
クロスエントロピー損失のあるトレーニングは、パス@Nのパス@Nの精度$itは、長いトレーニングで$$を下げることを示す。
モデル信頼性を制限し、pass@Nテストのパフォーマンスを回復することにより、pass@Nに整合した、原則化された修正されたトレーニング損失を提案する。
論文 参考訳(メタデータ) (2025-02-11T00:33:31Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Mitigating Embedding Collapse in Diffusion Models for Categorical Data [52.90687881724333]
我々は,学習を安定させる埋め込み空間内の連続拡散フレームワークであるCATDMを紹介する。
ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。
本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-05T00:23:34Z) - Optimizing DDPM Sampling with Shortcut Fine-Tuning [16.137936204766692]
ショートカットファインチューニング(SFT)は、事前学習した拡散拡散確率モデル(DDPM)の高速サンプリングの課題に対処するための新しいアプローチである。
SFTは、積分確率メートル法(IPM)の直接最小化によるDDPMサンプリング器の微調整を提唱している。
制御の観点から着想を得た新しいアルゴリズム SFT-PG: Shortcut Fine-Tuning with Policy Gradient を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:37:48Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。