論文の概要: T-SCEND: Test-time Scalable MCTS-enhanced Diffusion Model
- arxiv url: http://arxiv.org/abs/2502.01989v2
- Date: Wed, 05 Feb 2025 02:38:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-06 14:21:16.500303
- Title: T-SCEND: Test-time Scalable MCTS-enhanced Diffusion Model
- Title(参考訳): T-SCEND:テスト時間スケーラブルMCTS拡張拡散モデル
- Authors: Tao Zhang, Jia-Shu Pan, Ruiqi Feng, Tailin Wu,
- Abstract要約: Test-time Scalable MCTS-enhanced Diffusion Model (T-SCEND)は拡散モデルの推論能力を大幅に改善する新しいフレームワークである。
T-SCENDは、デノナイジングプロセスと、新しいハイブリッドモンテカルロツリーサーチを統合している。
本稿では,T-SCENDの学習目標とスケーラブルな推論手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 7.250494262573953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Test-time Scalable MCTS-enhanced Diffusion Model (T-SCEND), a novel framework that significantly improves diffusion model's reasoning capabilities with better energy-based training and scaling up test-time computation. We first show that na\"ively scaling up inference budget for diffusion models yields marginal gain. To address this, the training of T-SCEND consists of a novel linear-regression negative contrastive learning objective to improve the performance-energy consistency of the energy landscape, and a KL regularization to reduce adversarial sampling. During inference, T-SCEND integrates the denoising process with a novel hybrid Monte Carlo Tree Search (hMCTS), which sequentially performs best-of-N random search and MCTS as denoising proceeds. On challenging reasoning tasks of Maze and Sudoku, we demonstrate the effectiveness of T-SCEND's training objective and scalable inference method. In particular, trained with Maze sizes of up to $6\times6$, our T-SCEND solves $88\%$ of Maze problems with much larger sizes of $15\times15$, while standard diffusion completely fails. Code to reproduce the experiments can be found at https://github.com/AI4Science-WestlakeU/t_scend.
- Abstract(参考訳): エネルギーベーストレーニングの改善とテスト時間計算のスケールアップにより拡散モデルの推論能力を大幅に向上する新しいフレームワークであるT-SCEND(Test-time Scalable MCTS-enhanced Diffusion Model)を紹介する。
まず、拡散モデルの推論予算を「段階的に拡大する」ことが限界ゲインをもたらすことを示す。
これを解決するために、T-SCENDのトレーニングは、エネルギーランドスケープのパフォーマンスとエネルギーの整合性を改善するための新しい線形回帰負の対照的な学習目標と、対向サンプリングを減らすためのKL正規化から構成される。
推論中、T-SCEND はモンテカルロ木探索 (hMCTS) とデノナイジングプロセスを統合し、デノナイジング処理として N のランダム探索と MCTS を順次実行する。
Maze と Sudoku の挑戦的推論タスクについて,T-SCEND の学習目標と拡張的推論手法の有効性を実証する。
特にMazeのサイズを最大6ドル(約6,800円)までトレーニングしたT-SCENDは、15ドル(約1,300円)のMazeの問題を8,8セント(約8,800円)で解決していますが、標準拡散は完全に失敗します。
実験を再現するコードはhttps://github.com/AI4Science-WestlakeU/t_scendにある。
関連論文リスト
- Exploring and Exploiting the Inherent Efficiency within Large Reasoning Models for Self-Guided Efficiency Enhancement [101.77467538102924]
大きな推論モデル(LRM)は、効率を阻害し、推論コストを膨らませる過剰な考えを示す。
LRM効率を向上させるための2つの軽量手法を提案する。
まず,学習不要なアクティベーションステアリング技術であるEfficic Steeringを導入する。
第2に,タスクの正確さと簡潔さを動的にバランスする強化学習フレームワークである自己回帰効率RLを開発する。
論文 参考訳(メタデータ) (2025-06-18T17:18:12Z) - The Hallucination Dilemma: Factuality-Aware Reinforcement Learning for Large Reasoning Models [63.98194996746229]
大規模言語モデル(LLM)は、強化学習(RL)最適化を通じて、推論タスクにおいて著しく進歩している。
しかし、推論指向RL微調整は幻覚の頻度を著しく高めている。
本稿では,明示的事実性検証を取り入れた革新的なRL微調整アルゴリズムであるFSPOを提案する。
論文 参考訳(メタデータ) (2025-05-30T14:23:32Z) - Unlocking Efficient Long-to-Short LLM Reasoning with Model Merging [17.038807261969033]
Long-to-Short (L2S) 推論は推論深度と実用効率のバランスをとることを目的としている。
モデルマージは、System 1モデルの迅速な思考能力とSystem 2モデルの方法論的推論を統合することで、コスト効率が高く堅牢な代替手段を提供する。
実験の結果,モデルマージにより平均応答長を最大55%削減できることがわかった。
論文 参考訳(メタデータ) (2025-03-26T15:34:37Z) - Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
MCTDは拡散フレームワーク内での探索・探索トレードオフの制御などのMCTSの利点を享受する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning [32.45574194957491]
クロスエントロピー損失のあるトレーニングは、パス@Nのパス@Nの精度$itは、長いトレーニングで$$を下げることを示す。
モデル信頼性を制限し、pass@Nテストのパフォーマンスを回復することにより、pass@Nに整合した、原則化された修正されたトレーニング損失を提案する。
論文 参考訳(メタデータ) (2025-02-11T00:33:31Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Overcoming the Curse of Dimensionality in Reinforcement Learning Through Approximate Factorization [15.898378661128334]
強化学習(RL)アルゴリズムは次元性の呪いに苦しむことが知られている。
本稿では,元のマルコフ決定過程(MDP)を,より小さく,独立に進化するMDPに大まかに分解することで,次元性の呪いを克服することを提案する。
提案手法は,両アルゴリズムに改良された複雑性保証を提供する。
論文 参考訳(メタデータ) (2024-11-12T07:08:00Z) - Mitigating Embedding Collapse in Diffusion Models for Categorical Data [52.90687881724333]
我々は,学習を安定させる埋め込み空間内の連続拡散フレームワークであるCATDMを紹介する。
ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - FFHFlow: A Flow-based Variational Approach for Learning Diverse Dexterous Grasps with Shape-Aware Introspection [19.308304984645684]
マルチフィンガーハンドの多様なグリップを生成できる新しいモデルを提案する。
提案手法は, 高いベースラインに対する性能向上と実行時の効率向上を実現する。
また,現実世界の雑多な作業空間や密集した作業空間において,より多様性の高いオブジェクトを把握できることのメリットも示している。
論文 参考訳(メタデータ) (2024-07-21T13:33:08Z) - STAR: Constraint LoRA with Dynamic Active Learning for Data-Efficient Fine-Tuning of Large Language Models [21.929902181609936]
我々は不確実性に基づくアクティブラーニングとLoRAを統合する新しい手法を提案する。
不確実性ギャップについて、ベースモデルの不確実性とフルモデルの不確実性を組み合わせた動的不確実性測定を導入する。
モデルのキャリブレーションが不十分な場合、LoRAトレーニング中に正規化手法を導入し、モデルが過度に信頼されないようにする。
論文 参考訳(メタデータ) (2024-03-02T10:38:10Z) - Synergy-of-Thoughts: Eliciting Efficient Reasoning in Hybrid Language Models [19.466985579720507]
大規模言語モデル(LLM)は、広範囲のタスクにおいて顕著な創発能力を示しているが、関連する高価なAPIコストは、実際のアプリケーションを大幅に制限している。
本稿では,異なるスケールのハイブリッドLLMの相乗的ポテンシャルを効率的に推論するために,「思考のシネルギー」を提案する。
SoTはAPIコストを38.3%-75.1%削減し、最先端の推論精度とソリューションの多様性を同時に達成している。
論文 参考訳(メタデータ) (2024-02-04T16:45:01Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。
本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-05T00:23:34Z) - An Efficient Membership Inference Attack for the Diffusion Model by
Proximal Initialization [58.88327181933151]
本稿では,効率的なクエリベースのメンバシップ推論攻撃(MIA)を提案する。
実験結果から,提案手法は離散時間と連続時間の両方の拡散モデル上で,2つのクエリで競合性能を達成できることが示唆された。
我々の知る限り、本研究はテキスト音声タスクにおけるMIAへの拡散モデルのロバスト性について初めて研究するものである。
論文 参考訳(メタデータ) (2023-05-26T16:38:48Z) - Optimizing DDPM Sampling with Shortcut Fine-Tuning [16.137936204766692]
ショートカットファインチューニング(SFT)は、事前学習した拡散拡散確率モデル(DDPM)の高速サンプリングの課題に対処するための新しいアプローチである。
SFTは、積分確率メートル法(IPM)の直接最小化によるDDPMサンプリング器の微調整を提唱している。
制御の観点から着想を得た新しいアルゴリズム SFT-PG: Shortcut Fine-Tuning with Policy Gradient を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:37:48Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。