論文の概要: VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model
- arxiv url: http://arxiv.org/abs/2502.01989v3
- Date: Sat, 31 May 2025 08:36:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-03 16:22:43.039441
- Title: VFScale: Intrinsic Reasoning through Verifier-Free Test-time Scalable Diffusion Model
- Title(参考訳): VFScale: 検証自由なテスト時間スケーラブル拡散モデルによる固有推論
- Authors: Tao Zhang, Jia-Shu Pan, Ruiqi Feng, Tailin Wu,
- Abstract要約: 本稿では,VFScale(Verifier-free Test-time scalable Diffusion Model)を導入し,スケーラブルな本質的な推論を実現する。
モーゼとスドクの挑戦的推論タスクについて,VFScaleの学習目標とスケーラブルな推論手法の有効性を実証する。
特に、最大6ドルまでのMazeサイズでトレーニングされたVFScaleは、15ドル以上のMaze問題の88%を解決していますが、標準拡散モデルは完全に失敗します。
- 参考スコア(独自算出の注目度): 7.250494262573953
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inspired by human SYSTEM 2 thinking, LLMs excel at complex reasoning tasks via extended Chain-of-Thought. However, similar test-time scaling for diffusion models to tackle complex reasoning remains largely unexplored. From existing work, two primary challenges emerge in this setting: (i) the dependence on an external verifier indicating a notable gap from intrinsic reasoning of human intelligence without any external feedback, and (ii) the lack of an efficient search algorithm. In this paper, we introduce the Verifier-free Test-time Scalable Diffusion Model (VFScale) to achieve scalable intrinsic reasoning, which equips number-of-sample test-time scaling with the intrinsic energy function of diffusion models as the verifier. Concretely, VFScale comprises two key innovations to address the aforementioned challenges. On the training side, VFScale consists of a novel LRNCL loss and a KL regularization to improve the energy landscape, ensuring that the learned energy function itself serves as a reliable verifier. On the inference side, VFScale integrates the denoising process with a novel hybrid Monte Carlo Tree Search (hMCTS) to improve search efficiency. On challenging reasoning tasks of Maze and Sudoku, we demonstrate the effectiveness of VFScale's training objective and scalable inference method. In particular, trained with Maze sizes of up to $6\times6$, our VFScale solves 88% of Maze problems with much larger sizes of $15\times15$, while standard diffusion model completely fails.
- Abstract(参考訳): 人間のシステム2思考にインスパイアされたLLMは、拡張されたChain-of-Thoughtを通して複雑な推論タスクに優れる。
しかし、複雑な推論に対処する拡散モデルに対する同様のテスト時間スケーリングは、ほとんど未解明のままである。
既存の作業から、この環境では2つの大きな課題が浮かび上がっています。
一 外部からのフィードバックなしに、人間の知能の本質的推論から顕著なギャップを示す外部検証器への依存
(II)効率的な探索アルゴリズムがないこと。
本稿では,VFScale(Verifier-free Test-time Scalable Diffusion Model)を導入し,拡張性のある内在的推論を実現する。
具体的には、VFScaleには、上記の課題に対処する2つの重要なイノベーションが含まれている。
トレーニング側では、VFScale は新たな LRNCL 損失と KL 正規化から構成され、エネルギー景観を改善し、学習エネルギー関数自体が信頼性の高い検証器として機能することを保証している。
推論面では、VFScaleはデノナイジングプロセスと新しいハイブリッドモンテカルロ木探索(hMCTS)を統合して、探索効率を向上させる。
モーゼとスドクの挑戦的推論タスクについて,VFScaleの学習目標とスケーラブルな推論手法の有効性を実証する。
特に、最大6\times6$のMazeサイズでトレーニングされたVFScaleは、15\times15$のMaze問題の88%を解決しています。
関連論文リスト
- Monte Carlo Tree Diffusion for System 2 Planning [57.50512800900167]
モンテカルロ木探索(MCTS)の適応探索機能と拡散モデルの生成強度を統合する新しいフレームワークであるモンテカルロ木拡散(MCTD)を紹介する。
MCTDは拡散フレームワーク内での探索・探索トレードオフの制御などのMCTSの利点を享受する。
論文 参考訳(メタデータ) (2025-02-11T02:51:42Z) - Rethinking Fine-Tuning when Scaling Test-Time Compute: Limiting Confidence Improves Mathematical Reasoning [32.45574194957491]
クロスエントロピー損失のあるトレーニングは、パス@Nのパス@Nの精度$itは、長いトレーニングで$$を下げることを示す。
モデル信頼性を制限し、pass@Nテストのパフォーマンスを回復することにより、pass@Nに整合した、原則化された修正されたトレーニング損失を提案する。
論文 参考訳(メタデータ) (2025-02-11T00:33:31Z) - Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - Mitigating Embedding Collapse in Diffusion Models for Categorical Data [52.90687881724333]
我々は,学習を安定させる埋め込み空間内の連続拡散フレームワークであるCATDMを紹介する。
ベンチマーク実験により、CATDMは埋没崩壊を緩和し、FFHQ、LSUN教会、LSUNベッドルームにおいて優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-10-18T09:12:33Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。
標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文 参考訳(メタデータ) (2023-10-25T17:59:12Z) - Learning Energy-Based Prior Model with Diffusion-Amortized MCMC [89.95629196907082]
非収束短距離MCMCを用いた事前及び後方サンプリングによる潜時空間EMM学習の一般的な実践は、さらなる進歩を妨げている。
本稿では,MCMCサンプリングのための単純だが効果的な拡散型アモータイズ手法を導入し,それに基づく潜時空間EMMのための新しい学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-10-05T00:23:34Z) - Optimizing DDPM Sampling with Shortcut Fine-Tuning [16.137936204766692]
ショートカットファインチューニング(SFT)は、事前学習した拡散拡散確率モデル(DDPM)の高速サンプリングの課題に対処するための新しいアプローチである。
SFTは、積分確率メートル法(IPM)の直接最小化によるDDPMサンプリング器の微調整を提唱している。
制御の観点から着想を得た新しいアルゴリズム SFT-PG: Shortcut Fine-Tuning with Policy Gradient を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:37:48Z) - Mitigating Catastrophic Forgetting in Scheduled Sampling with Elastic
Weight Consolidation in Neural Machine Translation [15.581515781839656]
最大推定値で訓練された自己回帰モデルは、露出バイアスに悩まされる。
露光バイアスの軽減と出力品質の維持のトレードオフとして, 弾性重み強化(Elastic Weight Consolidation)を提案する。
2つのIWSLT'14翻訳タスクの実験は、我々のアプローチが破滅的な忘れを軽減し、BLEUを大幅に改善することを示した。
論文 参考訳(メタデータ) (2021-09-13T20:37:58Z) - On Minimum Word Error Rate Training of the Hybrid Autoregressive
Transducer [40.63693071222628]
ハイブリッド自己回帰変換器(HAT)の最小単語誤り率(MWER)訓練について検討する。
約3万時間のトレーニングデータを用いた実験から,MWERトレーニングがHATモデルの精度を向上させることを示す。
論文 参考訳(メタデータ) (2020-10-23T21:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。