論文の概要: GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler
- arxiv url: http://arxiv.org/abs/2602.14077v1
- Date: Sun, 15 Feb 2026 09:57:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.640831
- Title: GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler
- Title(参考訳): GTS:学習可能なガウス的シンプラーを用いた潜時推論の時間スケーリング
- Authors: Minghan Wang, Ye Bai, Thuy-Trang Vu, Ehsan Shareghi, Gholamreza Haffari,
- Abstract要約: 我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
- 参考スコア(独自算出の注目度): 54.10960908347221
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Inference-time scaling (ITS) in latent reasoning models typically introduces stochasticity through heuristic perturbations, such as dropout or fixed Gaussian noise. While these methods increase trajectory diversity, their exploration behavior is not explicitly modeled and can be inefficient under finite sampling budgets. We observe that stronger perturbations do not necessarily translate into more effective candidate trajectories, as unguided noise may disrupt internal decision structure rather than steer it. To provide a more structured alternative, we model latent thought exploration as conditional sampling from learnable densities and instantiate this idea as a Gaussian Thought Sampler (GTS). GTS predicts context-dependent perturbation distributions over continuous reasoning states and is trained with GRPO-style policy optimization while keeping the backbone frozen. Experiments on GSM8K with two latent reasoning architectures show that GTS achieves more reliable inference-time scaling than heuristic baselines. These findings indicate that improving latent ITS requires structured and optimizable exploration mechanisms rather than simply amplifying stochasticity.
- Abstract(参考訳): 潜在推論モデルにおける推論時間スケーリング(ITS)は、通常、ドロップアウトやガウス雑音のようなヒューリスティックな摂動によって確率性を導入する。
これらの手法は軌道の多様性を高めるが、探索行動は明示的にモデル化されておらず、有限サンプリング予算の下では非効率である。
我々は、強い摂動が必ずしもより効果的な候補軌道に変換されるとは限らないことを観察する。
より構造化された代替案として、学習可能な密度からの条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
2つの潜在推論アーキテクチャによるGSM8Kの実験は、GTSがヒューリスティックベースラインよりも信頼性の高い推論時間スケーリングを実現していることを示している。
これらの結果から,潜在ITSの改善には,単に確率性を増幅するのではなく,構造的かつ最適化可能な探索機構が必要であることが示唆された。
関連論文リスト
- Generative Bayesian Filtering and Parameter Learning [0.0]
生成ベイズフィルタ(GBF)は、複素非線形および非ガウス状態空間モデルにおいて後方推論を行うための強力なフレームワークを提供する。
GBFは明示的な密度評価を必要としないため、観察や遷移分布が解析的に解析可能である場合に特に有効である。
本稿では,各変数を暗黙の完全条件分布から反復的にサンプリングすることで,明示的な密度評価を回避できるジェネレーション・ギブズ・サンプリング手法を提案する。
論文 参考訳(メタデータ) (2025-11-06T17:04:48Z) - Parallel Test-Time Scaling for Latent Reasoning Models [58.428340345068214]
並列テスト時間スケーリング(TTS)は、大規模言語モデル(LLM)の拡張のための重要なアプローチである。
連続ベクトル空間において中間的推論が展開する潜在的推論の最近の進歩は、明示的なチェーン・オブ・サート(Chain-of-Thought)に対するより効率的な代替手段を提供する。
この作業は、上記の問題に対処することで、潜在推論モデルに対する並列TSを可能にする。
論文 参考訳(メタデータ) (2025-10-09T03:33:00Z) - G$^2$RPO: Granular GRPO for Precise Reward in Flow Models [74.21206048155669]
本稿では,サンプリング方向の高精度かつ包括的な報酬評価を実現する新しいグラニュラー-GRPO(G$2$RPO)フレームワークを提案する。
複数の拡散スケールで計算された利点を集約するマルチグラニュラリティ・アドバンテージ・インテグレーション・モジュールを導入する。
G$2$RPOは既存のフローベースGRPOベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-10-02T12:57:12Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL [20.177871969184004]
チェーン・オブ・シント(CoT)推論は、モデルが中間的推論ステップを生成する必要がある潜在変数問題として形式化することができる。
反復的な報酬ランクの微調整のような以前のアプローチは、難易度と収束挙動の変動を考慮しない。
本稿では,計算予算制約下での勾配分散を最小限に抑えるために,プロンプト固有の動的サンプル割当戦略であるGVMRAFTを提案する。
論文 参考訳(メタデータ) (2025-05-05T06:26:00Z) - Provable Guarantees for Generative Behavior Cloning: Bridging Low-Level
Stability and High-Level Behavior [51.60683890503293]
生成モデルを用いた複雑な専門家による実演の行動クローニングに関する理論的枠組みを提案する。
任意の専門的軌跡の時間ごとのステップ分布に一致するトラジェクトリを生成することができることを示す。
論文 参考訳(メタデータ) (2023-07-27T04:27:26Z) - BCD Nets: Scalable Variational Approaches for Bayesian Causal Discovery [97.79015388276483]
構造方程式モデル(SEM)は、有向非巡回グラフ(DAG)を介して表される因果関係を推論する効果的な枠組みである。
近年の進歩により、観測データからDAGの有効最大点推定が可能となった。
線形ガウス SEM を特徴付ける DAG 上の分布を推定するための変分フレームワークである BCD Nets を提案する。
論文 参考訳(メタデータ) (2021-12-06T03:35:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。