論文の概要: Boosting Inference with Guided Reasoning: Stochastic Exploration for Recursive Models
- arxiv url: http://arxiv.org/abs/2605.25230v2
- Date: Tue, 26 May 2026 19:43:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:54.981243
- Title: Boosting Inference with Guided Reasoning: Stochastic Exploration for Recursive Models
- Title(参考訳): 誘導推論による推論の促進:再帰的モデルの確率的探索
- Authors: Andrew Corbett, Archit Sood, Anna Tzatzopoulou, Sai-Aakash Ramesh, Tim Dodwell,
- Abstract要約: 私たちは、構造化推論タスクにおいて、小さなニューラルネットワークが驚くほど強力であることを示します。
我々は、潜在力学系を用いた推論軌道をモデル化する。
我々はこの視点をガイド付き探査を通して運用する。
- 参考スコア(独自算出の注目度): 0.9786690381850356
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work on recursive architectures has shown that tiny neural networks can be surprisingly powerful on structured reasoning tasks. The trick is to model reasoning trajectories with a latent dynamical system. We argue that the inference-time behaviour of these architectures is best understood as approximate inference over latent reasoning trajectories, with deterministic recursion as the one-particle, zero-noise limit. We make this view operational through guided stochastic exploration: stochastic perturbations of the reasoning dynamics propose neighbouring trajectories, and the model's existing early-stopping head reweights them online. The framework yields three label-free diagnostics: local stability, guide alignment, and cloud-token entropy. These predict, from inference traces alone, whether the procedure will help and which of its outputs to trust. On Sudoku-Extreme it lifts exact-solve accuracy from $85.9\%$ to $98.0\%$ without retraining; on Maze-Hard the diagnostics flag a misaligned guide, as validation performance later confirms. The same machinery thus characterises both when recursive reasoning has room to improve at the trajectory level and when the model's internal guide can recover it.
- Abstract(参考訳): 再帰的アーキテクチャに関する最近の研究は、構造化推論タスクにおいて、小さなニューラルネットワークが驚くほど強力であることを示した。
トリックは、潜在力学系で推論軌道をモデル化することである。
これらのアーキテクチャの推論時挙動は、決定論的再帰を1粒子ゼロノイズ極限として、潜在的推論軌道よりも近似的推論として最もよく理解されていると論じる。
推論力学の確率論的摂動は、近隣の軌道を示唆し、モデルの既存の早期停止ヘッドはそれらをオンラインで再重み付けする。
このフレームワークは、ローカル安定性、ガイドアライメント、クラウドトーケンエントロピーの3つのラベルのない診断を提供する。
これらの予測は、推論のみから、手続きが助けになるか、どのアウトプットが信頼されるかを予測する。
Sudoku-Extremeでは、正確な解決精度を85.9\%から9.8.0\%に引き上げる。
したがって、再帰的推論が軌道レベルで改善の余地がある場合と、モデルの内部ガイドがそれを回復できる場合の両方を特徴付ける。
関連論文リスト
- AnE: Pushing the Reasoning Frontier of Multimodal LLMs via Anchor Evolution [61.593935260052795]
Supervised Fine-Tuning (SFT) とReinforcement Learning (RL) による後学習は多モーダル大規模言語モデル(MLLM)における推論の強化に不可欠である
既存のパラダイムは、静的データの制限により、しばしばパフォーマンスのボトルネックに達する。
我々は,真理に順応したデータキュレーションとモデル進化を統合する新しいパラダイムであるアンカー進化(AnE)を提案する。
論文 参考訳(メタデータ) (2026-05-25T08:26:34Z) - Generative Recursive Reasoning [67.22973831501257]
Generative Recursive ReAsoning Models (GRAM) は、潜在的推論を確率論的多軌道に変換するフレームワークである。
GRAMは$p_(y mid x)$で条件推論をサポートし、固定または欠落した入力では$p_(x)$で条件生成を行う。
論文 参考訳(メタデータ) (2026-05-19T05:20:56Z) - Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens [4.0704009036918025]
大規模言語モデルにおける推論は、重要な推論時間計算を引き起こす。
推論トークンは、低エントロピーのテクスト構造トークン(推論過程を足場とするフレーズの再帰)と高エントロピーのテクスト有機トークン(解に向かって進むプロブレム固有のコンテンツ)の2つの機能タイプに分かれていることを示す。
頻繁な構造パターンをキャプチャするテクスチャツペルトケンを導出し、教師付き微調整によりモデルに導入するように教える。
論文 参考訳(メタデータ) (2026-04-29T07:06:43Z) - GTS: Inference-Time Scaling of Latent Reasoning with a Learnable Gaussian Thought Sampler [54.10960908347221]
我々は、学習可能な密度から条件付きサンプリングとして潜在思考探索をモデル化し、このアイデアをガウス思想サンプリング(GTS)としてインスタンス化する。
GTSは、連続的推論状態における文脈依存摂動分布を予測し、バックボーンを凍結させながらGRPOスタイルのポリシー最適化を訓練する。
論文 参考訳(メタデータ) (2026-02-15T09:57:47Z) - Latent Chain-of-Thought? Decoding the Depth-Recurrent Transformer [0.8738725605667471]
CoT(Chain-of- Thought)推論は、トランスフォーマーベースの言語モデルで複雑な数学や多段階計画に優れる。
標準的なデコーダのみのアーキテクチャでは、これらの推論ステップは自然言語で外部化され、効率を犠牲にして解釈性を向上させる。
パラメータ数の増加を伴わずに推論時に層を再利用する深度再帰変換器である Huginn-3.5B にそのような推論構造が出現するかどうかを検討する。
論文 参考訳(メタデータ) (2025-07-02T23:35:21Z) - Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models [86.88657425848547]
大型推論モデル(LRMs)はすでに長い連鎖推論のための潜在能力を持っている。
我々は、自動生成の自己検証タスクを使用して、モデルに推論、帰納、誘拐の3つのメタ能力を持たせることを明確にした。
我々の3つのステージ・パイプラインの個別アライメント、パラメータ空間のマージ、ドメイン固有の強化学習は、命令調整ベースラインと比較して10%以上のパフォーマンス向上を実現します。
論文 参考訳(メタデータ) (2025-05-15T17:58:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。