論文の概要: From Implicit Exploration to Structured Reasoning: Leveraging Guideline and Refinement for LLMs
- arxiv url: http://arxiv.org/abs/2509.06284v1
- Date: Mon, 08 Sep 2025 02:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.939392
- Title: From Implicit Exploration to Structured Reasoning: Leveraging Guideline and Refinement for LLMs
- Title(参考訳): 急激な探査から構造的推論へ:LCMのガイドラインとリファインメントの活用
- Authors: Jiaxiang Chen, Zhuo Wang, Mingxi Zou, Zhucong Li, Zhijian Zhou, Song Wang, Zenglin Xu,
- Abstract要約: 本稿では,暗黙的な探索からガイドや改良を通じて構造化された推論へ移行する枠組みを提案する。
まず、成功した軌道から構造的推論パターンを抽出し、失敗から反射信号を抽出する。
推論中、モデルはこれらのガイドラインをステップバイステップで追従し、各ステップの後に改善を加えてエラーを修正し、推論プロセスを安定化させる。
- 参考スコア(独自算出の注目度): 33.17712742134723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have advanced general-purpose reasoning, showing strong performance across diverse tasks. However, existing methods often rely on implicit exploration, where the model follows stochastic and unguided reasoning paths-like walking without a map. This leads to unstable reasoning paths, lack of error correction, and limited learning from past experience. To address these issues, we propose a framework that shifts from implicit exploration to structured reasoning through guideline and refinement. First, we extract structured reasoning patterns from successful trajectories and reflective signals from failures. During inference, the model follows these guidelines step-by-step, with refinement applied after each step to correct errors and stabilize the reasoning process. Experiments on BBH and four additional benchmarks (GSM8K, MATH-500, MBPP, HumanEval) show that our method consistently outperforms strong baselines across diverse reasoning tasks. Structured reasoning with stepwise execution and refinement improves stability and generalization, while guidelines transfer well across domains and flexibly support cross-model collaboration, matching or surpassing supervised fine-tuning in effectiveness and scalability.
- Abstract(参考訳): 大規模言語モデル(LLM)は高度な汎用推論を持ち、多様なタスクで高いパフォーマンスを示す。
しかし、既存の手法はしばしば暗黙の探索に頼り、そのモデルは地図なしで歩くような、確率的でガイドのない推論経路に従う。
これは不安定な推論パス、エラー修正の欠如、過去の経験からの限られた学習につながる。
これらの課題に対処するために、暗黙的な探索から、ガイドや改良を通じて構造化された推論へ移行するフレームワークを提案する。
まず、成功した軌道から構造的推論パターンを抽出し、失敗から反射信号を抽出する。
推論中、モデルはこれらのガイドラインをステップバイステップで追従し、各ステップの後に改善を加えてエラーを修正し、推論プロセスを安定化させる。
BBHと4つのベンチマーク(GSM8K、MATH-500、MBPP、HumanEval)による実験により、我々の手法は様々な推論タスクにおいて強いベースラインを一貫して上回ります。
段階的な実行と改善による構造化推論により安定性と一般化が向上する一方、ガイドラインはドメイン間で良好に伝達され、相互モデル間の協調をサポートし、効率性とスケーラビリティにおいて監督された微調整を適合または超越する。
関連論文リスト
- On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - Learning Structured Reasoning via Tractable Trajectory Control [99.75278337895024]
Ctrl-Rは、トラクタブルな軌道制御を通じて構造化推論を学ぶためのフレームワークである。
Ctrl-Rは,従来達成できなかった推論パターンを効果的に探索し,内部化することができることを示す。
論文 参考訳(メタデータ) (2026-03-02T09:18:19Z) - Dynamics Within Latent Chain-of-Thought: An Empirical Study of Causal Structure [58.89643769707751]
表現空間における潜在連鎖を操作可能な因果過程として研究する。
遅延ステップの予算は、均質な余分な深さよりも、非局所的なルーティングを備えたステージ機能のように振る舞う。
これらの結果は、モード条件と安定性を意識した分析を、潜伏推論システムの解釈と改善のための信頼性の高いツールとして動機付けている。
論文 参考訳(メタデータ) (2026-02-09T15:25:12Z) - Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Efficient Post-Training Refinement of Latent Reasoning in Large Language Models [22.878147805601706]
Chain-of-Thoughtのプロンプトは十分なトークンオーバーヘッドと固定された推論軌道に悩まされ、ステップワイズの改良が妨げられる。
潜在推論の最近の進歩は、モデル潜在空間において内部推論プロセスを直接精製することによってこれらの制限に対処している。
本稿では,2つの新しい戦略を用いて遅延推論軌道を洗練する軽量なポストトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-10T08:17:16Z) - Guideline Forest: Experience-Induced Multi-Guideline Reasoning with Stepwise Aggregation [37.3874687615554]
本稿では,言語モデル (LLM) 推論を構造化推論戦略,すなわちガイドラインを検証例から導くことによって拡張するフレームワークを提案する。
本手法は, 再利用可能なガイドラインを導出し, 様々なバリエーションに拡張することによって, 検証された推論経験に基づく。
人間の推論と同様に、これらの変種は別の思考パターンを反映し、並列に実行され、自己補正によって洗練され、段階的に集約される。
論文 参考訳(メタデータ) (2025-06-09T14:46:31Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning [10.86233584217013]
従来の手法では中間段階の推論エラーに対処できず、累積誤差が発生する。
本稿では,大規模言語モデルのステップワイド・ビームサーチとチェーン・オブ・シント推論をシームレスに統合する,導出ビームサーチ(DBS)を提案する。
提案手法は検証器をデプロイし,推論ステップとその前提の再現性を検証し,エラーの蓄積を軽減する。
論文 参考訳(メタデータ) (2024-01-31T09:16:35Z) - SEER: Facilitating Structured Reasoning and Explanation via Reinforcement Learning [29.514755268807868]
構造的推論と説明を容易にする構造的回帰を最大化する新しい手法であるSEERを提案する。
提案手法は構造的推論に固有の階層構造と分岐構造を正確に記述する。
実験の結果,SEERは最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-01-24T06:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。