論文の概要: From Implicit Exploration to Structured Reasoning: Leveraging Guideline and Refinement for LLMs
- arxiv url: http://arxiv.org/abs/2509.06284v1
- Date: Mon, 08 Sep 2025 02:11:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.939392
- Title: From Implicit Exploration to Structured Reasoning: Leveraging Guideline and Refinement for LLMs
- Title(参考訳): 急激な探査から構造的推論へ:LCMのガイドラインとリファインメントの活用
- Authors: Jiaxiang Chen, Zhuo Wang, Mingxi Zou, Zhucong Li, Zhijian Zhou, Song Wang, Zenglin Xu,
- Abstract要約: 本稿では,暗黙的な探索からガイドや改良を通じて構造化された推論へ移行する枠組みを提案する。
まず、成功した軌道から構造的推論パターンを抽出し、失敗から反射信号を抽出する。
推論中、モデルはこれらのガイドラインをステップバイステップで追従し、各ステップの後に改善を加えてエラーを修正し、推論プロセスを安定化させる。
- 参考スコア(独自算出の注目度): 33.17712742134723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have advanced general-purpose reasoning, showing strong performance across diverse tasks. However, existing methods often rely on implicit exploration, where the model follows stochastic and unguided reasoning paths-like walking without a map. This leads to unstable reasoning paths, lack of error correction, and limited learning from past experience. To address these issues, we propose a framework that shifts from implicit exploration to structured reasoning through guideline and refinement. First, we extract structured reasoning patterns from successful trajectories and reflective signals from failures. During inference, the model follows these guidelines step-by-step, with refinement applied after each step to correct errors and stabilize the reasoning process. Experiments on BBH and four additional benchmarks (GSM8K, MATH-500, MBPP, HumanEval) show that our method consistently outperforms strong baselines across diverse reasoning tasks. Structured reasoning with stepwise execution and refinement improves stability and generalization, while guidelines transfer well across domains and flexibly support cross-model collaboration, matching or surpassing supervised fine-tuning in effectiveness and scalability.
- Abstract(参考訳): 大規模言語モデル(LLM)は高度な汎用推論を持ち、多様なタスクで高いパフォーマンスを示す。
しかし、既存の手法はしばしば暗黙の探索に頼り、そのモデルは地図なしで歩くような、確率的でガイドのない推論経路に従う。
これは不安定な推論パス、エラー修正の欠如、過去の経験からの限られた学習につながる。
これらの課題に対処するために、暗黙的な探索から、ガイドや改良を通じて構造化された推論へ移行するフレームワークを提案する。
まず、成功した軌道から構造的推論パターンを抽出し、失敗から反射信号を抽出する。
推論中、モデルはこれらのガイドラインをステップバイステップで追従し、各ステップの後に改善を加えてエラーを修正し、推論プロセスを安定化させる。
BBHと4つのベンチマーク(GSM8K、MATH-500、MBPP、HumanEval)による実験により、我々の手法は様々な推論タスクにおいて強いベースラインを一貫して上回ります。
段階的な実行と改善による構造化推論により安定性と一般化が向上する一方、ガイドラインはドメイン間で良好に伝達され、相互モデル間の協調をサポートし、効率性とスケーラビリティにおいて監督された微調整を適合または超越する。
関連論文リスト
- Implicit Reasoning in Large Language Models: A Comprehensive Survey [67.53966514728383]
大規模言語モデル(LLM)は、幅広いタスクにまたがる強力な一般化を実証している。
最近の研究は、暗黙の推論に拍車をかけた、明示的な思考の連鎖から注意を向けている。
本調査では,表現形式から計算戦略へ焦点を移し,実行パラダイムを中心とした分類を紹介した。
論文 参考訳(メタデータ) (2025-09-02T14:16:02Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - CTRLS: Chain-of-Thought Reasoning via Latent State-Transition [57.51370433303236]
チェーン・オブ・シント(CoT)推論は、大規模な言語モデルで複雑な問題を解釈可能な中間ステップに分解することを可能にする。
我々は,遅延状態遷移を伴うマルコフ決定プロセス(MDP)としてCoT推論を定式化するフレームワークであるgroundingSを紹介する。
我々は、ベンチマーク推論タスクにおける推論精度、多様性、探索効率の改善を示す。
論文 参考訳(メタデータ) (2025-07-10T21:32:18Z) - Guideline Forest: Experience-Induced Multi-Guideline Reasoning with Stepwise Aggregation [37.3874687615554]
本稿では,言語モデル (LLM) 推論を構造化推論戦略,すなわちガイドラインを検証例から導くことによって拡張するフレームワークを提案する。
本手法は, 再利用可能なガイドラインを導出し, 様々なバリエーションに拡張することによって, 検証された推論経験に基づく。
人間の推論と同様に、これらの変種は別の思考パターンを反映し、並列に実行され、自己補正によって洗練され、段階的に集約される。
論文 参考訳(メタデータ) (2025-06-09T14:46:31Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - Deductive Beam Search: Decoding Deducible Rationale for Chain-of-Thought Reasoning [10.86233584217013]
従来の手法では中間段階の推論エラーに対処できず、累積誤差が発生する。
本稿では,大規模言語モデルのステップワイド・ビームサーチとチェーン・オブ・シント推論をシームレスに統合する,導出ビームサーチ(DBS)を提案する。
提案手法は検証器をデプロイし,推論ステップとその前提の再現性を検証し,エラーの蓄積を軽減する。
論文 参考訳(メタデータ) (2024-01-31T09:16:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。