論文の概要: Guideline Forest: Experience-Induced Multi-Guideline Reasoning with Stepwise Aggregation
- arxiv url: http://arxiv.org/abs/2506.07820v2
- Date: Tue, 10 Jun 2025 02:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.306562
- Title: Guideline Forest: Experience-Induced Multi-Guideline Reasoning with Stepwise Aggregation
- Title(参考訳): ガイドラインフォレスト: ステップワイズアグリゲーションによる経験に基づくマルチガイドライン推論
- Authors: Jiaxiang Chen, Zhuo Wang, Mingxi Zou, Qifan Wang, Zenglin Xu,
- Abstract要約: 本稿では,言語モデル (LLM) 推論を構造化推論戦略,すなわちガイドラインを検証例から導くことによって拡張するフレームワークを提案する。
本手法は, 再利用可能なガイドラインを導出し, 様々なバリエーションに拡張することによって, 検証された推論経験に基づく。
人間の推論と同様に、これらの変種は別の思考パターンを反映し、並列に実行され、自己補正によって洗練され、段階的に集約される。
- 参考スコア(独自算出の注目度): 37.3874687615554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human reasoning is flexible, adaptive, and grounded in prior experience-qualities that large language models (LLMs) still struggle to emulate. Existing methods either explore diverse reasoning paths at inference time or search for optimal workflows through expensive operations, but both fall short in leveraging multiple reusable strategies in a structured, efficient manner. We propose Guideline Forest, a framework that enhances LLMs reasoning by inducing structured reasoning strategies-called guidelines-from verified examples and executing them via step-wise aggregation. Unlike test-time search or single-path distillation, our method draws on verified reasoning experiences by inducing reusable guidelines and expanding each into diverse variants. Much like human reasoning, these variants reflect alternative thought patterns, are executed in parallel, refined via self-correction, and aggregated step by step-enabling the model to adaptively resolve uncertainty and synthesize robust solutions.We evaluate Guideline Forest on four benchmarks-GSM8K, MATH-500, MBPP, and HumanEval-spanning mathematical and programmatic reasoning. Guideline Forest consistently outperforms strong baselines, including CoT, ReAct, ToT, FoT, and AFlow. Ablation studies further highlight the effectiveness of multi-path reasoning and stepwise aggregation, underscoring the Guideline Forest's adaptability and generalization potential.
- Abstract(参考訳): 人間の推論は柔軟で適応的であり、大きな言語モデル(LLM)がいまだエミュレートに苦慮している経験的品質に基礎を置いている。
既存の手法は、推論時に様々な推論経路を探索するか、高価な操作を通して最適なワークフローを探索するが、どちらも構造化された効率的な方法で複数の再利用可能な戦略を活用するには不十分である。
提案するガイドラインフォレスト(ガイドラインフォレスト)は,構造化推論戦略(ガイドラインと呼ばれるガイドライン)を実証例から誘導し,ステップワイズアグリゲーションによって実行することにより,LCMの推論を強化するフレームワークである。
試験時間探索や単一経路蒸留とは違って, 再利用可能なガイドラインを導出し, 様々なバリエーションに拡張することで, 検証された推論経験を生かした。
我々はGSM8K、MATH-500、MBPP、HumanEval-spanningの4つのベンチマークで、ガイドラインフォレストの評価を行った。
ガイドラインフォレストは、CoT、ReAct、ToT、FoT、AFlowなどの強力なベースラインを一貫して上回っている。
アブレーション研究は、多経路推論と段階的な集約の有効性をさらに強調し、ガイドラインフォレストの適応性と一般化の可能性を強調している。
関連論文リスト
- SCULPT: Constraint-Guided Pruned MCTS that Carves Efficient Paths for Mathematical Reasoning [11.991985041067638]
本稿では,モンテカルロ木探索(MCTS)における制約誘導手法SCULPTを紹介する。
SCULPTは、シンボルチェック(次元整合性、型整合性、大きさの正しさ、深さ制御、多様性)と構造パターンガイダンスを組み合わせることで、スコアとプルーンのアクションを出力する。
全体として、ドメイン認識の制約は効率と安定性を維持しながら精度を向上させることができる。
論文 参考訳(メタデータ) (2026-01-19T08:55:46Z) - Enhancing Self-Correction in Large Language Models through Multi-Perspective Reflection [0.33625320078410365]
MyGO Poly-Reflective Chain-of-Thought (PR-CoT) は構造化多重反射を用いた新しい手法である。
最初のCoTは、モデルの再訓練なしに、より堅牢で正確な最終回答へと洗練される。
従来のCoTや既存のリフレクション手法よりも論理的整合性や誤り訂正に優れています。
論文 参考訳(メタデータ) (2026-01-12T17:57:05Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - A Survey on Parallel Reasoning [58.66122129692264]
まず、並列推論の形式的定義を示し、その区別をChain-of-Thoughtのような関連する概念と明確にする。
次に、非対話的推論、対話的推論、効率を重視した復号戦略を含む、新しい分類法に基づく高度な手法を編成し、議論する。
並列推論の中核的な課題を強調し,今後の研究の方向性を示唆する。
論文 参考訳(メタデータ) (2025-10-14T05:42:19Z) - Thinking in Many Modes: How Composite Reasoning Elevates Large Language Model Performance with Limited Data [1.7194419006128259]
複合推論(CR)は、大規模言語モデル(LLM)を活用して複数の推論スタイルを探索し組み合わせる新しい推論手法である。
科学的および医学的な質問応答ベンチマークで評価する。
その結果, LLMは内部推論スタイルの多様性を育むことで, より堅牢で適応的で効率的な問題解決能力を得ることができた。
論文 参考訳(メタデータ) (2025-09-26T11:38:03Z) - From Implicit Exploration to Structured Reasoning: Leveraging Guideline and Refinement for LLMs [33.17712742134723]
本稿では,暗黙的な探索からガイドや改良を通じて構造化された推論へ移行する枠組みを提案する。
まず、成功した軌道から構造的推論パターンを抽出し、失敗から反射信号を抽出する。
推論中、モデルはこれらのガイドラインをステップバイステップで追従し、各ステップの後に改善を加えてエラーを修正し、推論プロセスを安定化させる。
論文 参考訳(メタデータ) (2025-09-08T02:11:49Z) - When Punctuation Matters: A Large-Scale Comparison of Prompt Robustness Methods for LLMs [55.20230501807337]
本報告では, 統一実験フレームワーク内での迅速なロバスト性向上のための5つの手法の体系的評価を行う。
Llama、Qwen、Gemmaファミリーの8つのモデルに対して、Natural Instructionsデータセットから52のタスクをベンチマークする。
論文 参考訳(メタデータ) (2025-08-15T10:32:50Z) - Fractional Reasoning via Latent Steering Vectors Improves Inference Time Compute [57.16286134405821]
本稿では,推論時の推論強度を連続的に制御するフレームワークであるフラクショナル推論を提案する。
提案手法は, より深い推論を伴う潜在ステアリングベクトルを抽出し, 調整可能なスケーリング係数で再適用することによって機能する。
GSM8K、MATH500、GPQAの実験により、フラクショナル推論は様々な推論タスクやモデルのパフォーマンスを一貫して改善することを示した。
論文 参考訳(メタデータ) (2025-06-18T21:15:59Z) - RuleReasoner: Reinforced Rule-based Reasoning via Domain-aware Dynamic Sampling [25.12721060984898]
ルールに基づく推論は、推論における根本的な問題の1つとして認識されている。
本稿ではルールベースの推論を行うシンプルな方法であるReinforced Rule-based Reasoning、すなわち RuleReasonerを紹介する。
具体的には、過去の報酬に基づいて異なるドメインのサンプリング重みを更新することで、Re RuleReasonerは各トレーニングバッチを再サンプリングする。
論文 参考訳(メタデータ) (2025-06-10T10:31:21Z) - Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models [35.82665698868508]
大規模言語モデルは、複雑なタスクを解決するために、より長い推論チェーンに依存している。
この試行錯誤アプローチは、しばしば高い計算オーバーヘッドとエラーの伝播をもたらす。
推論時間推論を動的に最適化するフレームワークであるMeta-Reasonerを紹介する。
論文 参考訳(メタデータ) (2025-02-27T09:40:13Z) - AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence [29.551802573731305]
本稿では,モデルが次の単語を予測する自信に基づいて推論ステップを分割する手法であるAdaptiveStepを提案する。
数理推論およびコード生成タスクにおいて,AdaptiveStep-trained PRMを用いた実験により実効性を示す。
論文 参考訳(メタデータ) (2025-02-19T18:35:55Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - PRefLexOR: Preference-based Recursive Language Modeling for Exploratory Optimization of Reasoning and Agentic Thinking [0.0]
PRefLexORは、好みの最適化と強化学習の概念を組み合わせることで、モデルを自己学習可能にする。
本研究は, 生体材料科学の応用に焦点をあて, 様々なケーススタディでその手法を実証する。
論文 参考訳(メタデータ) (2024-10-16T08:46:26Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。