論文の概要: Guideline Forest: Experience-Induced Multi-Guideline Reasoning with Stepwise Aggregation
- arxiv url: http://arxiv.org/abs/2506.07820v1
- Date: Mon, 09 Jun 2025 14:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:47.142261
- Title: Guideline Forest: Experience-Induced Multi-Guideline Reasoning with Stepwise Aggregation
- Title(参考訳): ガイドラインフォレスト: ステップワイズアグリゲーションによる経験に基づくマルチガイドライン推論
- Authors: Jiaxiang CHen, Zhuo Wang, Mingxi Zou, Qifan Wang, Zenglin Xu,
- Abstract要約: 本稿では,言語モデル (LLM) 推論を構造化推論戦略,すなわちガイドラインを検証例から導くことによって拡張するフレームワークを提案する。
本手法は, 再利用可能なガイドラインを導出し, 様々なバリエーションに拡張することによって, 検証された推論経験に基づく。
人間の推論と同様に、これらの変種は別の思考パターンを反映し、並列に実行され、自己補正によって洗練され、段階的に集約される。
- 参考スコア(独自算出の注目度): 37.3874687615554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human reasoning is flexible, adaptive, and grounded in prior experience-qualities that large language models (LLMs) still struggle to emulate. Existing methods either explore diverse reasoning paths at inference time or search for optimal workflows through expensive operations, but both fall short in leveraging multiple reusable strategies in a structured, efficient manner. We propose Guideline Forest, a framework that enhances LLMs reasoning by inducing structured reasoning strategies-called guidelines-from verified examples and executing them via step-wise aggregation. Unlike test-time search or single-path distillation, our method draws on verified reasoning experiences by inducing reusable guidelines and expanding each into diverse variants. Much like human reasoning, these variants reflect alternative thought patterns, are executed in parallel, refined via self-correction, and aggregated step by step-enabling the model to adaptively resolve uncertainty and synthesize robust solutions.We evaluate Guideline Forest on four benchmarks-GSM8K, MATH-500, MBPP, and HumanEval-spanning mathematical and programmatic reasoning. Guideline Forest consistently outperforms strong baselines, including CoT, ReAct, ToT, FoT, and AFlow. Ablation studies further highlight the effectiveness of multi-path reasoning and stepwise aggregation, underscoring the Guideline Forest's adaptability and generalization potential.
- Abstract(参考訳): 人間の推論は柔軟で適応的であり、大きな言語モデル(LLM)がいまだエミュレートに苦慮している経験的品質に基礎を置いている。
既存の手法は、推論時に様々な推論経路を探索するか、高価な操作を通して最適なワークフローを探索するが、どちらも構造化された効率的な方法で複数の再利用可能な戦略を活用するには不十分である。
提案するガイドラインフォレスト(ガイドラインフォレスト)は,構造化推論戦略(ガイドラインと呼ばれるガイドライン)を実証例から誘導し,ステップワイズアグリゲーションによって実行することにより,LCMの推論を強化するフレームワークである。
試験時間探索や単一経路蒸留とは違って, 再利用可能なガイドラインを導出し, 様々なバリエーションに拡張することで, 検証された推論経験を生かした。
我々はGSM8K、MATH-500、MBPP、HumanEval-spanningの4つのベンチマークで、ガイドラインフォレストの評価を行った。
ガイドラインフォレストは、CoT、ReAct、ToT、FoT、AFlowなどの強力なベースラインを一貫して上回っている。
アブレーション研究は、多経路推論と段階的な集約の有効性をさらに強調し、ガイドラインフォレストの適応性と一般化の可能性を強調している。
関連論文リスト
- Ada-R1: Hybrid-CoT via Bi-Level Adaptive Reasoning Optimization [86.56120216550232]
適応的で効率的な推論のための新しい2段階のフレームワークを提案する。
まず、長いCoTモデルと短いCoTモデルを組み合わせてハイブリッド推論モデルを構築する。
第二に、モデルに適切な推論スタイルを選択するための2段階の選好訓練を適用する。
論文 参考訳(メタデータ) (2025-04-30T14:01:45Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - AdaptiveStep: Automatically Dividing Reasoning Step through Model Confidence [29.551802573731305]
本稿では,モデルが次の単語を予測する自信に基づいて推論ステップを分割する手法であるAdaptiveStepを提案する。
数理推論およびコード生成タスクにおいて,AdaptiveStep-trained PRMを用いた実験により実効性を示す。
論文 参考訳(メタデータ) (2025-02-19T18:35:55Z) - Forest-of-Thought: Scaling Test-Time Compute for Enhancing LLM Reasoning [40.069109287947875]
我々はフォレスト・オブ・サート(FoT)と呼ばれる新しい推論フレームワークを提案する。
FoTは複数の推論木を統合し、複雑な論理問題を解くために集合的な意思決定を活用する。
FoTは、最も関連性の高い推論パスを選択するためにスパースアクティベーション戦略を採用し、効率と精度の両方を改善している。
論文 参考訳(メタデータ) (2024-12-12T09:01:18Z) - Unlocking the Capabilities of Thought: A Reasoning Boundary Framework to Quantify and Optimize Chain-of-Thought [61.588465852846646]
大型言語モデル(LLM)の性能向上のための有望なアプローチとして、Chain-of-Thought(CoT)推論が登場した。
本稿では,これらの課題に対処するための新しい推論境界フレームワーク(RBF)を提案する。
論文 参考訳(メタデータ) (2024-10-08T05:26:28Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。