論文の概要: CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks
- arxiv url: http://arxiv.org/abs/2409.08642v1
- Date: Fri, 13 Sep 2024 08:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 17:18:35.823801
- Title: CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks
- Title(参考訳): CPL:批判的計画段階の学習は、推論タスクにおけるLLMの一般化を促進する
- Authors: Tianlong Wang, Xueting Han, Jing Bai,
- Abstract要約: 批判計画ステップ学習(CPL)を導入し,多段階推論タスクにおける多様な計画ステップについて検討する。
長期的な結果に基づいて、CPLはステップレベルの計画の好みを学び、モデルの計画能力を改善する。
Step-APOは、MCTSを介して得られるステップレベルの選好ペアをDPOに統合する。
- 参考スコア(独自算出の注目度): 2.3978924931284986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training large language models (LLMs) to develop reasoning capabilities has proven effective across diverse domains, such as mathematical reasoning and code generation. However, existing methods primarily focus on improving task-specific reasoning but have not adequately addressed the model's generalization capabilities across a broader range of reasoning tasks. To tackle this challenge, we introduce Critical Planning Step Learning (CPL), which leverages Monte Carlo Tree Search (MCTS) to explore diverse planning steps in multi-step reasoning tasks. Based on long-term outcomes, CPL learns step-level planning preferences to improve the model's planning capabilities and, consequently, its general reasoning capabilities. Furthermore, while effective in many scenarios for aligning LLMs, existing preference learning approaches like Direct Preference Optimization (DPO) struggle with complex multi-step reasoning tasks due to their inability to capture fine-grained supervision at each step. We propose Step-level Advantage Preference Optimization (Step-APO), which integrates an advantage estimate for step-level preference pairs obtained via MCTS into the DPO. This enables the model to more effectively learn critical intermediate planning steps, thereby further improving its generalization in reasoning tasks. Experimental results demonstrate that our method, trained exclusively on GSM8K and MATH, not only significantly improves performance on GSM8K (+10.5%) and MATH (+6.5%), but also enhances out-of-domain reasoning benchmarks, such as ARC-C (+4.0%), BBH (+1.8%), MMLU-STEM (+2.2%), and MMLU (+0.9%).
- Abstract(参考訳): 推論能力を開発するための学習後の大規模言語モデル(LLM)は、数学的推論やコード生成など、様々な領域で有効であることが証明されている。
しかし、既存の手法は主にタスク固有の推論を改善することに重点を置いているが、広範囲の推論タスクにわたってモデルの一般化能力に適切に対処していない。
この課題に対処するために,モンテカルロ木探索(MCTS)を活用し,多段階推論タスクにおける多様な計画ステップを探索するクリティカルプランニングステップ学習(CPL)を紹介した。
長期的な結果に基づいて、CPLは、モデルの計画能力を改善し、その結果、一般的な推論能力を向上させるために、ステップレベルの計画の好みを学ぶ。
さらに、LLMの整合性に多くのシナリオにおいて有効であるが、DPO(Direct Preference Optimization)のような既存の選好学習アプローチは、各ステップできめ細かい監督を捉えることができないため、複雑な多段階推論タスクに苦慮している。
本稿では,MCTSを介して得られるステップレベルの選好ペアの利点推定をDPOに組み込むステップレベルアドバンテージ選好最適化(Step-APO)を提案する。
これにより、モデルが重要な中間計画ステップをより効果的に学習し、推論タスクにおける一般化をさらに改善することができる。
GSM8K(+10.5%),MATH(+6.5%),ARC-C(+4.0%),BBH(+1.8%),MMLU-STEM(+2.2%),MMLU(+0.9%),などの領域外推論ベンチマークも向上した。
関連論文リスト
- Step-Controlled DPO: Leveraging Stepwise Error for Enhanced Mathematical Reasoning [38.127313175508746]
ステップ制御DPOは、特定のステップでエラーを発生させる数学的推論論理の負のサンプルを生成する。
これらのサンプルをDPOトレーニングに適用することにより、SCDPOは推論エラーを理解し、正確な推論ステップを出力するようにモデルを整合させることができる。
論文 参考訳(メタデータ) (2024-06-30T17:59:07Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
古典的計画領域と自然言語シナリオの両方を含むベンチマークスイートを構築した。
第2に、LLM計画の強化にICL(In-context Learning)を用いることについて検討し、文脈長の増大と計画性能の向上の直接的な関係について検討する。
第3に、最適計画パスに対する微調整LDMの正の効果と、モデル駆動探索手法の導入の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z) - Meta Reasoning for Large Language Models [58.87183757029041]
大規模言語モデル(LLM)の新規かつ効率的なシステムプロセッシング手法であるメタ推論プロンプト(MRP)を導入する。
MRPは、各タスクの特定の要求に基づいて異なる推論メソッドを動的に選択し、適用するようLLMに誘導する。
総合的なベンチマークによりMPPの有効性を評価する。
論文 参考訳(メタデータ) (2024-06-17T16:14:11Z) - Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning [55.96599486604344]
本稿では,Large Language Models (LLMs) の推論能力向上を目的とした,反復的な選好学習プロセスによるアプローチを提案する。
我々は、MCTS(Monte Carlo Tree Search)を用いて好みデータを反復的に収集し、そのルックアヘッド機能を利用して、インスタンスレベルの報酬をよりきめ細かいステップレベルの信号に分解する。
提案アルゴリズムはDPO(Direct Preference Optimization)を用いて,新たに生成されたステップレベルの優先度データを用いてLCMポリシーを更新する。
論文 参考訳(メタデータ) (2024-05-01T11:10:24Z) - Insights into Alignment: Evaluating DPO and its Variants Across Multiple Tasks [38.63497972682599]
本研究では,3つのシナリオにまたがるアライメント手法の性能について検討した。
我々の評価は、対話システム、推論、数学的問題解決、質問応答、真理性、マルチタスク理解など、幅広いタスクにまたがる。
重要な観察では、アライメント手法は、より小さなトレーニングデータサブセットで最適なパフォーマンスを達成し、推論タスクにおいて限られた効果を示すが、数学的問題解決には著しく影響し、特に真理性に影響を及ぼす命令付きモデルを用いることが示されている。
論文 参考訳(メタデータ) (2024-04-23T03:55:01Z) - Learning Planning-based Reasoning by Trajectories Collection and Process Reward Synthesizing [61.98556945939045]
収集された軌道上でのDPO(Direct Preference Optimization)を通して計画に基づく推論を学習するフレームワークを提案する。
論理的推論ベンチマークの挑戦的な結果から,学習フレームワークの有効性が示された。
論文 参考訳(メタデータ) (2024-02-01T15:18:33Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。