論文の概要: PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving
- arxiv url: http://arxiv.org/abs/2507.07495v1
- Date: Thu, 10 Jul 2025 07:30:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.305373
- Title: PLAN-TUNING: Post-Training Language Models to Learn Step-by-Step Planning for Complex Problem Solving
- Title(参考訳): PLAN-TUNING:複雑な問題解決のためのステップ・バイ・ステップ計画学習言語モデル
- Authors: Mihir Parmar, Palash Goyal, Xin Liu, Yiwen Song, Mingyang Ling, Chitta Baral, Hamid Palangi, Tomas Pfister,
- Abstract要約: 大規模言語モデルから合成タスク分解を蒸留するフレームワークであるPLAN-TUNINGを紹介する。
複雑な推論を改善するために、教師付きおよび強化学習の目的を通したプランチューン細管モデル。
本分析は,計画軌道が複雑な推論能力をいかに改善するかを示す。
- 参考スコア(独自算出の注目度): 66.42260489147617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, decomposing complex problems into simple subtasks--a crucial part of human-like natural planning--to solve the given problem has significantly boosted the performance of large language models (LLMs). However, leveraging such planning structures during post-training to boost the performance of smaller open-source LLMs remains underexplored. Motivated by this, we introduce PLAN-TUNING, a unified post-training framework that (i) distills synthetic task decompositions (termed "planning trajectories") from large-scale LLMs and (ii) fine-tunes smaller models via supervised and reinforcement-learning objectives designed to mimic these planning processes to improve complex reasoning. On GSM8k and the MATH benchmarks, plan-tuned models outperform strong baselines by an average $\sim7\%$. Furthermore, plan-tuned models show better generalization capabilities on out-of-domain datasets, with average $\sim10\%$ and $\sim12\%$ performance improvements on OlympiadBench and AIME 2024, respectively. Our detailed analysis demonstrates how planning trajectories improves complex reasoning capabilities, showing that PLAN-TUNING is an effective strategy for improving task-specific performance of smaller LLMs.
- Abstract(参考訳): 近年,複雑な問題を単純なサブタスクに分解する作業が,言語モデル(LLM)の性能を大幅に向上させた。
しかし, ポストトレーニング中にそのような計画構造を活用して, 小型のオープンソース LLM の性能向上を図っている。
これを受けて、我々はPLAN-TUNINGという統合されたポストトレーニングフレームワークを導入した。
一 大規模LCMから合成作業分解(「計画軌道」という。)を蒸留し、
(II)複雑な推論を改善するためにこれらの計画プロセスを模倣した教師付きおよび強化学習目的による細粒度小型モデル。
GSM8kとMATHベンチマークでは、プランチューニングされたモデルは、平均$\sim7\%$で強いベースラインを上回ります。
さらに、プランチューニングモデルでは、ドメイン外のデータセットに対して、平均$\sim10\%$と$\sim12\%$で、それぞれOlympiadBenchとAIME 2024のパフォーマンスが改善されている。
本稿では,プランニングトラジェクトリが複雑な推論能力をどのように向上させるかを示すとともに,PLAN-TUNINGがより小さなLLMのタスク固有性能向上に有効な戦略であることを示す。
関連論文リスト
- CPL: Critical Plan Step Learning Boosts LLM Generalization in Reasoning Tasks [2.9449838351181374]
後学習,特に強化学習は,大規模言語モデル(LLM)の新しい学習パラダイムとなった
モデル一般化を強化するための高レベルの抽象計画について,アクション空間内での探索を提案する。
GSM8KとMATHを専門にトレーニングした本手法は,性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2024-09-13T08:59:31Z) - Learning to Plan for Retrieval-Augmented Large Language Models from Knowledge Graphs [59.76268575344119]
知識グラフ(KG)から得られた計画データを用いて,大規模言語モデル(LLM)計画能力を向上するための新しいフレームワークを提案する。
KGデータで微調整されたLLMは、計画能力を向上し、検索を含む複雑なQAタスクを処理するのがより適している。
論文 参考訳(メタデータ) (2024-06-20T13:07:38Z) - Exploring and Benchmarking the Planning Capabilities of Large Language Models [57.23454975238014]
この研究は、大規模言語モデル(LLM)の計画能力を改善するための基礎を築いた。
我々は、古典的な計画ベンチマークと自然言語シナリオの両方を含む包括的なベンチマークスイートを構築した。
本研究は,LLM計画の強化を目的としたマルチショットインコンテキスト学習について検討し,文脈長の増大と計画性能の向上の関係について検討する。
論文 参考訳(メタデータ) (2024-06-18T22:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。