論文の概要: Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning
- arxiv url: http://arxiv.org/abs/2410.06508v1
- Date: Wed, 9 Oct 2024 03:20:02 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 05:18:55.544861
- Title: Towards Self-Improvement of LLMs via MCTS: Leveraging Stepwise Knowledge with Curriculum Preference Learning
- Title(参考訳): MCTSによるLCMの自己改善に向けて:カリキュラム選好学習による段階的知識の活用
- Authors: Xiyao Wang, Linfeng Song, Ye Tian, Dian Yu, Baolin Peng, Haitao Mi, Furong Huang, Dong Yu,
- Abstract要約: モンテカルロ木探索 (MCTS) はLLMの推論能力を高める強力な手法として登場した。
既存の蒸留法はMCTSによって生成された豊富な軌跡情報を利用する。
提案するAlphaLLM-CPLは, LLMがMCTSの挙動蒸留により自己改善できる新しいペアワイズトレーニングフレームワークである。
- 参考スコア(独自算出の注目度): 70.16816087320585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Monte Carlo Tree Search (MCTS) has recently emerged as a powerful technique for enhancing the reasoning capabilities of LLMs. Techniques such as SFT or DPO have enabled LLMs to distill high-quality behaviors from MCTS, improving their reasoning performance. However, existing distillation methods underutilize the rich trajectory information generated by MCTS, limiting the potential for improvements in LLM reasoning. In this paper, we propose AlphaLLM-CPL, a novel pairwise training framework that enables LLMs to self-improve through MCTS behavior distillation. AlphaLLM-CPL efficiently leverages MCTS trajectories via two key innovations: (1) AlphaLLM-CPL constructs stepwise trajectory pairs from child nodes sharing the same parent in the search tree, providing step-level information for more effective MCTS behavior distillation. (2) AlphaLLM-CPL introduces curriculum preference learning, dynamically adjusting the training sequence of trajectory pairs in each offline training epoch to prioritize critical learning steps and mitigate overfitting. Experimental results on mathematical reasoning tasks demonstrate that AlphaLLM-CPL significantly outperforms previous MCTS behavior distillation methods, substantially boosting the reasoning capabilities of LLMs.
- Abstract(参考訳): モンテカルロ木探索(MCTS)は近年,LLMの推論能力を高めるための強力な手法として登場した。
SFTやDPOのような技術により、LCMはMCTSから高品質な振る舞いを蒸留することができ、推論性能が向上した。
しかし, 既存の蒸留法では, LLM推論の改善の可能性を制限するため, MCTSが生み出す豊富な軌跡情報を活用できない。
本稿では, MCTS の挙動蒸留による LLM の自己改善を可能にする, 対角トレーニングフレームワークである AlphaLLM-CPL を提案する。
AlphaLLM-CPLは、探索木で同じ親を共有する子ノードから段階的に軌道対を構築し、より効果的なMCTS行動蒸留のためのステップレベル情報を提供する。
2)AlphaLLM-CPLは,各オフライントレーニングエポックにおける軌道対のトレーニングシーケンスを動的に調整し,重要な学習ステップの優先順位付けと過剰適合の軽減を目的として,カリキュラム優先学習を導入している。
また,AlphaLLM-CPL は従来の MCTS の挙動蒸留法を著しく上回り,LCM の推論能力を大幅に向上させることを示した。
関連論文リスト
- Teaching LLMs According to Their Aptitude: Adaptive Reasoning for Mathematical Problem Solving [55.895917967408586]
大規模な言語モデルによる数学的推論への既存のアプローチは、一般化可能性(英語版)にはChain-of-Thought(英語版)(CoT)、正確な計算にはTool-Integrated Reasoning(英語版)(TIR)に依存している。
本稿では, LLM が自然に推論戦略をパーソナライズできる適応型フレームワークである TATA (Teaching LLMs according their Aptitude) を提案する。
論文 参考訳(メタデータ) (2025-02-17T16:56:23Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Enhancing Reasoning through Process Supervision with Monte Carlo Tree Search [2.1637240640145343]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な能力を示している。
LLMの推論能力を改善するために、プロセスの監督は結果の監督よりも優れていることが証明されている。
本研究では,モンテカルロ木探索(MCTS)を用いてLLM自体を用いてプロセス監視データを生成する。
論文 参考訳(メタデータ) (2025-01-02T12:09:17Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Distilling Instruction-following Abilities of Large Language Models with Task-aware Curriculum Planning [12.651588927599441]
インストラクションチューニングは、大きな言語モデルにオープンドメイン命令と人間優先応答を合わせることを目的としている。
学生のLLMの追従が難しい命令を選択するために,TAPIR(Task-Aware Curriculum Planning for Instruction Refinement)を導入する。
学生の能力のバランスをとるために、トレーニングセット内のタスク分布は、対応するタスクに応じて自動的に調整された応答で調整される。
論文 参考訳(メタデータ) (2024-05-22T08:38:26Z) - Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing [56.75702900542643]
大規模言語モデルの自己改善のためのAlphaLLMを紹介する。
モンテカルロ木探索(MCTS)とLLMを統合し、自己改善ループを確立する。
実験の結果,AlphaLLM は付加アノテーションを使わずに LLM の性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-04-18T15:21:34Z) - Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。