論文の概要: GPO: Learning from Critical Steps to Improve LLM Reasoning
- arxiv url: http://arxiv.org/abs/2509.16456v1
- Date: Fri, 19 Sep 2025 22:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.801679
- Title: GPO: Learning from Critical Steps to Improve LLM Reasoning
- Title(参考訳): GPO: LLM推論を改善するために重要なステップから学ぶ
- Authors: Jiahao Yu, Zelei Cheng, Xian Wu, Xinyu Xing,
- Abstract要約: textbfGuided textbfPivotal textbfOptimization (GPO)を導入する。
GPOは様々な最適化手法と統合して推論性能を向上させるための一般的な戦略であることを実証する。
- 参考スコア(独自算出の注目度): 13.271737599933147
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are increasingly used in various domains, showing impressive potential on different tasks. Recently, reasoning LLMs have been proposed to improve the \textit{reasoning} or \textit{thinking} capabilities of LLMs to solve complex problems. Despite the promising results of reasoning LLMs, enhancing the multi-step reasoning capabilities of LLMs still remains a significant challenge. While existing optimization methods have advanced the LLM reasoning capabilities, they often treat reasoning trajectories as a whole, without considering the underlying critical steps within the trajectory. In this paper, we introduce \textbf{G}uided \textbf{P}ivotal \textbf{O}ptimization (GPO), a novel fine-tuning strategy that dives into the reasoning process to enable more effective improvements. GPO first identifies the `critical step' within a reasoning trajectory - a point that the model must carefully proceed to succeed at the problem. We locate the critical step by estimating the advantage function. GPO then resets the policy to the critical step, samples the new rollout and prioritizes the learning process on those rollouts. This focus allows the model to learn more effectively from pivotal moments within the reasoning process to improve the reasoning performance. We demonstrate that GPO is a general strategy that can be integrated with various optimization methods to improve reasoning performance. Besides theoretical analysis, our experiments across challenging reasoning benchmarks show that GPO can consistently and significantly enhance the performance of existing optimization methods, showcasing its effectiveness and generalizability in improving LLM reasoning by concentrating on pivotal moments within the generation process.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域でますます使われており、様々なタスクにおいて顕著なポテンシャルを示している。
近年、LCMの推論は、複雑な問題を解決するために、LCMの \textit{reasoning} や \textit{thinking} の能力を改善するために提案されている。
LLMの推論の有望な結果にもかかわらず、LLMの多段階推論能力の向上は依然として大きな課題である。
既存の最適化手法はLSM推論能力を進歩させてきたが、軌道の根底にある重要なステップを考慮せずに、推論軌道全体を扱うことが多い。
本稿では,より効果的な改善を実現するため,推論プロセスに飛び込み,新しい微調整戦略である \textbf{G}uided \textbf{P}ivotal \textbf{O}ptimization (GPO)を紹介する。
GPOはまず、推論の軌道内での‘クリティカルなステップ’を識別します。
優位関数を推定することで重要なステップを見つける。
そして、GPOはポリシーをクリティカルステップにリセットし、新しいロールアウトをサンプリングし、それらのロールアウトで学習プロセスを優先順位付けする。
この焦点により、モデルは推論プロセス内の重要な瞬間からより効果的に学習し、推論のパフォーマンスを改善することができる。
GPOは様々な最適化手法と統合して推論性能を向上させるための一般的な戦略であることを実証する。
理論的解析の他に,GPOは従来の最適化手法の性能を継続的に,かつ著しく向上させ,生成過程における重要なモーメントに集中してLLM推論を改善する上での有効性と一般化性を示す。
関連論文リスト
- Feedback-Induced Performance Decline in LLM-Based Decision-Making [6.5990946334144756]
大規模言語モデル(LLM)は、自然言語の問題記述からコンテキストを抽出することができる。
本稿では,マルコフ決定過程(MDP)におけるこれらのモデルの挙動について考察する。
論文 参考訳(メタデータ) (2025-07-20T10:38:56Z) - R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization [86.32257216965229]
そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
論文 参考訳(メタデータ) (2025-03-17T08:51:44Z) - Meta-Reasoner: Dynamic Guidance for Optimized Inference-time Reasoning in Large Language Models [35.82665698868508]
大規模言語モデル(LLM)は、推論時間の間に高い計算時間とエラーの伝播に苦労する。
提案するMeta-Reasonerは,LLMが推論時間における推論方法の戦略を調整することで,推論計算を最適化するための新しいフレームワークである。
提案手法は,従来のSOTA法よりも9~12%向上し,推論時間を28~35%短縮する。
論文 参考訳(メタデータ) (2025-02-27T09:40:13Z) - Are Language Models Up to Sequential Optimization Problems? From Evaluation to a Hegelian-Inspired Enhancement [0.0]
大規模言語モデル(LLM)は多くの分野にまたがって印象的な能力を示している。
本稿では、逐次最適化問題(SOP)におけるLLMの熟練度について考察する。
We introduced WorldGen, a dynamic framework for generate unseen SOPs with controllable complexities。
ヘーゲル弁証学の影響力ある枠組みに触発され,SOP文脈におけるLLMの性能が著しく向上することを示すACEを提案する。
論文 参考訳(メタデータ) (2025-02-04T18:47:31Z) - Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning [53.6472920229013]
大規模言語モデル(LLM)は多くの自然言語タスクにおいて印象的な能力を示している。
LLMは多段階推論を行う際にエラー、幻覚、矛盾する文を生成する傾向がある。
本稿では,LLMの復号化過程を検討計画で導くためのフレームワークであるQ*を紹介する。
論文 参考訳(メタデータ) (2024-06-20T13:08:09Z) - Unleashing the Potential of Large Language Models as Prompt Optimizers: Analogical Analysis with Gradient-based Model Optimizers [108.72225067368592]
本稿では,大規模言語モデル(LLM)に基づくプロンプトの設計について検討する。
モデルパラメータ学習における2つの重要な要素を同定する。
グラディエントにインスパイアされた Prompt ベースの GPO を開発した。
論文 参考訳(メタデータ) (2024-02-27T15:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。