論文の概要: SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving
- arxiv url: http://arxiv.org/abs/2310.12960v1
- Date: Thu, 19 Oct 2023 17:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 13:44:46.927768
- Title: SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving
- Title(参考訳): SEGO: 数学的問題解決のための逐次部分最適化
- Authors: Xueliang Zhao, Xinting Huang, Wei Bi, Lingpeng Kong
- Abstract要約: 大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 64.38649623473626
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) have driven substantial progress in artificial
intelligence in recent years, exhibiting impressive capabilities across a wide
range of tasks, including mathematical problem-solving. Inspired by the success
of subgoal-based methods, we propose a novel framework called
\textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) to enhance
LLMs' ability to solve mathematical problems. By establishing a connection
between the subgoal breakdown process and the probability of solving problems,
SEGO aims to identify better subgoals with theoretical guarantees. Addressing
the challenge of identifying suitable subgoals in a large solution space, our
framework generates problem-specific subgoals and adjusts them according to
carefully designed criteria. Incorporating these optimized subgoals into the
policy model training leads to significant improvements in problem-solving
performance. We validate SEGO's efficacy through experiments on two benchmarks,
GSM8K and MATH, where our approach outperforms existing methods, highlighting
the potential of SEGO in AI-driven mathematical problem-solving.
Data and code associated with this paper will be available at
https://github.com/zhaoxlpku/SEGO
- Abstract(参考訳): 近年、Large Language Models (LLM) は人工知能の大幅な進歩を導いており、数学的な問題解決を含む幅広いタスクで優れた能力を発揮している。
サブゴール法の成功に触発されて,数理問題を解くための LLM の能力を高めるための新しいフレームワークである \textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) を提案する。
サブゴール分解プロセスと問題解決の確率の関連を確立することで、SEGOは理論的な保証でより良いサブゴールを特定することを目指している。
大規模なソリューション空間において適切なサブゴールを特定するという課題に対処するため,我々のフレームワークは問題固有のサブゴールを生成し,慎重に設計された基準に従って調整する。
これらの最適化されたサブゴールをポリシーモデルトレーニングに組み込むことで、問題解決のパフォーマンスが大幅に向上する。
我々は,本手法が既存の手法を上回っているgsm8kとmathの2つのベンチマークを用いてsegoの有効性を検証し,aiによる数学的問題解決におけるsegoの可能性を強調した。
この論文に関連するデータとコードは、https://github.com/zhaoxlpku/segoで入手できる。
関連論文リスト
- Large Language Models for Combinatorial Optimization of Design Structure Matrix [4.513609458468522]
エンジニアリングアプリケーションの効率と性能を改善するためには、組合せ最適化(CO)が不可欠である。
実世界の工学的問題に関しては、純粋数学的推論に基づくアルゴリズムは限定的であり、最適化に必要な文脈ニュアンスを捉えることができない。
本研究では,工学的CO問題の解法におけるLarge Language Models (LLMs) の可能性について,その推論能力と文脈的知識を活用して検討する。
論文 参考訳(メタデータ) (2024-11-19T15:39:51Z) - Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Machine Learning Insides OptVerse AI Solver: Design Principles and
Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。
本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。
本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文 参考訳(メタデータ) (2024-01-11T15:02:15Z) - Optimizing Solution-Samplers for Combinatorial Problems: The Landscape
of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。
我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。
本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文 参考訳(メタデータ) (2023-10-08T23:39:38Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - A Survey on Influence Maximization: From an ML-Based Combinatorial
Optimization [2.9882027965916413]
影響最大化(IM)は、モバイルネットワーク、ソーシャルコンピューティング、レコメンデーションシステムで広く用いられる古典的な最適化問題である。
主な課題は、IM問題のNP硬度と、影響力の広がりを推定する#P硬度である。
我々は,関連する背景知識,基本原則,共通手法,応用研究の要約に重点を置いている。
論文 参考訳(メタデータ) (2022-11-06T10:13:42Z) - An Efficient Merge Search Matheuristic for Maximising the Net Present
Value of Project Schedules [5.10800491975164]
リソース制約のあるプロジェクトスケジューリングは多くの実用的なアプリケーションにおいて重要な最適化問題である。
本稿では,資源制約のあるプロジェクトスケジューリングを解くために,マージ探索と並列計算に基づく新しい数学ヒューリスティックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:30:23Z) - A General Large Neighborhood Search Framework for Solving Integer Linear
Programs [46.62993477453986]
我々は整数プログラムの解法に重点を置いており、我々のアプローチは大規模近傍探索(SLN)パラダイムに根ざしている。
我々のLSSフレームワークは、Gurobiのような最先端の商用解法と比較して、大幅に性能が向上することを示した。
論文 参考訳(メタデータ) (2020-03-29T23:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。