Fugu-MT 論文翻訳(概要): SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving

論文の概要: SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving

arxiv url: http://arxiv.org/abs/2310.12960v1
Date: Thu, 19 Oct 2023 17:56:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 13:44:46.927768
Title: SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving
Title（参考訳）: SEGO: 数学的問題解決のための逐次部分最適化
Authors: Xueliang Zhao, Xinting Huang, Wei Bi, Lingpeng Kong
Abstract要約: 大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
参考スコア（独自算出の注目度）: 64.38649623473626
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) have driven substantial progress in artificial intelligence in recent years, exhibiting impressive capabilities across a wide range of tasks, including mathematical problem-solving. Inspired by the success of subgoal-based methods, we propose a novel framework called \textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) to enhance LLMs' ability to solve mathematical problems. By establishing a connection between the subgoal breakdown process and the probability of solving problems, SEGO aims to identify better subgoals with theoretical guarantees. Addressing the challenge of identifying suitable subgoals in a large solution space, our framework generates problem-specific subgoals and adjusts them according to carefully designed criteria. Incorporating these optimized subgoals into the policy model training leads to significant improvements in problem-solving performance. We validate SEGO's efficacy through experiments on two benchmarks, GSM8K and MATH, where our approach outperforms existing methods, highlighting the potential of SEGO in AI-driven mathematical problem-solving. Data and code associated with this paper will be available at https://github.com/zhaoxlpku/SEGO
Abstract（参考訳）: 近年、Large Language Models (LLM) は人工知能の大幅な進歩を導いており、数学的な問題解決を含む幅広いタスクで優れた能力を発揮している。サブゴール法の成功に触発されて,数理問題を解くための LLM の能力を高めるための新しいフレームワークである \textbf{SE}quential sub\textbf{G}oal \textbf{O}ptimization (SEGO) を提案する。サブゴール分解プロセスと問題解決の確率の関連を確立することで、SEGOは理論的な保証でより良いサブゴールを特定することを目指している。大規模なソリューション空間において適切なサブゴールを特定するという課題に対処するため,我々のフレームワークは問題固有のサブゴールを生成し,慎重に設計された基準に従って調整する。これらの最適化されたサブゴールをポリシーモデルトレーニングに組み込むことで、問題解決のパフォーマンスが大幅に向上する。我々は,本手法が既存の手法を上回っているgsm8kとmathの2つのベンチマークを用いてsegoの有効性を検証し,aiによる数学的問題解決におけるsegoの可能性を強調した。この論文に関連するデータとコードは、https://github.com/zhaoxlpku/segoで入手できる。

関連論文リスト

Swarm Intelligence Enhanced Reasoning: A Density-Driven Framework for LLM-Based Multi-Agent Optimization [18.912255448200888]
本稿では,新しいエージェントベースのSwarm Intelligence(ASI)パラダイムを導入することにより,Swarmインテリジェンスを推論プロセスに統合することを提案する。そこで我々は,Swarm Intelligence Enhancing Reasoningフレームワークを開発した。
論文参考訳（メタデータ） (2025-05-21T15:48:13Z)
A Survey on Mathematical Reasoning and Optimization with Large Language Models [0.5439020425819]
大規模言語モデル(LLM)の最近の進歩は、AIによる数学的推論、定理証明、最適化技術を大幅に改善している。この調査は、AIにおける数学的問題解決の進化を、初期の統計的学習アプローチから近代的なディープラーニングやトランスフォーマーに基づく方法論まで調査する。
論文参考訳（メタデータ） (2025-03-22T10:49:32Z)
Text2Zinc: A Cross-Domain Dataset for Modeling Optimization and Satisfaction Problems in MiniZinc [2.6217304977339473]
本稿では,自然言語テキストの最適化と満足度問題に対処するクロスドメインデータセットであるText2Zincを紹介する。我々の研究は、満足度と最適化の問題の両方を統合データセットに統合することで、以前の試みと区別されている。以上の結果から, LLMはテキストから問題をモデル化するためのプッシュボタン技術ではないことが示唆された。
論文参考訳（メタデータ） (2025-02-22T04:13:53Z)
MathFimer: Enhancing Mathematical Reasoning by Expanding Reasoning Steps through Fill-in-the-Middle Task [49.355810887265925]
数学的推論ステップ拡張のための新しいフレームワークであるMathFimerを紹介する。我々は、慎重にキュレートしたNuminaMath-FIMデータセットに基づいて、特殊モデルMathFimer-7Bを開発した。次に、これらのモデルを適用して、解鎖に詳細な中間ステップを挿入することで、既存の数学的推論データセットを強化する。
論文参考訳（メタデータ） (2025-02-17T11:22:24Z)
Large Language Models for Combinatorial Optimization of Design Structure Matrix [4.513609458468522]
エンジニアリングアプリケーションの効率と性能を改善するためには、組合せ最適化(CO)が不可欠である。実世界の工学的問題に関しては、純粋数学的推論に基づくアルゴリズムは限定的であり、最適化に必要な文脈ニュアンスを捉えることができない。本研究では,工学的CO問題の解法におけるLarge Language Models (LLMs) の可能性について,その推論能力と文脈的知識を活用して検討する。
論文参考訳（メタデータ） (2024-11-19T15:39:51Z)
Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。 GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文参考訳（メタデータ） (2024-10-11T23:29:20Z)
LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文参考訳（メタデータ） (2024-10-03T18:12:29Z)
Machine Learning Insides OptVerse AI Solver: Design Principles and Applications [74.67495900436728]
本稿では,Huawei CloudのOpsVerse AIソルバに機械学習(ML)技術を統合するための総合的研究について述べる。本稿では,実世界の多面構造を反映した生成モデルを用いて,複雑なSATインスタンスとMILPインスタンスを生成する手法を紹介する。本稿では,解解器性能を著しく向上させる,最先端パラメータチューニングアルゴリズムの導入について詳述する。
論文参考訳（メタデータ） (2024-01-11T15:02:15Z)
Optimizing Solution-Samplers for Combinatorial Problems: The Landscape of Policy-Gradient Methods [52.0617030129699]
本稿では,DeepMatching NetworksとReinforcement Learningメソッドの有効性を解析するための新しい理論フレームワークを提案する。我々の主な貢献は、Max- and Min-Cut、Max-$k$-Bipartite-Bi、Maximum-Weight-Bipartite-Bi、Traveing Salesman Problemを含む幅広い問題である。本分析の副産物として,バニラ降下による新たな正則化プロセスを導入し,失効する段階的な問題に対処し,悪い静止点から逃れる上で有効であることを示す理論的および実験的証拠を提供する。
論文参考訳（メタデータ） (2023-10-08T23:39:38Z)
Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2023-01-30T15:04:39Z)
A Survey on Influence Maximization: From an ML-Based Combinatorial Optimization [2.9882027965916413]
影響最大化(IM)は、モバイルネットワーク、ソーシャルコンピューティング、レコメンデーションシステムで広く用いられる古典的な最適化問題である。主な課題は、IM問題のNP硬度と、影響力の広がりを推定する#P硬度である。我々は,関連する背景知識,基本原則,共通手法,応用研究の要約に重点を置いている。
論文参考訳（メタデータ） (2022-11-06T10:13:42Z)
An Efficient Merge Search Matheuristic for Maximising the Net Present Value of Project Schedules [5.10800491975164]
リソース制約のあるプロジェクトスケジューリングは多くの実用的なアプリケーションにおいて重要な最適化問題である。本稿では,資源制約のあるプロジェクトスケジューリングを解くために,マージ探索と並列計算に基づく新しい数学ヒューリスティックアルゴリズムを提案する。
論文参考訳（メタデータ） (2022-10-20T13:30:23Z)
Meta-Learning with Neural Tangent Kernels [58.06951624702086]
メタモデルのニューラルタンジェントカーネル(NTK)によって誘導される再生カーネルヒルベルト空間(RKHS)における最初のメタラーニングパラダイムを提案する。このパラダイムでは,MAMLフレームワークのように,最適な反復内ループ適応を必要としない2つのメタ学習アルゴリズムを導入する。本研究の目的は,1) 適応をRKHSの高速適応正則化器に置き換えること,2) NTK理論に基づいて解析的に適応を解くことである。
論文参考訳（メタデータ） (2021-02-07T20:53:23Z)
A General Large Neighborhood Search Framework for Solving Integer Linear Programs [46.62993477453986]
我々は整数プログラムの解法に重点を置いており、我々のアプローチは大規模近傍探索(SLN)パラダイムに根ざしている。我々のLSSフレームワークは、Gurobiのような最先端の商用解法と比較して、大幅に性能が向上することを示した。
論文参考訳（メタデータ） (2020-03-29T23:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。