論文の概要: Benchmarking LLMs for Optimization Modeling and Enhancing Reasoning via Reverse Socratic Synthesis
- arxiv url: http://arxiv.org/abs/2407.09887v1
- Date: Sat, 13 Jul 2024 13:27:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-16 20:27:46.243732
- Title: Benchmarking LLMs for Optimization Modeling and Enhancing Reasoning via Reverse Socratic Synthesis
- Title(参考訳): 逆ソクラテス合成による最適化モデリングと推論の強化のためのベンチマークLLM
- Authors: Zhicheng Yang, Yinya Huang, Wei Shi, Liang Feng, Linqi Song, Yiwei Wang, Xiaodan Liang, Jing Tang,
- Abstract要約: 大規模言語モデル(LLM)は、数学的推論においてその問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるE-OPTを提案する。
- 参考スコア(独自算出の注目度): 60.23133327001978
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have exhibited their problem-solving ability in mathematical reasoning. Solving realistic optimization (OPT) problems in industrial application scenarios requires advanced and applied math ability. However, current OPT benchmarks that merely solve linear programming are far from complex realistic situations. In this work, we propose E-OPT, a benchmark for end-to-end optimization problem-solving with human-readable inputs and outputs. E-OPT contains rich optimization problems, including linear/nonlinear programming with/without table data, which can comprehensively evaluate LLMs' solving ability. In our benchmark, LLMs are required to correctly understand the problem in E-OPT and call code solver to get precise numerical answers. Furthermore, to alleviate the data scarcity for optimization problems, and to bridge the gap between open-source LLMs on a small scale (e.g., Llama-2-7b and Llama-3-8b) and closed-source LLMs (e.g., GPT-4), we further propose a novel data synthesis method namely ReSocratic. Unlike general data synthesis methods that proceed from questions to answers, ReSocratic first incrementally synthesizes optimization scenarios with mathematical formulations step by step and then back-translates the generated scenarios into questions. In such a way, we construct the ReSocratic-29k dataset from a small seed sample pool with the powerful open-source large model DeepSeek-V2. To demonstrate the effectiveness of ReSocratic, we conduct supervised fine-tuning with ReSocratic-29k on multiple open-source models. The results show that Llama3-8b is significantly improved from 13.6% to 51.7% on E-OPT, while DeepSeek-V2 reaches 61.0%, approaching 65.5% of GPT-4.
- Abstract(参考訳): 大規模言語モデル(LLM)は、数学的推論においてその問題解決能力を示した。
工業アプリケーションシナリオにおける現実的な最適化(OPT)問題の解決には、高度で応用された数学能力が必要である。
しかし、線形プログラミングを単に解くだけの現在のOPTベンチマークは、複雑な現実的な状況とは程遠い。
本研究では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるE-OPTを提案する。
E-OPTには、LLMの解解能力を包括的に評価できるテーブルデータ付き線形/非線形プログラミングを含む、リッチな最適化問題が含まれている。
本ベンチマークでは,E-OPTの問題を正確に理解し,正確な数値解を求める必要がある。
さらに,最適化問題に対するデータの不足を軽減し,Llama-2-7b と Llama-3-8b のオープンソース LLM と閉オープンソース LLM (eg , GPT-4) のギャップを埋めるため,ReSocratic という新たなデータ合成手法を提案する。
質問から回答へと進む一般的なデータ合成方法とは異なり、ReSocraticはまず、数学的定式化によって最適化シナリオを段階的に合成し、生成したシナリオを質問に逆変換する。
このようにして、オープンソースの強力な大規模モデルであるDeepSeek-V2を用いて、小さなシードサンプルプールからReSocratic-29kデータセットを構築する。
ReSocraticの有効性を示すために,複数のオープンソースモデル上でReSocratic-29kによる微調整を行う。
その結果、Llama3-8bはE-OPTで13.6%から51.7%に大幅に改善され、DeepSeek-V2は61.0%に達し、GPT-4の65.5%に近づいた。
関連論文リスト
- LLM-based Optimization of Compound AI Systems: A Survey [64.39860384538338]
複合AIシステムでは、LLMコール、レトリバー、コードインタプリタ、ツールなどのコンポーネントが相互接続される。
近年の進歩により, LLM を用いたパラメータのエンドツーエンド最適化が可能となった。
本稿では,複合AIシステムのLCMに基づく最適化の原理と動向について述べる。
論文 参考訳(メタデータ) (2024-10-21T18:06:25Z) - LLMOPT: Learning to Define and Solve General Optimization Problems from Scratch [16.174567164068037]
最適化の一般化を促進するため,LLMOPTと呼ばれる統合学習ベースのフレームワークを提案する。
LLMOPTは、様々な最適化問題タイプを定義するための普遍モデルとして導入された5要素の定式化を構築している。
LLMOPTの最適化一般化能力を評価し,実世界の6つのデータセットを比較した。
論文 参考訳(メタデータ) (2024-10-17T04:37:37Z) - OptiMUS-0.3: Using Large Language Models to Model and Solve Optimization Problems at Scale [16.33736498565436]
本稿では,Large Language Model (LLM) を用いた自然言語記述から線形プログラミング問題の定式化と解法を提案する。
本システムでは,数理モデルの開発,ソルバコードの記述とデバッグ,生成したソリューションの評価,モデルとコードの効率性と正確性の向上を実現している。
実験によると、OptiMUS-0.3は、簡単なデータセットで12%以上、ハードデータセットで8%以上、既存の最先端メソッドよりも優れています。
論文 参考訳(メタデータ) (2024-07-29T01:31:45Z) - Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。
OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。
OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文 参考訳(メタデータ) (2024-07-09T07:11:10Z) - OptiMUS: Scalable Optimization Modeling with (MI)LP Solvers and Large
Language Models [21.519880445683107]
本稿では,Large Language Model (LL)MベースのエージェントであるOptiMUSを紹介する。
OptiMUSは、数学的モデルを開発し、ソルバコードを書き、デバッグし、生成したソリューションを評価し、これらの評価に基づいてモデルとコードを改善することができる。
実験によると、OptiMUSは、簡単なデータセットで既存の最先端メソッドを20%以上、ハードデータセットで30%以上上回っている。
論文 参考訳(メタデータ) (2024-02-15T18:19:18Z) - OptiMUS: Optimization Modeling Using MIP Solvers and large language
models [21.519880445683107]
そこで我々は,Large Language Model (LLM) ベースのエージェントであるOptiMUSを紹介した。
エージェントをベンチマークするために,線形プログラミング(LP)と混合整数線形プログラミング(MILP)の新たなデータセットであるNLP4LPを提案する。
実験の結果,OptiMUS は基本的な LLM 促進戦略の約2倍の問題を解くことがわかった。
論文 参考訳(メタデータ) (2023-10-09T19:47:03Z) - Query-Dependent Prompt Evaluation and Optimization with Offline Inverse
RL [62.824464372594576]
ゼロショットプロンプト最適化により,Large Language Models (LLM) の算術的推論能力を向上させることを目的とする。
このような最適化では、以前見過ごされたクエリ依存の目的を特定します。
本稿では、オフライン逆強化学習を利用して、実演データから洞察を引き出すPrompt-OIRLを紹介する。
論文 参考訳(メタデータ) (2023-09-13T01:12:52Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z) - SatLM: Satisfiability-Aided Language Models Using Declarative Prompting [68.40726892904286]
本研究では,大規模言語モデル (LLM) の推論能力を向上させるために,新しい満足度支援言語モデリング (SatLM) 手法を提案する。
我々はLLMを用いて命令型プログラムではなく宣言型タスク仕様を生成し、既製の自動定理証明器を利用して最終解を導出する。
我々はSATLMを8つの異なるデータセット上で評価し、命令パラダイムにおいてプログラム支援されたLMよりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-05-16T17:55:51Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。