論文の概要: OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling
- arxiv url: http://arxiv.org/abs/2407.09887v3
- Date: Tue, 08 Oct 2024 16:27:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-10 11:49:14.459182
- Title: OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling
- Title(参考訳): OptiBenchがReSocraticと会談 - 最適化モデリングのためのLLMの測定と改善
- Authors: Zhicheng Yang, Yiwei Wang, Yinya Huang, Zhijiang Guo, Wei Shi, Xiongwei Han, Liang Feng, Linqi Song, Xiaodan Liang, Jing Tang,
- Abstract要約: 大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
- 参考スコア(独自算出の注目度): 62.19438812624467
- License:
- Abstract: Large language models (LLMs) have exhibited their problem-solving abilities in mathematical reasoning. Solving realistic optimization (OPT) problems in application scenarios requires advanced and applied mathematics ability. However, current OPT benchmarks that merely solve linear programming are far from complex realistic situations. In this work, we propose OptiBench, a benchmark for End-to-end optimization problem-solving with human-readable inputs and outputs. OptiBench contains rich optimization problems, including linear and nonlinear programming with or without tabular data, which can comprehensively evaluate LLMs' solving ability. In our benchmark, LLMs are required to call a code solver to provide precise numerical answers. Furthermore, to alleviate the data scarcity for optimization problems, and to bridge the gap between open-source LLMs on a small scale (e.g., Llama-3-8b) and closed-source LLMs (e.g., GPT-4), we further propose a data synthesis method namely ReSocratic. Unlike general data synthesis methods that proceed from questions to answers, \ReSocratic first incrementally synthesizes formatted optimization demonstration with mathematical formulations step by step and then back-translates the generated demonstrations into questions. Based on this, we synthesize the ReSocratic-29k dataset. We further conduct supervised fine-tuning with ReSocratic-29k on multiple open-source models. Experimental results show that ReSocratic-29k significantly improves the performance of open-source models.
- Abstract(参考訳): 大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
応用シナリオにおける現実的な最適化(OPT)問題の解決には、高度な応用数学能力が必要である。
しかし、線形プログラミングを単に解くだけの現在のOPTベンチマークは、複雑な現実的な状況とは程遠い。
本研究では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
OptiBenchには、グラフデータの有無にかかわらず線形および非線形プログラミングを含む、リッチな最適化問題が含まれており、LLMの問題解決能力を総合的に評価することができる。
我々のベンチマークでは、LLMは正確な数値回答を提供するために、コードソルバを呼び出す必要がある。
さらに、最適化問題に対するデータの不足を軽減し、小規模(例えばLlama-3-8b)のオープンソースLLMとクローズドソースLLM(例えばGPT-4)のギャップを埋めるため、ReSocraticというデータ合成手法を提案する。
質問から回答へと進む一般的なデータ合成方法とは異なり、\ReSocratic はまず、数学的定式化によって形式化された最適化のデモを段階的に合成し、生成したデモを質問に逆変換する。
これに基づいて、ReSocratic-29kデータセットを合成する。
さらに,複数のオープンソースモデル上でReSocratic-29kによる微調整を行う。
実験の結果,ReSocratic-29kはオープンソースモデルの性能を著しく向上させることがわかった。
関連論文リスト
- Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。
OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。
OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文 参考訳(メタデータ) (2024-07-09T07:11:10Z) - Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems [59.72548591120689]
我々は,11種類の検索問題を含む新しいベンチマークであるSearchBenchを紹介する。
もっとも先進的なLCMでさえ、これらの問題をエンドツーエンドのテキストで解決することができないことを示す。
LLMにその問題を解決するコードを生成するように指示することは助けになるが、GPT4のパフォーマンスは11.7%向上した。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z) - ORLM: Training Large Language Models for Optimization Modeling [16.348267803499404]
大規模言語モデル(LLM)は複雑なオペレーションリサーチ(OR)問題に対処するための強力なツールとして登場した。
この問題に対処するために、最適化モデリングのためのオープンソースのLLMのトレーニングを提案する。
我々は,NL4OPT,MAMO,IndustrialORベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-05-28T01:55:35Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - DeepCode AI Fix: Fixing Security Vulnerabilities with Large Language
Models [3.1690235522182104]
大規模言語モデル(LLM)は、様々なプログラミングタスクの解決にますます使われている。
長距離コード関係を学習するモデルを必要とするため,タスクは困難であることを示す。
本稿では,LLMのクエリと微調整のための新しいアプローチにより,これらの課題に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T18:35:40Z) - Learning to Reformulate for Linear Programming [11.628932152805724]
本稿では,リニアプログラミング(LP)の強化学習に基づく再構成手法を提案する。
本研究では,2つの公共研究用LPデータセットと,実運用シナリオから収集した大規模LPデータセットに対して提案手法を実装した。
論文 参考訳(メタデータ) (2022-01-17T04:58:46Z) - Learning to Optimize: A Primer and A Benchmark [94.29436694770953]
最適化への学習(L2O)は、機械学習を活用して最適化方法を開発する新しいアプローチです。
この記事では、継続的最適化のためのL2Oの総合的な調査とベンチマークを行う。
論文 参考訳(メタデータ) (2021-03-23T20:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。