論文の概要: OptiVerse: A Comprehensive Benchmark towards Optimization Problem Solving
- arxiv url: http://arxiv.org/abs/2604.21510v1
- Date: Thu, 23 Apr 2026 10:12:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.439224
- Title: OptiVerse: A Comprehensive Benchmark towards Optimization Problem Solving
- Title(参考訳): OptiVerse: 最適化問題解決のための総合的なベンチマーク
- Authors: Xinyu Zhang, Boxuan Zhang, Yuchen Wan, Lingling Zhang, YiXing Yao, Bifan Wei, Yaqiang Wu, Jun Liu,
- Abstract要約: 我々は、無視されたドメインにまたがる1,000のキュレートされた問題の総合ベンチマークであるOptiVerseを紹介する。
GPT-5.2 や Gemini-3 のような先進モデルでさえ27% を超える精度で苦戦している。
本稿では,時間的オーバーヘッドを伴わずにモデリングプロセスの精度を向上させるデュアルビュー監査エージェントを提案する。
- 参考スコア(独自算出の注目度): 16.7333612841671
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While Large Language Models (LLMs) demonstrate remarkable reasoning, complex optimization tasks remain challenging, requiring domain knowledge and robust implementation. However, existing benchmarks focus narrowly on Mathematical Programming and Combinatorial Optimization, hindering comprehensive evaluation. To address this, we introduce OptiVerse, a comprehensive benchmark of 1,000 curated problems spanning neglected domains, including Stochastic Optimization, Dynamic Optimization, Game Optimization, and Optimal Control, across three difficulty levels: Easy, Medium, and Hard. The experiments with 22 LLMs of different sizes reveal sharp performance degradation on hard problems, where even advanced models like GPT-5.2 and Gemini-3 struggle to exceed 27% accuracy. Through error analysis, we identify that modeling & logic errors remain the primary bottleneck. Consequently, we propose a Dual-View Auditor Agent that improves the accuracy of the LLM modeling process without introducing significant time overhead. OptiVerse will serve as a foundational platform for advancing LLMs in solving complex optimization challenges.
- Abstract(参考訳): 大きな言語モデル(LLM)は顕著な推論を示しているが、複雑な最適化タスクは困難であり、ドメイン知識と堅牢な実装を必要としている。
しかし、既存のベンチマークでは、数学的プログラミングと組合せ最適化に焦点が当てられており、包括的な評価を妨げている。
そこで我々は,Stochastic Optimization, Dynamic Optimization, Game Optimization, Optimal Controlなど,無視されたドメインにまたがる1,000のキュレートされた問題の総合的なベンチマークであるOptiVerseを紹介した。
異なる大きさの22個のLLMを用いた実験では、GPT-5.2やジェミニ-3のような先進的なモデルでさえ27%以上の精度で性能が低下している。
エラー解析を通じて、モデリングとロジックのエラーが主要なボトルネックであることを特定する。
そこで本研究では,LLMモデリングプロセスの精度を,時間的オーバーヘッドを伴わずに向上するデュアルビュー・オーディタ・エージェントを提案する。
OptiVerseは、複雑な最適化課題を解決する上で、LLMを前進させるための基盤となるプラットフォームとして機能する。
関連論文リスト
- OPT-Engine: Benchmarking the Limits of LLMs in Optimization Modeling via Complexity Scaling [13.57588221678224]
大規模言語モデル(LLM)は、最適化モデリングの驚くべき進歩を示している。
自動定式化と問題解決におけるそれらの能力の境界は、まだよく理解されていない。
OPT-ENGINEは、制御可能でスケーラブルな難易度を持つ最適化モデルにおいて、LCMを評価するために設計されたベンチマークフレームワークである。
論文 参考訳(メタデータ) (2026-01-09T09:22:33Z) - SolverLLM: Leveraging Test-Time Scaling for Optimization Problem via LLM-Guided Search [58.116954449750544]
多様な最適化問題を解決するために,テスト時間スケーリングを活用したトレーニング不要のフレームワークを導入する。
直接的に解くのではなく、数学的定式化を生成し、新しいモンテカルロ木探索戦略によって導かれる解法対応のコードに変換する。
論文 参考訳(メタデータ) (2025-10-19T16:21:19Z) - Automated Optimization Modeling through Expert-Guided Large Language Model Reasoning [43.63419208391747]
本稿では,最適化プロセスを自動化するチェーン・オブ・シント推論を通じて,専門家レベルの最適化モデリングの原則を活用する新しいフレームワークを提案する。
また、ロジスティクス領域からの新しい最適化モデリングベンチマークであるLogiORを導入し、標準化されたアノテーションに関するより複雑な問題を含む。
論文 参考訳(メタデータ) (2025-08-20T04:14:54Z) - OptiHive: Ensemble Selection for LLM-Based Optimization via Statistical Modeling [3.8366697175402225]
我々は,反復的な自己言語を使わずに,自然補正記述から高品質な問題解決を行うフレームワークOptiHiveを紹介した。
OptiHiveは単一のバッチLLMクエリを使用して、さまざまなコンポーネント(ソルバ、問題インスタンス、バリデーションテスト)を生成し、誤ったコンポーネントをフィルタリングして完全に解釈可能な出力を保証する。
従来の最適化問題からMulti-Depot Vehicle Routing Problemの変種への挑戦に至るまでのタスクにおいて、OptiHiveはベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2025-08-04T15:11:51Z) - OptimAI: Optimization from Natural Language Using LLM-Powered AI Agents [8.441638148384389]
自然言語で記述された最適化問題を解くためのフレームワークであるOptimAIを紹介する。
私たちのフレームワークは、フォーミュラ、プランナー、コーダ、コード批判といった重要な役割の上に構築されています。
提案手法では,NLP4LPデータセットで88.1%,Optibenchデータセットで82.3%,エラー率で58%,エラー率で52%の精度を実現した。
論文 参考訳(メタデータ) (2025-04-23T17:45:05Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。
OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。
OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文 参考訳(メタデータ) (2024-07-09T07:11:10Z) - A Problem-Oriented Perspective and Anchor Verification for Code Optimization [43.28045750932116]
大規模言語モデル(LLM)は、様々なプログラミングタスクを解く際、顕著な能力を示している。
本稿では,LLMが最小実行時間に最適化する能力について検討する。
論文 参考訳(メタデータ) (2024-06-17T16:10:10Z) - Large Language Models as Optimizers [106.52386531624532]
本稿では,大規模言語モデル (LLM) をプロンプトとして活用するためのシンプルで効果的な手法である Prompting (OPRO) を提案する。
各最適化ステップにおいて、LLMは、前述した値を含むプロンプトから新しい解を生成する。
OPROにより最適化された最良のプロンプトは、GSM8Kで最大8%、Big-Bench Hardタスクで最大50%向上することを示した。
論文 参考訳(メタデータ) (2023-09-07T00:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。