論文の概要: MM-OptBench: A Solver-Grounded Benchmark for Multimodal Optimization Modeling
- arxiv url: http://arxiv.org/abs/2605.12154v1
- Date: Tue, 12 May 2026 14:07:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.901531
- Title: MM-OptBench: A Solver-Grounded Benchmark for Multimodal Optimization Modeling
- Title(参考訳): MM-OptBench:マルチモーダル最適化モデリングのためのソルバーグラウンドベンチマーク
- Authors: Zhong Li, Qi Huang, Yuxuan Zhu, Mohammad Mohammadi Amiri, Niki van Stein, Thomas Bäck, Matthijs van Leeuwen, Zaiwen Wen, Lincen Yang,
- Abstract要約: テキストと視覚の問題仕様から数学的定式化と実行可能なソルバコードの両方を構築する必要があるベンチマーク設定であるマルチモーダル最適化モデルを導入する。
フレームワークをMM-OptBenchとしてインスタンス化し,6つの最適化ファミリ,26のサブカテゴリ,3つの構造的難易度にまたがる780のソルバ検証インスタンスをベンチマークした。
- 参考スコア(独自算出の注目度): 18.671643433145846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optimization modeling translates real decision-making problems into mathematical optimization models and solver-executable implementations. Although language models are increasingly used to generate optimization formulations and solver code, existing benchmarks are almost entirely text-only. This omits many optimization-modeling tasks that arise in operational practice, where requirements are described in text but instance information is conveyed through visual artifacts such as tables, graphs, maps, schedules, and dashboards. We introduce multimodal optimization modeling, a benchmark setting in which models must construct both a mathematical formulation and executable solver code from a text-and-visual problem specification. To evaluate this setting, we develop a solver-grounded framework that generates structured optimization instances, verifies each with an exact solver, and builds both the model-facing inputs and hidden reference files from the same verified source. We instantiate the framework as MM-OptBench, a benchmark of 780 solver-verified instances spanning 6 optimization families, 26 subcategories, and 3 structural difficulty levels. We evaluate 9 multimodal large language models (MLLMs), including 6 frontier general-purpose models and 3 math-specialized models, with aggregate, family-level, difficulty-level, and failure-mode analyses. The results show that the task remains far from solved: the best two models reach 52.1% and 51.3% pass@1, while on average across the six general-purpose MLLMs, pass@1 is 43.4% on easy instances and 15.9% on hard instances. All three math-specialized MLLMs solve 0/780 instances. Failure attribution shows that errors arise both when extracting instance data from text and visuals and when turning extracted data into solver-correct formulations and code. MM-OptBench provides a testbed for solver-grounded, decision-oriented multimodal intelligence.
- Abstract(参考訳): 最適化モデリングは、実際の意思決定問題を数学的最適化モデルとソルバ実行可能な実装に変換する。
言語モデルは最適化の定式化やソルバコードの生成にますます使われているが、既存のベンチマークはほとんど完全にテキストのみである。
要件はテキストで記述されるが、インスタンス情報はテーブル、グラフ、マップ、スケジュール、ダッシュボードといった視覚的な成果物を通じて伝達される。
テキストと視覚の問題仕様から数学的定式化と実行可能なソルバコードの両方を構築する必要があるベンチマーク設定であるマルチモーダル最適化モデルを導入する。
この設定を評価するために、構造化最適化インスタンスを生成し、それぞれを正確なソルバで検証するソルバグラウンドフレームワークを開発し、モデル対応インプットと隠れ参照ファイルの両方を同一の検証元から構築する。
フレームワークをMM-OptBenchとしてインスタンス化し,6つの最適化ファミリ,26のサブカテゴリ,3つの構造的難易度にまたがる780のソルバ検証インスタンスをベンチマークした。
我々は,6つのフロンティア汎用モデルと3つの数学特化モデルを含む9つの多モード大言語モデル (MLLM) を評価する。
最高の2つのモデルは52.1%と51.3%のpass@1に達し、平均して6つの汎用MLLMでpass@1は43.4%、ハードインスタンスでは15.9%である。
3つの数学特化MLLMは0/780のインスタンスを解く。
フェール属性は、テキストとビジュアルからインスタンスデータを抽出したときと、抽出したデータをソルバの正確な定式化とコードに変換するときの両方にエラーが発生することを示している。
MM-OptBenchは、問題解決と意思決定指向のマルチモーダルインテリジェンスのためのテストベッドを提供する。
関連論文リスト
- ORGEval: Graph-Theoretic Evaluation of LLMs in Optimization Modeling [18.8099769877788]
ORGEvalは線形および混合整数線形プログラムの定式化における大規模言語モデルの能力を評価するためのグラフ理論評価フレームワークである。
ORGEvalはモデル等価性の検出に成功し、ランダムなパラメータ構成で100%一貫した結果が得られることを示す。
この結果から,全てのLLMにおいて最適化モデリングは依然として困難であるが,DeepSeek-V3とClaude-Opus-4は直接的プロンプト下では最高の精度を達成できることがわかった。
論文 参考訳(メタデータ) (2025-10-31T16:35:52Z) - AutoOpt: A Dataset and a Unified Framework for Automating Optimization Problem Solving [0.17205106391379024]
AutoOpt-11kデータセットは、11,000以上の単目的、多目的、手書きの数学的最適化問題のユニークなイメージデータセットである。
データセットは25人の専門家によって作成され、データ生成のエラーを避ける。
最適化問題に対する機械学習に基づく自動アプローチであるAutoOptを開発した。
論文 参考訳(メタデータ) (2025-10-24T13:14:53Z) - Toward a Trustworthy Optimization Modeling Agent via Verifiable Synthetic Data Generation [11.988926173584154]
本稿では,信頼性の高い大規模言語モデル(LLM)エージェントを合成データ生成パイプラインを介して訓練するためのフレームワークを提案する。
OptiTrustは、自然言語からソルバ対応コードへの多言語翻訳を行うモジュール型LLMエージェントである。
我々のエージェントは、標準ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-05T05:54:20Z) - FABLE: A Novel Data-Flow Analysis Benchmark on Procedural Text for Large Language Model Evaluation [5.866040886735852]
FABLEは、構造化された手続き型テキストを用いて、大規模言語モデルのデータフロー理解を評価するために設計されたベンチマークである。
推論中心モデル(DeepSeek-R1 8B)、汎用モデル(LLaMA 3.1 8B)、コード固有モデル(Granite Code 8B)の3種類を評価した。
その結果,推理モデルでは精度が向上するが,他のモデルに比べて20倍以上の推論が遅くなることがわかった。
論文 参考訳(メタデータ) (2025-05-30T06:32:34Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。
OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。
OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文 参考訳(メタデータ) (2024-07-09T07:11:10Z) - Navigating the Labyrinth: Evaluating LLMs' Ability to Reason About Search Problems [62.76627483915117]
大規模言語モデル(LLM)は、最近、数学と推論ベンチマークで印象的なパフォーマンスを達成した。
直感的なパズルにインスパイアされた11のユニークな検索問題を含む新しいベンチマークであるSearchBenchを紹介した。
ステップバイステップで言語のみの推論を用いることで、最も先進的なLLMでさえ、SearchBenchの解決に失敗することを示します。
論文 参考訳(メタデータ) (2024-06-18T00:44:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。