論文の概要: HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2506.07972v1
- Date: Mon, 09 Jun 2025 17:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.089334
- Title: HeuriGym: An Agentic Benchmark for LLM-Crafted Heuristics in Combinatorial Optimization
- Title(参考訳): HeuriGym: 組合せ最適化における LLM-Crafted Heuristics のエージェントベンチマーク
- Authors: Hongzheng Chen, Yingheng Wang, Yaohui Cai, Hins Hu, Jiajie Li, Shirley Huang, Chenhui Deng, Rongjian Liang, Shufeng Kong, Haoxing Ren, Samitha Samaranayake, Carla P. Gomes, Zhiru Zhang,
- Abstract要約: HeuriGymは、LLM(Large Language Models)によって生成されたアルゴリズムを評価するために設計されたエージェントフレームワークである。
我々は、コンピュータシステム、ロジスティクス、生物学などの分野における9つの問題に対する9つの最先端モデルを評価し、ツールの使用、計画、適応推論における永続的な制限を明らかにした。
我々のオープンソースベンチマークは、科学・工学分野におけるLLMの開発をより効果的で現実的な問題解決に導くことを目的としています。
- 参考スコア(独自算出の注目度): 31.908590128913094
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) have demonstrated significant advancements in reasoning and agent-based problem-solving, current evaluation methodologies fail to adequately assess their capabilities: existing benchmarks either rely on closed-ended questions prone to saturation and memorization, or subjective comparisons that lack consistency and rigor. In this work, we introduce HeuriGym, an agentic framework designed for evaluating heuristic algorithms generated by LLMs for combinatorial optimization problems, characterized by clearly defined objectives and expansive solution spaces. HeuriGym empowers LLMs to propose heuristics, receive evaluative feedback via code execution, and iteratively refine their solutions. We evaluate nine state-of-the-art models on nine problems across domains such as computer systems, logistics, and biology, exposing persistent limitations in tool use, planning, and adaptive reasoning. To quantify performance, we propose the Quality-Yield Index (QYI), a metric that captures both solution pass rate and quality. Even top models like GPT-o4-mini-high and Gemini-2.5-Pro attain QYI scores of only 0.6, well below the expert baseline of 1. Our open-source benchmark aims to guide the development of LLMs toward more effective and realistic problem-solving in scientific and engineering domains.
- Abstract(参考訳): 大規模言語モデル(LLM)は推論とエージェントベースの問題解決において顕著な進歩を見せているが、現在の評価手法はそれらの能力を適切に評価することができない。
本研究では,LLMが生成するヒューリスティックなアルゴリズムを組合せ最適化問題に適用するためのエージェントフレームワークであるHeuriGymを紹介する。
HeuriGymはLLMにヒューリスティックの提案、コード実行による評価フィードバックの受け取り、ソリューションを反復的に洗練させる権限を与える。
我々は、コンピュータシステム、ロジスティクス、生物学などの分野における9つの問題に対する9つの最先端モデルを評価し、ツールの使用、計画、適応推論における永続的な制限を明らかにした。
評価指標としてQYI(Quality-Yield Index)を提案する。
GPT-o4-highやGemini-2.5-Proといったトップモデルでさえ、QYIのスコアはわずか0.6で、エキスパートベースラインの1.5%を大きく下回っている。
我々のオープンソースベンチマークは、科学・工学分野におけるLLMの開発をより効果的で現実的な問題解決に導くことを目的としています。
関連論文リスト
- Swarm Intelligence Enhanced Reasoning: A Density-Driven Framework for LLM-Based Multi-Agent Optimization [18.912255448200888]
本稿では,新しいエージェントベースのSwarm Intelligence(ASI)パラダイムを導入することにより,Swarmインテリジェンスを推論プロセスに統合することを提案する。
そこで我々は,Swarm Intelligence Enhancing Reasoningフレームワークを開発した。
論文 参考訳(メタデータ) (2025-05-21T15:48:13Z) - Autoformulation of Mathematical Optimization Models Using LLMs [50.030647274271516]
本稿では,自然言語問題記述から解法対応最適化モデルを自動生成する,$textitautoformulation$の問題にアプローチする。
オートフォーミュレーションの3つの主要な課題を識別する: $textit(1)$ 巨大で問題に依存した仮説空間、および$textit(2)$ 不確実性の下でこの空間を効率的かつ多様に探索する。
我々は,$textitLarge Language Models$と$textitMonte-Carlo Tree Search$を併用した新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-03T20:41:38Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - Uncertainty-Aware Search Framework for Multi-Objective Bayesian
Optimization [40.40632890861706]
高価な関数評価を用いたマルチオブジェクト(MO)ブラックボックス最適化の問題点を考察する。
UeMOと呼ばれる新しい不確実性対応検索フレームワークを提案し、評価のための入力シーケンスを効率的に選択する。
論文 参考訳(メタデータ) (2022-04-12T16:50:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。