論文の概要: OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems
- arxiv url: http://arxiv.org/abs/2506.10764v1
- Date: Thu, 12 Jun 2025 14:46:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.786985
- Title: OPT-BENCH: Evaluating LLM Agent on Large-Scale Search Spaces Optimization Problems
- Title(参考訳): OPT-BENCH:大規模探索空間最適化問題におけるLLMエージェントの評価
- Authors: Xiaozhe Li, Jixuan Chen, Xinyu Fang, Shengyuan Ding, Haodong Duan, Qingwen Liu, Kai Chen,
- Abstract要約: OPT-BENCHは、大規模検索空間最適化問題において、LLM(Large Language Models)を評価するために設計されたベンチマークである。
OPT-Agentは、歴史的フィードバックを通じてソリューションの生成、検証、反復的に改善することで、複雑な問題に取り組む際の人間の推論をエミュレートする。
- 参考スコア(独自算出の注目度): 19.586884180343038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have shown remarkable capabilities in solving diverse tasks. However, their proficiency in iteratively optimizing complex solutions through learning from previous feedback remains insufficiently explored. To bridge this gap, we present OPT-BENCH, a comprehensive benchmark designed to evaluate LLM agents on large-scale search space optimization problems. OPT-BENCH includes 20 real-world machine learning tasks sourced from Kaggle and 10 classical NP problems, offering a diverse and challenging environment for assessing LLM agents on iterative reasoning and solution refinement. To enable rigorous evaluation, we introduce OPT-Agent, an end-to-end optimization framework that emulates human reasoning when tackling complex problems by generating, validating, and iteratively improving solutions through leveraging historical feedback. Through extensive experiments on 9 state-of-the-art LLMs from 6 model families, we analyze the effects of optimization iterations, temperature settings, and model architectures on solution quality and convergence. Our results demonstrate that incorporating historical context significantly enhances optimization performance across both ML and NP tasks. All datasets, code, and evaluation tools are open-sourced to promote further research in advancing LLM-driven optimization and iterative reasoning. Project page: \href{https://github.com/OliverLeeXZ/OPT-BENCH}{https://github.com/OliverLeeXZ/OPT-BENCH}.
- Abstract(参考訳): 大きな言語モデル(LLM)は、多様なタスクを解く際、顕著な能力を示している。
しかし、これまでのフィードバックから学習することで、複雑な解を反復的に最適化する能力は依然として不十分である。
このギャップを埋めるため,大規模な探索空間最適化問題において LLM エージェントを評価するための総合ベンチマーク OPT-BENCH を提案する。
OPT-BENCHには、Kaggleと10の古典的なNP問題から得られた20の現実世界の機械学習タスクが含まれており、反復的推論とソリューション改善に基づいてLLMエージェントを評価するための多様で困難な環境を提供する。
厳密な評価を実現するために,複雑な問題に対処する際の人間の推論をエミュレートし,過去のフィードバックを生かして,ソリューションを生成,検証,反復的に改善する,エンドツーエンドの最適化フレームワークであるOPT-Agentを導入する。
6つのモデルファミリーの9つの最先端LCMに関する広範な実験を通じて、最適化イテレーション、温度設定、モデルアーキテクチャがソリューションの品質と収束に与える影響を分析した。
この結果から,過去の文脈を取り入れることで,MLタスクとNPタスクの最適化性能が大幅に向上することが示唆された。
すべてのデータセット、コード、評価ツールがオープンソースとして公開され、LLM駆動の最適化と反復推論のさらなる研究が進められている。
プロジェクトページ: \href{https://github.com/OliverLeeXZ/OPT-BENCH}{https://github.com/OliverLeeXZ/OPT-BENCH}
関連論文リスト
- A Survey on the Optimization of Large Language Model-based Agents [16.733092886211097]
大規模言語モデル(LLM)は様々な分野で広く採用されており、自律的な意思決定や対話的なタスクに欠かせないものとなっている。
しかしながら、現在の作業は通常、バニラLLMに適用された迅速な設計や微調整戦略に依存している。
LLMに基づくエージェント最適化手法の総合的なレビューを行い、パラメータ駆動型およびパラメータフリーな手法に分類する。
論文 参考訳(メタデータ) (2025-03-16T10:09:10Z) - Can Large Language Models Be Trusted as Evolutionary Optimizers for Network-Structured Combinatorial Problems? [8.082897040940447]
大きな言語モデル(LLM)は、言語理解とさまざまなドメイン間の推論において素晴らしい能力を持っています。
本研究では,問題構造に係わるLLMの能力を評価するための体系的枠組みを提案する。
我々は,従来の個人レベルのアプローチと比較して,効率を著しく向上するコスト効率の高い集団レベルの最適化戦略を開発する。
論文 参考訳(メタデータ) (2025-01-25T05:19:19Z) - Optima: Optimizing Effectiveness and Efficiency for LLM-Based Multi-Agent System [75.25394449773052]
大規模言語モデル (LLM) に基づくマルチエージェントシステム (MAS) は協調的問題解決において顕著な可能性を示している。
通信効率の低下、スケーラビリティの低下、効果的なパラメータ更新方法の欠如などです。
本稿では,コミュニケーション効率とタスク効率を両立させ,これらの課題に対処する新しいフレームワークOptimaを提案する。
論文 参考訳(メタデータ) (2024-10-10T17:00:06Z) - In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。
これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。
本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-04T03:39:28Z) - OptiBench Meets ReSocratic: Measure and Improve LLMs for Optimization Modeling [62.19438812624467]
大規模言語モデル (LLM) は数学的推論における問題解決能力を示した。
本稿では,人間可読入力と出力を用いたエンドツーエンド最適化問題のベンチマークであるOptiBenchを提案する。
論文 参考訳(メタデータ) (2024-07-13T13:27:57Z) - Solving General Natural-Language-Description Optimization Problems with Large Language Models [34.50671063271608]
外部ソルバでLLMを増強するOPtLLMという新しいフレームワークを提案する。
OptLLMは自然言語でユーザクエリを受け付け、それらを数学的定式化やプログラミングコードに変換し、解決者を呼び出して結果を計算する。
OptLLMフレームワークのいくつかの機能は、2023年6月から試用されている。
論文 参考訳(メタデータ) (2024-07-09T07:11:10Z) - A Problem-Oriented Perspective and Anchor Verification for Code Optimization [43.28045750932116]
大規模言語モデル(LLM)は、様々なプログラミングタスクを解く際、顕著な能力を示している。
本稿では,LLMが最小実行時間に最適化する能力について検討する。
論文 参考訳(メタデータ) (2024-06-17T16:10:10Z) - Large Language Model-Aided Evolutionary Search for Constrained Multiobjective Optimization [15.476478159958416]
我々は,制約付き多目的最適化問題に対する進化探索を強化するために,大規模言語モデル(LLM)を用いる。
私たちの目標は、進化の集団の収束を早めることです。
論文 参考訳(メタデータ) (2024-05-09T13:44:04Z) - Large Language Models as Evolutionary Optimizers [37.92671242584431]
本稿では,大言語モデル(LLM)を進化論として初めて研究する。
主な利点は、最小限のドメイン知識と人間の努力が必要であり、モデルに追加のトレーニングは必要ありません。
また,進化探索における自己適応機構の有効性についても検討した。
論文 参考訳(メタデータ) (2023-10-29T15:44:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。