論文の概要: CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization
- arxiv url: http://arxiv.org/abs/2504.04310v1
- Date: Sun, 06 Apr 2025 00:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:15:04.807606
- Title: CO-Bench: Benchmarking Language Model Agents in Algorithm Search for Combinatorial Optimization
- Title(参考訳): CO-Bench: Combinator最適化のためのアルゴリズム検索におけるベンチマーク言語モデルエージェント
- Authors: Weiwei Sun, Shengyu Feng, Shanda Li, Yiming Yang,
- Abstract要約: LLMベースのエージェントは、ソフトウェア工学や機械学習研究のような分野において大きな注目を集めている。
CO-Benchは、広範囲のドメインと複雑性レベルから引き出された36の現実世界のCO問題のベンチマークスイートである。
- 参考スコア(独自算出の注目度): 28.236706710591925
- License:
- Abstract: Although LLM-based agents have attracted significant attention in domains such as software engineering and machine learning research, their role in advancing combinatorial optimization (CO) remains relatively underexplored. This gap underscores the need for a deeper understanding of their potential in tackling structured, constraint-intensive problems-a pursuit currently limited by the absence of comprehensive benchmarks for systematic investigation. To address this, we introduce CO-Bench, a benchmark suite featuring 36 real-world CO problems drawn from a broad range of domains and complexity levels. CO-Bench includes structured problem formulations and curated data to support rigorous investigation of LLM agents. We evaluate multiple agent frameworks against established human-designed algorithms, revealing key strengths and limitations of current approaches and identifying promising directions for future research. CO-Bench is publicly available at https://github.com/sunnweiwei/CO-Bench.
- Abstract(参考訳): LLMをベースとしたエージェントは、ソフトウェア工学や機械学習研究などの分野において大きな注目を集めているが、組合せ最適化(CO)の推進における役割は、いまだに未熟である。
このギャップは、構造化された制約集約的な問題に対処する可能性について、より深い理解の必要性を浮き彫りにしている。
これを解決するために、幅広い領域と複雑性レベルから引き出された36の現実世界のCO問題のベンチマークスイートであるCO-Benchを紹介した。
CO-Benchは、構造化された問題定式化と、LLMエージェントの厳密な調査を支援するためのキュレートされたデータを含んでいる。
我々は、確立された人間設計アルゴリズムに対して複数のエージェントフレームワークを評価し、現在のアプローチの重要な強みと限界を明らかにし、将来の研究に向けた有望な方向を特定する。
CO-Benchはhttps://github.com/sunnweiwei/CO-Bench.comで公開されている。
関連論文リスト
- A Multiagent Path Search Algorithm for Large-Scale Coalition Structure Generation [61.08720171136229]
結合構造生成はマルチエージェントシステムにおける基本的な計算問題である。
我々はCSGの多エージェントパス探索アルゴリズムであるSALDAEを開発し、連立構造グラフ上で運用する。
論文 参考訳(メタデータ) (2025-02-14T15:21:27Z) - An Extended Benchmarking of Multi-Agent Reinforcement Learning Algorithms in Complex Fully Cooperative Tasks [0.0]
MARL(Multi-Agent Reinforcement Learning)は近年,重要な研究分野として注目されている。
MARLの評価は、しばしば体系的な多様性を欠き、アルゴリズムの能力の包括的な理解を妨げる。
論文 参考訳(メタデータ) (2025-02-07T09:17:02Z) - Demystifying Online Clustering of Bandits: Enhanced Exploration Under Stochastic and Smoothed Adversarial Contexts [27.62165569135504]
バンディットのオンラインクラスタリングとして知られる一連の研究は、類似のユーザをクラスタにグループ化することで、コンテキストMABを拡張している。
既存のアルゴリズムは、上位信頼境界(UCB)戦略に依存しており、未知のユーザクラスタを正確に識別するために十分な統計情報を集めるのに苦労している。
クラスタ識別を高速化する探索機構を改良した,UniCLUB と PhaseUniCLUB の2つの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-01-01T16:38:29Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - POGEMA: A Benchmark Platform for Cooperative Multi-Agent Pathfinding [76.67608003501479]
POGEMAは、学習のための高速環境、問題インスタンスジェネレータ、可視化ツールキットを含む、総合的なツールセットである。
また、プライマリ評価指標に基づいて計算されるドメイン関連メトリクスの範囲を規定する評価プロトコルを導入し、定義する。
この比較の結果は、様々な最先端のMARL、検索ベース、ハイブリッド手法を含む。
論文 参考訳(メタデータ) (2024-07-20T16:37:21Z) - Multi-step Inference over Unstructured Data [2.169874047093392]
医療、法律、金融などの分野における高い意思決定タスクは、精度、包括性、論理的一貫性のレベルを必要とする。
これらの問題に対処するための,ニューロシンボリックAIプラットフォームを開発した。
このプラットフォームは、知識抽出とアライメントのための微調整LDMと、堅牢なシンボリック推論エンジンを統合している。
論文 参考訳(メタデータ) (2024-06-26T00:00:45Z) - A Fast Algorithm for the Real-Valued Combinatorial Pure Exploration of Multi-Armed Bandit [55.2480439325792]
多武装バンディット(R-CPE-MAB)の真価純探査問題について検討する。
本稿では,差分に基づく探索法 (CombGapE) アルゴリズムを提案する。
我々は,CombGapEアルゴリズムが,合成データセットと実世界のデータセットの両方において,既存の手法を大幅に上回っていることを数値的に示す。
論文 参考訳(メタデータ) (2023-06-15T15:37:31Z) - Simulation-guided Beam Search for Neural Combinatorial Optimization [13.072343634530883]
ニューラル最適化問題に対するシミュレーション誘導ビームサーチ(SGBS)を提案する。
我々は、SGBSと効率的なアクティブサーチ(EAS)を併用し、SGBSはEASでバックプロパゲーションされたソリューションの品質を高める。
提案手法をよく知られたCOベンチマークで評価し,SGBSが合理的な仮定で得られた解の質を著しく向上することを示す。
論文 参考訳(メタデータ) (2022-07-13T13:34:35Z) - RACA: Relation-Aware Credit Assignment for Ad-Hoc Cooperation in
Multi-Agent Deep Reinforcement Learning [55.55009081609396]
本稿では、アドホックな協調シナリオにおいてゼロショットの一般化を実現するRACA(Relation-Aware Credit Assignment)と呼ばれる新しい手法を提案する。
RACAは、エージェント間のトポロジ構造を符号化するために、グラフベースのエンコーダ関係を利用する。
提案手法は,StarCraftIIマイクロマネジメントベンチマークとアドホック協調シナリオのベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2022-06-02T03:39:27Z) - Deep Policy Iteration with Integer Programming for Inventory Management [8.27175065641495]
本稿では,大規模なアクセス可能な行動空間と状態依存制約を用いた長期割引報酬問題を最適化するための枠組みを提案する。
提案したプログラム可能なアクター強化学習(PARL)は,ニューラルネットワーク(NN)を利用して値関数を近似するディープ・ポリシー法を用いる。
我々は、提案アルゴリズムを最先端のRLアルゴリズムに対してベンチマークし、一般的に補充を使い、既存の手法を平均14.7%も上回っていることを発見した。
論文 参考訳(メタデータ) (2021-12-04T01:40:34Z) - Investigating Bi-Level Optimization for Learning and Vision from a
Unified Perspective: A Survey and Beyond [114.39616146985001]
機械学習やコンピュータビジョンの分野では、モチベーションやメカニズムが異なるにもかかわらず、複雑な問題の多くは、一連の密接に関連するサブプロトコルを含んでいる。
本稿では,BLO(Bi-Level Optimization)の観点から,これらの複雑な学習と視覚問題を一様に表現する。
次に、値関数に基づく単一レベル再構成を構築し、主流勾配に基づくBLO手法を理解し、定式化するための統一的なアルゴリズムフレームワークを確立する。
論文 参考訳(メタデータ) (2021-01-27T16:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。