論文の概要: ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
- arxiv url: http://arxiv.org/abs/2506.09050v1
- Date: Tue, 10 Jun 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:43.076504
- Title: ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering
- Title(参考訳): ALE-Bench: 長期目的駆動アルゴリズムエンジニアリングのためのベンチマーク
- Authors: Yuki Imajuku, Kohki Horie, Yoichi Iwata, Kensho Aoki, Naohiro Takahashi, Takuya Akiba,
- Abstract要約: ALE-Benchは、スコアベースのアルゴリズムプログラミングコンテストでAIシステムを評価するための新しいベンチマークである。
ALE-Bench は計算的に困難であり、正確な解は認めない最適化問題を提示する。
私たちのソフトウェアフレームワークは、テスト実行フィードバックと視覚化を活用する対話型エージェントアーキテクチャをサポートしています。
- 参考スコア(独自算出の注目度): 1.6932802756478724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How well do AI systems perform in algorithm engineering for hard optimization problems in domains such as package-delivery routing, crew scheduling, factory production planning, and power-grid balancing? We introduce ALE-Bench, a new benchmark for evaluating AI systems on score-based algorithmic programming contests. Drawing on real tasks from the AtCoder Heuristic Contests, ALE-Bench presents optimization problems that are computationally hard and admit no known exact solution. Unlike short-duration, pass/fail coding benchmarks, ALE-Bench encourages iterative solution refinement over long time horizons. Our software framework supports interactive agent architectures that leverage test-run feedback and visualizations. Our evaluation of frontier LLMs revealed that while they demonstrate high performance on specific problems, a notable gap remains compared to humans in terms of consistency across problems and long-horizon problem-solving capabilities. This highlights the need for this benchmark to foster future AI advancements.
- Abstract(参考訳): AIシステムは、パッケージデリバリルーティング、クルースケジューリング、工場生産計画、電力グリッドバランシングといったドメインのハード最適化問題に対して、アルゴリズムエンジニアリングにおいて、どの程度うまく機能するのか?
ALE-Benchは、スコアベースのアルゴリズムプログラミングコンテストでAIシステムを評価するための新しいベンチマークである。
AtCoder Heuristic Contestsから実際のタスクを引いたALE-Benchは、計算的に困難で、正確な解がない最適化問題を提示する。
ALE-Benchは、短期間のパス/フェイル符号ベンチマークとは異なり、長時間の水平線上で反復的な解の洗練を奨励している。
私たちのソフトウェアフレームワークは、テスト実行フィードバックと視覚化を活用する対話型エージェントアーキテクチャをサポートしています。
また,フロンティアLSMの評価では,特定の問題に対して高い性能を示す一方で,問題間の整合性や長期的問題解決能力において,人間と比較しても顕著なギャップが残っていることが明らかとなった。
これは、将来のAI進歩を促進するためにこのベンチマークの必要性を強調している。
関連論文リスト
- Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Efficiently Scaling LLM Reasoning with Certaindex [25.549811985276488]
テストタイム推論アルゴリズムは、精度を向上することなく、多くのトークンを無駄に生成することができる。
本稿では,アルゴリズムに依存しない測定値であるCertaindexを導入する。
Certaindexは軽量で、早期終了による推論プログラムの推論を加速し、動的トークン割り当てを可能にする。
論文 参考訳(メタデータ) (2024-12-30T14:57:53Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Quantum Algorithm Exploration using Application-Oriented Performance
Benchmarks [0.0]
Application-Oriented BenchmarksのQED-Cスイートは、量子コンピュータの性能特性を測定する機能を提供する。
我々は,このベンチマーク手法がより複雑なアプリケーションに適用される可能性を広げる上での課題について検討する。
論文 参考訳(メタデータ) (2024-02-14T06:55:50Z) - SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:56:40Z) - Robust expected improvement for Bayesian optimization [1.8130068086063336]
本稿では,BO/GPフレームワークに敵対的手法を組み込む,堅牢な予測改善(REI)と呼ばれる代理モデルとアクティブラーニング手法を提案する。
ベンチマーク・シンセティック・エクササイズと、様々な複雑さの実際の問題について、いくつかの競合相手と比較し、比較する。
論文 参考訳(メタデータ) (2023-02-16T22:34:28Z) - An Efficient Merge Search Matheuristic for Maximising the Net Present
Value of Project Schedules [5.10800491975164]
リソース制約のあるプロジェクトスケジューリングは多くの実用的なアプリケーションにおいて重要な最適化問題である。
本稿では,資源制約のあるプロジェクトスケジューリングを解くために,マージ探索と並列計算に基づく新しい数学ヒューリスティックアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-20T13:30:23Z) - Design-Bench: Benchmarks for Data-Driven Offline Model-Based
Optimization [82.02008764719896]
ブラックボックスモデルに基づく最適化問題は、タンパク質、DNA配列、航空機、ロボットの設計など、幅広い領域で広く使われている。
本稿では,統合評価プロトコルと最近の手法の参照実装を備えたオフラインMBOのためのベンチマークであるDesign-Benchを提案する。
私たちのベンチマークには、生物学、材料科学、ロボット工学における現実世界の最適化問題から派生した、多種多様な現実的なタスクが含まれています。
論文 参考訳(メタデータ) (2022-02-17T05:33:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。