論文の概要: FrontierCS: Evolving Challenges for Evolving Intelligence
- arxiv url: http://arxiv.org/abs/2512.15699v1
- Date: Wed, 17 Dec 2025 18:52:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.113345
- Title: FrontierCS: Evolving Challenges for Evolving Intelligence
- Title(参考訳): FrontierCS: インテリジェンスを進化させるための挑戦
- Authors: Qiuyang Mang, Wenhao Chai, Zhifei Li, Huanzhi Mao, Shang Zhou, Alexander Du, Hanchen Li, Shu Liu, Edwin Chen, Yichuan Wang, Xieting Chu, Zerui Cheng, Yuan Xu, Tian Xia, Zirui Wang, Tianneng Shi, Jianzhu Yao, Yilong Zhao, Qizheng Zhang, Charlie Ruan, Zeyu Shen, Kaiyuan Liu, Runyuan He, Dong Xing, Zerui Li, Zirong Zeng, Yige Jiang, Lufeng Cheng, Ziyi Zhao, Youran Sun, Wesley Zheng, Meiyuwang Zhang, Ruyi Ji, Xuechang Tu, Zihan Zheng, Zexing Chen, Kangyang Zhou, Zhaozi Wang, Jingbang Chen, Aleksandra Korolova, Peter Henderson, Pramod Viswanath, Vijay Ganesh, Saining Xie, Zhuang Liu, Dawn Song, Sewon Min, Ion Stoica, Joseph E. Gonzalez, Jingbo Shang, Alvin Cheung,
- Abstract要約: コンピュータ科学の様々な領域にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介する。
各問題に対して、専門家の参照ソリューションと自動評価器を提供する。
私たちは、アルゴリズムと研究のトラックに関して、フロンティア推論モデルが人間の専門家よりずっと遅れていることに気付きました。
- 参考スコア(独自算出の注目度): 174.80075821079708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce FrontierCS, a benchmark of 156 open-ended problems across diverse areas of computer science, designed and reviewed by experts, including CS PhDs and top-tier competitive programming participants and problem setters. Unlike existing benchmarks that focus on tasks with known optimal solutions, FrontierCS targets problems where the optimal solution is unknown, but the quality of a solution can be objectively evaluated. Models solve these tasks by implementing executable programs rather than outputting a direct answer. FrontierCS includes algorithmic problems, which are often NP-hard variants of competitive programming problems with objective partial scoring, and research problems with the same property. For each problem we provide an expert reference solution and an automatic evaluator. Combining open-ended design, measurable progress, and expert curation, FrontierCS provides a benchmark at the frontier of computer-science difficulty. Empirically, we find that frontier reasoning models still lag far behind human experts on both the algorithmic and research tracks, that increasing reasoning budgets alone does not close this gap, and that models often over-optimize for generating merely workable code instead of discovering high-quality algorithms and system designs.
- Abstract(参考訳): 我々は、コンピュータ科学の様々な分野にまたがる156のオープンエンド問題のベンチマークであるFrontierCSを紹介し、CSのPhDや最上位の競合プログラミング参加者、問題セッターを含む専門家によって設計・レビューされた。
既知の最適解を持つタスクに焦点を当てた既存のベンチマークとは異なり、FrontierCSは最適解が未知な問題をターゲットにしているが、ソリューションの品質を客観的に評価することができる。
モデルは直接答えを出すのではなく、実行可能プログラムを実装することでこれらのタスクを解決する。
FrontierCS にはアルゴリズムの問題が含まれており、これはしばしば、客観的な部分的なスコアリングを持つ競合プログラミング問題のNPハードな変種であり、同じ性質を持つ研究問題である。
各問題に対して、専門家の参照ソリューションと自動評価器を提供する。
オープンな設計、測定可能な進歩、専門家によるキュレーションを組み合わせることで、FrontierCSはコンピュータ科学の難しさの最前線にベンチマークを提供する。
実証的に見れば、フロンティア推論モデルは、アルゴリズムと研究の両方のトラックの専門家よりもはるかに遅れており、推論予算の増加は、このギャップを埋めるものではなく、高品質なアルゴリズムやシステム設計を発見するのではなく、単に実行可能なコードを生成するために過度に最適化されていることが分かる。
関連論文リスト
- Decision Making under Imperfect Recall: Algorithms and Benchmarks [77.12503122836422]
本稿では,不完全-再コール決定問題に対する最初のベンチマークスイートを紹介する。
私たちのベンチマークでは、AIシステムのプライバシに関するものなど、さまざまな問題タイプを捉えています。
このような問題における一階最適戦略を見つけるために,異なるアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2026-02-16T23:19:01Z) - Barbarians at the Gate: How AI is Upending Systems Research [58.95406995634148]
システム研究は、新しいパフォーマンス指向アルゴリズムの設計と評価に長年注力してきたが、AI駆動のソリューション発見には特に適している、と私たちは主張する。
このアプローチをAI駆動システム研究(ADRS)と呼び、ソリューションを反復的に生成し、評価し、洗練する。
我々の研究結果は、AI時代のシステム研究の実践に急激な適応の必要性と破壊的な可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-10-07T17:49:24Z) - FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming [19.576944188747166]
FormulaOne(フォーミュラワン)は、グラフ理論、論理、アルゴリズムのベンチマークである。
私たちの問題は非常に要求に富んでおり、いくつかの推論ステップを必要としています。
注目すべきは、OpenAIのo3のような最先端のモデルはF1で完全に失敗することです。
論文 参考訳(メタデータ) (2025-07-17T17:53:55Z) - ALE-Bench: A Benchmark for Long-Horizon Objective-Driven Algorithm Engineering [5.248435832744057]
ALE-Benchは、スコアベースのアルゴリズムプログラミングコンテストでAIシステムを評価するための新しいベンチマークである。
ALE-Bench は計算的に困難であり、正確な解は認めない最適化問題を提示する。
私たちのソフトウェアフレームワークは、テスト実行フィードバックと視覚化を活用する対話型エージェントアーキテクチャをサポートしています。
論文 参考訳(メタデータ) (2025-06-10T17:59:56Z) - Assessing and Enhancing Graph Neural Networks for Combinatorial Optimization: Novel Approaches and Application in Maximum Independent Set Problems [0.0]
Graph Neural Networks (GNNs)は、コンビネーション最適化(CO)問題の解決における研究者の約束を示す。
本研究では,最大独立集合(MIS)問題の解法におけるGNNの有効性について検討した。
論文 参考訳(メタデータ) (2024-11-06T09:12:31Z) - Unsupervised Training of Diffusion Models for Feasible Solution Generation in Neural Combinatorial Optimization [7.85458999849461]
我々は,拡散モデルをゼロから直接訓練する,教師なしCOフレームワークであるIC/DCを提案する。
私たちは、問題固有の制約を順守しながら、ソリューションのコストを最小限に抑えるために、自己監督的な方法でモデルをトレーニングします。
並列マシンスケジューリング問題(PMSP)と非対称トラベリングセールスマン問題(ATSP)における既存のNCO手法と比較して、IC/DCは最先端の性能を達成する
論文 参考訳(メタデータ) (2024-10-15T06:53:30Z) - A Unifying Post-Processing Framework for Multi-Objective Learn-to-Defer Problems [6.046591474843391]
Learn-to-Deferは、学習アルゴリズムが独立した作業ではなく、人間専門家のチームとして機能することを可能にするパラダイムである。
本稿では,様々な制約下での学習・遅延システムに対するベイズ最適解を求める。
本アルゴリズムは,一組のベースラインに対する制約違反による改善を示す。
論文 参考訳(メタデータ) (2024-07-17T16:32:30Z) - Contractual Reinforcement Learning: Pulling Arms with Invisible Hands [68.77645200579181]
本稿では,契約設計によるオンライン学習問題において,利害関係者の経済的利益を整合させる理論的枠組みを提案する。
計画問題に対して、遠目エージェントに対する最適契約を決定するための効率的な動的プログラミングアルゴリズムを設計する。
学習問題に対して,契約の堅牢な設計から探索と搾取のバランスに至るまでの課題を解き放つために,非回帰学習アルゴリズムの汎用設計を導入する。
論文 参考訳(メタデータ) (2024-07-01T16:53:00Z) - Decision-focused Graph Neural Networks for Combinatorial Optimization [62.34623670845006]
最適化問題に取り組むための新たな戦略は、従来のアルゴリズムに代わるグラフニューラルネットワーク(GNN)の採用である。
GNNや従来のアルゴリズムソルバがCOの領域で人気が高まっているにもかかわらず、それらの統合利用とエンドツーエンドフレームワークにおけるそれらの相関について限定的な研究がなされている。
我々は、GNNを利用してCO問題に補助的なサポートで対処する決定に焦点を当てたフレームワークを導入する。
論文 参考訳(メタデータ) (2024-06-05T22:52:27Z) - SEGO: Sequential Subgoal Optimization for Mathematical Problem-Solving [64.38649623473626]
大規模言語モデル(LLM)は人工知能の大幅な進歩を導いた。
数学的問題を解く能力を高めるために,textbfSEquential subtextbfGoal textbfOptimization (SEGO) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-19T17:56:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。