論文の概要: FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming
- arxiv url: http://arxiv.org/abs/2507.13337v1
- Date: Thu, 17 Jul 2025 17:53:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.610935
- Title: FormulaOne: Measuring the Depth of Algorithmic Reasoning Beyond Competitive Programming
- Title(参考訳): FormulaOne: 競合プログラミングを超えたアルゴリズム推論の深さを測定する
- Authors: Gal Beniamini, Yuval Dor, Alon Vinnikov, Shir Granot Peled, Or Weinstein, Or Sharir, Noam Wies, Tomer Nussbaum, Ido Ben Shaul, Tomer Zekharya, Yoav Levine, Shai Shalev-Shwartz, Amnon Shashua,
- Abstract要約: FormulaOne(フォーミュラワン)は、グラフ理論、論理、アルゴリズムのベンチマークである。
私たちの問題は非常に要求に富んでおり、いくつかの推論ステップを必要としています。
注目すべきは、OpenAIのo3のような最先端のモデルはF1で完全に失敗することです。
- 参考スコア(独自算出の注目度): 19.576944188747166
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Frontier AI models demonstrate formidable breadth of knowledge. But how close are they to true human -- or superhuman -- expertise? Genuine experts can tackle the hardest problems and push the boundaries of scientific understanding. To illuminate the limits of frontier model capabilities, we turn away from contrived competitive programming puzzles, and instead focus on real-life research problems. We construct FormulaOne, a benchmark that lies at the intersection of graph theory, logic, and algorithms, all well within the training distribution of frontier models. Our problems are incredibly demanding, requiring an array of reasoning steps. The dataset has three key properties. First, it is of commercial interest and relates to practical large-scale optimisation problems, such as those arising in routing, scheduling, and network design. Second, it is generated from the highly expressive framework of Monadic Second-Order (MSO) logic on graphs, paving the way toward automatic problem generation at scale; ideal for building RL environments. Third, many of our problems are intimately related to the frontier of theoretical computer science, and to central conjectures therein, such as the Strong Exponential Time Hypothesis (SETH). As such, any significant algorithmic progress on our dataset, beyond known results, could carry profound theoretical implications. Remarkably, state-of-the-art models like OpenAI's o3 fail entirely on FormulaOne, solving less than 1% of the questions, even when given 10 attempts and explanatory fewshot examples -- highlighting how far they remain from expert-level understanding in some domains. To support further research, we additionally curate FormulaOne-Warmup, offering a set of simpler tasks, from the same distribution. We release the full corpus along with a comprehensive evaluation framework.
- Abstract(参考訳): 最先端のAIモデルは、膨大な量の知識を示しています。
しかし、真の人間、あるいは超人的な専門知識にどの程度近いのか?
遺伝子の専門家は最も難しい問題に取り組み、科学的理解の境界を押し上げることができる。
フロンティアモデル能力の限界を照らし出すため、探索された競合するプログラミングパズルを排除し、代わりに実生活の研究問題に焦点をあてる。
我々は、グラフ理論、論理学、アルゴリズムの交点に位置するベンチマークであるFruformOneを構築し、すべてフロンティアモデルのトレーニング分布内でうまく機能する。
私たちの問題は非常に要求に富んでおり、いくつかの推論ステップを必要としています。
データセットには3つの重要な特性がある。
第一に、これは商業的関心事であり、ルーティング、スケジューリング、ネットワーク設計など、実用的な大規模最適化の問題に関係している。
第二に、グラフ上のモナディック二階述語論理(MSO)の高度に表現力のあるフレームワークから生成され、スケールでの自動問題生成への道を開いた。
第3に、我々の問題の多くは、理論計算機科学のフロンティアと、その中心的な予想(例えば、Strong Exponential Time hypothesis (SETH))と密接に関連している。
このように、我々のデータセットにおける重要なアルゴリズムの進歩は、既知の結果を超えて、深い理論的意味を持つ可能性がある。
注目すべきなのは、OpenAIのo3のような最先端のモデルは、フォーミュラワンで完全に失敗し、質問の1%未満を解決していることだ。
さらなる研究を支援するために、同じ分布からより単純なタスクセットを提供するフォーミュラワンワームアップをキュレートする。
包括的な評価フレームワークとともに、全コーパスをリリースしています。
関連論文リスト
- PromptCoT: Synthesizing Olympiad-level Problems for Mathematical Reasoning in Large Language Models [59.920971312822736]
本稿では,高品質なオリンピアードレベルの数学問題を自動生成する新しい手法であるPromptCoTを紹介する。
提案手法は,問題構築の背景にある数学的概念と理論的根拠に基づいて複雑な問題を合成する。
提案手法は, GSM8K, MATH-500, AIME2024などの標準ベンチマークで評価され, 既存の問題生成手法を一貫して上回っている。
論文 参考訳(メタデータ) (2025-03-04T06:32:30Z) - Theoretical Physics Benchmark (TPBench) -- a Dataset and Study of AI Reasoning Capabilities in Theoretical Physics [13.530403536762064]
我々は、高エネルギー理論と宇宙論に焦点をあて、理論物理学における問題を解決するAIの能力を評価するためのベンチマークを導入する。
ベンチマークの最初のイテレーションは、学部レベルから研究レベルまで、難易度が異なる57の問題で構成されています。
我々は、o3-mini、o1、DeepSeek-R1、GPT-4o、LlamaとQwenのバージョンなど、オープンでクローズドな言語モデルでデータセットを評価した。
論文 参考訳(メタデータ) (2025-02-19T19:00:00Z) - Do NOT Think That Much for 2+3=? On the Overthinking of o1-Like LLMs [76.43407125275202]
o1のようなモデルは、推論中に人間のような長時間の思考をエミュレートすることができる。
本論文は,これらのモデルにおける過度な考察の課題に関する,最初の包括的研究である。
精度を損なうことなく、過剰思考を緩和し、推論プロセスを合理化するための戦略を提案する。
論文 参考訳(メタデータ) (2024-12-30T18:55:12Z) - Supervised Chain of Thought [5.389461633686935]
Chain of Thought (CoT)は複雑な推論タスクを解決するための有望なアプローチを提供する。
ワンプロンプト・フォー・オールアプローチは、正しい推論ステップを生成するためにモデルに重大な課題をもたらす。
タスク固有の監督が、プロンプト空間を正確にナビゲートし、最適な性能を達成するためにいかに重要であるかを示す。
論文 参考訳(メタデータ) (2024-10-18T06:25:27Z) - Reasoning Paths Optimization: Learning to Reason and Explore From Diverse Paths [69.39559168050923]
本稿では,多様な経路から学習の推論と探索を可能にするReasoning Paths Optimization (RPO)を紹介する。
提案手法は,各推論ステップにおいて好意的な分岐を奨励し,好ましくない分岐を罰し,モデル全体の問題解決性能を高める。
我々は,数語問題や理科ベースの試験問題など,多段階の推論タスクに焦点をあてる。
論文 参考訳(メタデータ) (2024-10-07T06:37:25Z) - MindStar: Enhancing Math Reasoning in Pre-trained LLMs at Inference Time [51.5039731721706]
MindStarは、大言語モデルの純粋に推論に基づく探索手法である。
推論タスクを探索問題として定式化し、最適な推論経路を特定するための2つの探索アイデアを提案する。
Llama-2-13BやMistral-7Bのようなオープンソースモデルの推論能力を大幅に向上させ、GPT-3.5やGrok-1に匹敵する性能を実現している。
論文 参考訳(メタデータ) (2024-05-25T15:07:33Z) - Evaluating LLMs' Mathematical and Coding Competency through Ontology-guided Interventions [47.83142414018448]
算術的推論とコード生成という,2つの一般的な推論タスクに注目します。
i) 数学やコーディング問題に対する摂動の一般的なオントロジー, (ii) 摂動を応用するための半自動手法, (iii) 2つのデータセットを紹介する。
混乱した質問に対して、すべてのモデルで大幅なパフォーマンス低下を示します。
論文 参考訳(メタデータ) (2024-01-17T18:13:07Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - Towards a Holistic Understanding of Mathematical Questions with
Contrastive Pre-training [65.10741459705739]
本稿では,数学的問題表現,すなわち QuesCo に対する対照的な事前学習手法を提案する。
まず、コンテンツレベルと構造レベルを含む2段階の質問強化を設計し、類似した目的で文字通り多様な質問ペアを生成する。
そこで我々は,知識概念の階層的情報を完全に活用するために,知識階層を意識したランク戦略を提案する。
論文 参考訳(メタデータ) (2023-01-18T14:23:29Z) - On Theoretical Complexity and Boolean Satisfiability [0.0]
この論文は、コンピューティング理論において最も中心的な概念をいくつか導入している。
次に,Hhorn-SAT や 3-SAT などの抽出可能な変種を探索する。
最後に,3-SATから有名なNP完全グラフ問題への還元を確立する。
論文 参考訳(メタデータ) (2021-12-22T10:13:34Z) - How Much Coffee Was Consumed During EMNLP 2019? Fermi Problems: A New
Reasoning Challenge for AI [32.54495599722743]
我々は新たな推論問題、すなわちフェルミ問題(Fermi Problems, FPs)を提案する。
FPは、その正確な計算が非現実的であるか不可能であるため、答えをおよそ見積もることができる質問である。
1) クイズとオリンピアドから得られた1k個の実世界のFPの収集,2) より難しい実世界の挑戦のためのサンドボックスとして機能する10k個の合成FPのバンク。
論文 参考訳(メタデータ) (2021-10-27T06:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。