論文の概要: LiveOIBench: Can Large Language Models Outperform Human Contestants in Informatics Olympiads?
- arxiv url: http://arxiv.org/abs/2510.09595v1
- Date: Fri, 10 Oct 2025 17:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.509938
- Title: LiveOIBench: Can Large Language Models Outperform Human Contestants in Informatics Olympiads?
- Title(参考訳): LiveOIBench: インフォマティクスのオリンピックにおいて、大規模言語モデルは人間のコンテストより優れているか?
- Authors: Kaijian Zou, Aaron Xiong, Yunxiang Zhang, Frederick Zhang, Yueqi Ren, Jirong Yang, Ayoung Lee, Shitanshu Bhushan, Lu Wang,
- Abstract要約: LiveOIBenchは403のOlympiadレベルの競合プログラミング問題と60のエキスパート設計テストケースを特徴とするベンチマークである。
この問題は2023年から2025年の間に行われた、72の公式のインフォマティクス・オリンピアード(英語版)から直接引き起こされている。
LiveOIBenchは,詳細なサブタスクと広範なプライベートテストケースを備えた,厳密にキュレートされた高品質なタスクという,4つの重要な機能を通じて,自分自身を区別する。
- 参考スコア(独自算出の注目度): 5.835205320809048
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Competitive programming problems increasingly serve as valuable benchmarks to evaluate the coding capabilities of large language models (LLMs) due to their complexity and ease of verification. Yet, current coding benchmarks face limitations such as lack of exceptionally challenging problems, insufficient test case coverage, reliance on online platform APIs that limit accessibility. To address these issues, we introduce LiveOIBench, a comprehensive benchmark featuring 403 expert-curated Olympiad-level competitive programming problems, each with an average of 60 expert-designed test cases. The problems are sourced directly from 72 official Informatics Olympiads in different regions conducted between 2023 and 2025. LiveOIBench distinguishes itself through four key features: (1) meticulously curated high-quality tasks with detailed subtask rubrics and extensive private test cases; (2) direct integration of elite contestant performance data to enable informative comparison against top-performing humans; (3) planned continuous, contamination-free updates from newly released Olympiad problems; and (4) a self-contained evaluation system facilitating offline and easy-to-reproduce assessments. Benchmarking 32 popular general-purpose and reasoning LLMs, we find that GPT-5 achieves a notable 81.76th percentile, a strong result that nonetheless falls short of top human contestant performance, who usually place above 90th. In contrast, among open-weight reasoning models, GPT-OSS-120B achieves only a 60th percentile, underscoring significant capability disparities from frontier closed models. Detailed analyses indicate that robust reasoning models prioritize precise problem analysis over excessive exploration, suggesting future models should emphasize structured analysis and minimize unnecessary exploration. All data, code, and leaderboard results will be made publicly available on our website.
- Abstract(参考訳): 競合プログラミング問題は、その複雑さと検証の容易さから、大規模言語モデル(LLM)のコーディング能力を評価するための貴重なベンチマークとして、ますます役立っている。
しかし、現在のコーディングベンチマークでは、例外的な問題不足、テストケースのカバレッジ不足、アクセシビリティを制限するオンラインプラットフォームAPIへの依存など、制限に直面している。
これらの問題に対処するため、403人の専門家によるオリンピアードレベルの競合プログラミング問題を含む総合的なベンチマークであるLiveOIBenchを紹介した。
この問題は2023年から2025年の間に行われた、72の公式のインフォマティクス・オリンピアード(英語版)から直接発生している。
LiveOIBench は,(1) 詳細なサブタスクと広範囲なプライベートテストケースで厳密にキュレートされた高品質なタスク,(2) トップパフォーマンス人間との情報比較を可能にするエリートパフォーマンスデータの直接統合,(3) 新たにリリースされたオリンピアス問題からの継続的かつ汚染のない更新,(4) オフラインおよび再現容易な評価を容易にする自己完結型評価システムである。
32の一般的な汎用と推論 LLM をベンチマークした結果、GPT-5 は 81.76 % のパーセンタイルを達成していることがわかった。
対照的に、オープンウェイト推論モデルでは、GPT-OSS-120Bは60分の1しか達成していない。
詳細な分析は、頑健な推論モデルが過剰な探索よりも正確な問題解析を優先していることを示し、将来のモデルは構造化された分析を強調し、不要な探索を最小限にするべきであることを示唆している。
すべてのデータ、コード、およびリーダーボードの結果は、私たちのウェブサイトで公開されます。
関連論文リスト
- Evaluating and Improving Large Language Models for Competitive Program Generation [18.564450345359468]
本研究では,大規模言語モデル(LLM)を現実の競合プログラミング問題の解法として評価・改善することを目的とする。
2024年に開催された9つの地域ICPC/CCPCコンテストから117の問題を収集し、4つのフィルタリング基準を設計し、80の問題をキュレートしたベンチマークを構築した。
我々は,オンライン審査員(OJ)プラットフォームを通じて,その競争プログラム生成能力を評価し,慎重に設計された基本的なプロンプトで指導する。
論文 参考訳(メタデータ) (2025-06-28T17:18:23Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - ChartMuseum: Testing Visual Reasoning Capabilities of Large Vision-Language Models [37.54872845368151]
視覚的推論によってのみ解決可能な合成データセットを用いてケーススタディを行う。
次に、1,162人の専門家が注釈を付けた質問を含む新しいチャート質問回答(QA)ベンチマークであるChartMuseumを紹介します。
人間は93%の精度を達成しているが、最高のパフォーマンスモデルであるGemini-2.5-Proは63.0%しか達成できず、主要なオープンソースであるLVLM Qwen2.5-VL-72B-Instructは38.5%しか達成していない。
論文 参考訳(メタデータ) (2025-05-19T17:59:27Z) - CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - The Impossible Test: A 2024 Unsolvable Dataset and A Chance for an AGI Quiz [0.0]
我々は、675の根本的な解決不可能な問題に対して不確実性を認識できる大規模言語モデル(LLM)の能力を評価する。
62-68%の精度で得られた最良のモデルは、生物学から哲学、数学まで様々な分野において未知であった。
論文 参考訳(メタデータ) (2024-11-20T04:12:29Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。