論文の概要: Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models
- arxiv url: http://arxiv.org/abs/2510.14232v1
- Date: Thu, 16 Oct 2025 02:19:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.680443
- Title: Scaling Test-Time Compute to Achieve IOI Gold Medal with Open-Weight Models
- Title(参考訳): オープンウェイトモデルによるIOIゴールドメダル獲得のためのテスト時間計算のスケールアップ
- Authors: Mehrzad Samadi, Aleksander Ficek, Sean Narenthiran, Siddhartha Jain, Wasi Uddin Ahmad, Somshubra Majumdar, Vahid Noroozi, Boris Ginsburg,
- Abstract要約: GenClusterはテスト時の計算フレームワークで、オープンウェイトモデルを使用してIOIゴールドレベルのパフォーマンスを実現する。
GenClusterは、オープンウェイトモデルで、初めてIOI 2025で金メダルを獲得できることを示します。
- 参考スコア(独自算出の注目度): 72.52332895840279
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Competitive programming has become a rigorous benchmark for evaluating the reasoning and problem-solving capabilities of large language models (LLMs). The International Olympiad in Informatics (IOI) stands out as one of the most prestigious annual competitions in competitive programming and has become a key benchmark for comparing human and AI-level programming ability. While several proprietary models have been claimed to achieve gold medal-level performance at the IOI, often with undisclosed methods, achieving comparable results with open-weight models remains a significant challenge. In this paper, we present \gencluster, a scalable and reproducible test-time compute framework that attains IOI gold-level performance using open-weight models. It combines large-scale generation, behavioral clustering, ranking, and a round-robin submission strategy to efficiently explore diverse solution spaces under limited validation budgets. Our experiments show that the performance of our proposed approach scales consistently with available compute, narrowing the gap between open and closed systems. Notably, we will show that GenCluster can achieve a gold medal at IOI 2025 for the first time with an open-weight model gpt-oss-120b, setting a new benchmark for transparent and reproducible evaluation of reasoning in LLMs.
- Abstract(参考訳): 競合プログラミングは、大規模言語モデル(LLM)の推論と問題解決能力を評価するための厳格なベンチマークとなっている。
International Olympiad in Informatics (IOI)は、競争プログラミングにおける最も権威ある年次大会の1つであり、人間とAIレベルのプログラミング能力を比較する上で重要なベンチマークとなっている。
いくつかのプロプライエタリなモデルはIOIで金メダルレベルのパフォーマンスを達成すると主張されているが、しばしば開示されていない方法で達成されるが、オープンウェイトモデルと同等の結果を得ることは大きな課題である。
本稿では,オープンウェイトモデルを用いてIOIゴールドレベルのパフォーマンスを実現する,スケーラブルで再現可能なテスト時間計算フレームワークである \gencluster を提案する。
大規模な生成、行動クラスタリング、ランキング、ラウンドロビンの提出戦略を組み合わせて、限定された検証予算の下で多様なソリューション空間を効率的に探索する。
実験の結果,提案手法は利用可能な計算量と連続的にスケールし,オープンシステムとクローズドシステムとのギャップを狭めることがわかった。
特に、GenClusterは、オープンウェイトモデルgpt-oss-120bで、初めてIOI 2025で金メダルを獲得できることを示し、LCMにおける推論の透明かつ再現可能な評価のための新しいベンチマークを設定します。
関連論文リスト
- OJBench: A Competition Level Code Benchmark For Large Language Models [23.061564017225734]
OJBenchは、大規模言語モデル(LLM)の競合レベルのコード推論能力を評価するために設計された、新しくて挑戦的なベンチマークである。
我々は,オープンソースモデルとオープンソースモデルの両方,推論指向モデルと非推論指向モデルを含む37モデルに対して,OJBenchを用いた包括的評価を行う。
以上の結果から,o4-miniやGemini-2.5-pro-expといった最先端の推論指向モデルでさえ,競争レベルの問題に悩まされていることが示唆された。
論文 参考訳(メタデータ) (2025-06-19T15:27:02Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - OIBench: Benchmarking Strong Reasoning Models with Olympiad in Informatics [13.049841309304922]
本稿では,OIBenchについて紹介する。OIBenchは高品質でプライベートで,250個の厳格なオリジナル問題からなる,オリンピックレベルの情報データセットである。
ベンチマークの構築手法を詳述し、様々なプログラミングパラダイムや複雑さの包括的評価を確実にする。
我々は,よりきめ細かな効率解析のための時間/空間補完曲線を提案し,直接人-モデル比較を可能にする。
論文 参考訳(メタデータ) (2025-06-12T08:33:38Z) - Competitive Programming with Large Reasoning Models [73.7455809592467]
大規模言語モデル(LLM)に適用した強化学習は、複雑なコーディングや推論タスクの性能を大幅に向上させることを示す。
OpenAI o1 と初期チェックポイント o3 の2つの汎用推論モデルとドメイン固有のシステム o1-ioi を比較した。
以上の結果から,o1-ioiなどの特殊なパイプラインでは,手作りの推論に頼らずに,スケールアップされた汎用o3モデルがこれらの結果を上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2025-02-03T23:00:15Z) - LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning [56.273799410256075]
このフレームワークはMonte Carlo Tree Search (MCTS)と反復的なSelf-Refineを組み合わせて推論パスを最適化する。
このフレームワークは、一般的なベンチマークと高度なベンチマークでテストされており、探索効率と問題解決能力の点で優れた性能を示している。
論文 参考訳(メタデータ) (2024-10-03T18:12:29Z) - Bigger, Regularized, Optimistic: scaling for compute and sample-efficient continuous control [1.1404490220482764]
BROは、犬とヒューマノイドのタスクにおいて、ほぼ最適ポリシーを達成するためのモデルフリーのアルゴリズムである。
BROは最先端の結果を達成し、主要なモデルベースおよびモデルフリーアルゴリズムを著しく上回っている。
BROは、非常に難しい犬とヒューマノイドのタスクにおいて、ほぼ最適なポリシーを達成した最初のモデルなしアルゴリズムである。
論文 参考訳(メタデータ) (2024-05-25T09:53:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。