論文の概要: Competitive Programming with Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2502.06807v1
- Date: Mon, 03 Feb 2025 23:00:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-16 04:07:47.203867
- Title: Competitive Programming with Large Reasoning Models
- Title(参考訳): 大規模推論モデルによる競合プログラミング
- Authors: OpenAI, :, Ahmed El-Kishky, Alexander Wei, Andre Saraiva, Borys Minaev, Daniel Selsam, David Dohan, Francis Song, Hunter Lightman, Ignasi Clavera, Jakub Pachocki, Jerry Tworek, Lorenz Kuhn, Lukasz Kaiser, Mark Chen, Max Schwarzer, Mostafa Rohaninejad, Nat McAleese, o3 contributors, Oleg Mürk, Rhythm Garg, Rui Shu, Szymon Sidor, Vineet Kosaraju, Wenda Zhou,
- Abstract要約: 大規模言語モデル(LLM)に適用した強化学習は、複雑なコーディングや推論タスクの性能を大幅に向上させることを示す。
OpenAI o1 と初期チェックポイント o3 の2つの汎用推論モデルとドメイン固有のシステム o1-ioi を比較した。
以上の結果から,o1-ioiなどの特殊なパイプラインでは,手作りの推論に頼らずに,スケールアップされた汎用o3モデルがこれらの結果を上回っていることが明らかとなった。
- 参考スコア(独自算出の注目度): 73.7455809592467
- License:
- Abstract: We show that reinforcement learning applied to large language models (LLMs) significantly boosts performance on complex coding and reasoning tasks. Additionally, we compare two general-purpose reasoning models - OpenAI o1 and an early checkpoint of o3 - with a domain-specific system, o1-ioi, which uses hand-engineered inference strategies designed for competing in the 2024 International Olympiad in Informatics (IOI). We competed live at IOI 2024 with o1-ioi and, using hand-crafted test-time strategies, placed in the 49th percentile. Under relaxed competition constraints, o1-ioi achieved a gold medal. However, when evaluating later models such as o3, we find that o3 achieves gold without hand-crafted domain-specific strategies or relaxed constraints. Our findings show that although specialized pipelines such as o1-ioi yield solid improvements, the scaled-up, general-purpose o3 model surpasses those results without relying on hand-crafted inference heuristics. Notably, o3 achieves a gold medal at the 2024 IOI and obtains a Codeforces rating on par with elite human competitors. Overall, these results indicate that scaling general-purpose reinforcement learning, rather than relying on domain-specific techniques, offers a robust path toward state-of-the-art AI in reasoning domains, such as competitive programming.
- Abstract(参考訳): 大規模言語モデル(LLM)に適用した強化学習は、複雑なコーディングや推論タスクの性能を大幅に向上させることを示す。
さらに、OpenAI o1とO3の早期チェックポイントという2つの汎用推論モデルと、ドメイン固有のシステムo1-ioiを比較した。
私たちはIOI 2024でo1-ioiとライブで出場し、手作りのテストタイム戦略を使って49位にランクインしました。
ゆるやかな競技の制約の下で、o1-ioiは金メダルを獲得した。
しかし、o3のような後のモデルを評価する場合、o3は手作りのドメイン固有の戦略や緩和された制約なしで金を達成する。
以上の結果から,o1-ioiなどの特殊なパイプラインでは,手作りの推論ヒューリスティックに頼らずに,大規模で汎用的なo3モデルがこれらの結果を上回ることが示唆された。
特に、O3は2024年のIOIで金メダルを獲得し、エリート・ヒューマン・コンペティターに匹敵するCodeforces格付けを得た。
これらの結果は、ドメイン固有の技術に頼るのではなく、汎用強化学習のスケーリングが、競合プログラミングのようなドメインを推論する最先端のAIへの堅牢な道を提供することを示している。
関連論文リスト
- CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。
CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文 参考訳(メタデータ) (2025-01-02T13:49:00Z) - A Comparative Study on Reasoning Patterns of OpenAI's o1 Model [69.08287909042421]
OpenAIのo1モデルは、ほとんどのデータセットで最高のパフォーマンスを実現しています。
また、いくつかの推論ベンチマークについて詳細な分析を行う。
論文 参考訳(メタデータ) (2024-10-17T15:09:03Z) - Omni-MATH: A Universal Olympiad Level Mathematic Benchmark For Large Language Models [63.31878920079154]
Olympiadレベルでの大規模言語モデルの数学的推論を評価するためのベンチマークを提案する。
既存のOlympiad関連のベンチマークとは違って、我々のデータセットは数学に特化しており、厳密な人間のアノテーションを使った4428の競合レベルの問題の膨大なコレクションを含んでいる。
実験の結果,最も先進的なモデルであるOpenAI o1-miniとOpenAI o1-previewでさえ,60.54%と52.55%の精度で,オリンピアードレベルの問題に悩まされ,オリンピアードレベルの数学的推論において重大な課題が浮き彫りにされていることがわかった。
論文 参考訳(メタデータ) (2024-10-10T14:39:33Z) - Double Oracle Neural Architecture Search for Game Theoretic Deep Learning Models [28.238075755838487]
本稿では,ゲーム理論の概念を用いたディープラーニングモデルの学習手法を提案する。
最良応答オラクルを用いた二重対角フレームワークをデプロイする。
主観的質的評価と定量的指標の両面で,我々の変種は有意な改善が見られた。
論文 参考訳(メタデータ) (2024-10-07T05:42:01Z) - Lory: Fully Differentiable Mixture-of-Experts for Autoregressive Language Model Pre-training [73.90260246781435]
私たちは、このようなアーキテクチャを自動回帰言語モデルに拡張する最初のアプローチであるLoryを紹介します。
パラメータマッチングされた高密度モデルよりも、多種多様な下流タスクにおいて顕著な性能向上を示す。
セグメントレベルのルーティングにもかかわらず、Loryモデルはトークンレベルのルーティングを備えた最先端のMoEモデルと比較して、競合的なパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-06T03:06:33Z) - A Two-stage Fine-tuning Strategy for Generalizable Manipulation Skill of
Embodied AI [15.480968464853769]
そこで我々は,Maniskill2ベンチマークに基づく2段階ファインチューニング手法を提案する。
本研究は,Embodied AIモデルの一般化能力を向上し,現実のシナリオにおける実践的応用の道を開く手法の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2023-07-21T04:15:36Z) - Double A3C: Deep Reinforcement Learning on OpenAI Gym Games [0.0]
強化学習(Reinforcement Learning, RL)とは、エージェントが未知の環境でどのように行動し、報酬を最大化するかを判断する機械学習の分野である。
両アルゴリズムがOpenAI Gym Atari 2600をプレイしてベンチマークを上回り,両アルゴリズムの強みを生かしたDouble A3Cアルゴリズムの改良版を提案し,実装する。
論文 参考訳(メタデータ) (2023-03-04T00:06:27Z) - Cross-Modal Fine-Tuning: Align then Refine [83.37294254884446]
ORCAはクロスモーダルな微調整フレームワークであり、単一の大規模事前訓練モデルの適用範囲を様々に拡張する。
ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-02-11T16:32:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。