Fugu-MT 論文翻訳(概要): GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

論文の概要: GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning

arxiv url: http://arxiv.org/abs/2604.02721v1
Date: Fri, 03 Apr 2026 04:26:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.323493
Title: GrandCode: Achieving Grandmaster Level in Competitive Programming via Agentic Reinforcement Learning
Title（参考訳）: GrandCode:エージェント強化学習による競合プログラミングのグランドマスターレベル獲得
Authors: DeepReinforce Team, Xiaoya Li, Xiaofei Sun, Guoyin Wang, Songqiao Su, Chris Shum, Jiwei Li,
Abstract要約: 競合プログラミング用に設計されたマルチエージェントRLシステムであるGrandCodeを紹介する。 GrandCodeは、競争力のあるプログラミングのライブコンテストで、すべての人間の参加者を一貫して打ち負かす最初のAIシステムだ。
参考スコア（独自算出の注目度）: 20.62478437943378
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Competitive programming remains one of the last few human strongholds in coding against AI. The best AI system to date still underperforms the best humans competitive programming: the most recent best result, Google's Gemini~3 Deep Think, attained 8th place even not being evaluated under live competition conditions. In this work, we introduce GrandCode, a multi-agent RL system designed for competitive programming. The capability of GrandCode is attributed to two key factors: (1) It orchestrates a variety of agentic modules (hypothesis proposal, solver, test generator, summarization, etc) and jointly improves them through post-training and online test-time RL; (2) We introduce Agentic GRPO specifically designed for multi-stage agent rollouts with delayed rewards and the severe off-policy drift that is prevalent in agentic RL. GrandCode is the first AI system that consistently beats all human participants in live contests of competitive programming: in the most recent three Codeforces live competitions, i.e., Round~1087 (Mar 21, 2026), Round~1088 (Mar 28, 2026), and Round~1089 (Mar 29, 2026), GrandCode placed first in all of them, beating all human participants, including legendary grandmasters. GrandCode shows that AI systems have reached a point where they surpass the strongest human programmers on the most competitive coding tasks.
Abstract（参考訳）: 競争力のあるプログラミングは、AIに対するコーディングにおける数少ない人間の強みの1つだ。最新の最高の成果であるGoogleのGemini~3 Deep Thinkは、ライブの競争条件下で評価されていなくても8位を獲得しました。本稿では,競合プログラミング用に設計されたマルチエージェントRLシステムであるGrandCodeを紹介する。 GrandCodeの能力は,(1)様々なエージェントモジュール(仮説提案,ソルバ,テストジェネレータ,要約など)を編成し,トレーニング後およびオンラインテストタイムRLを通じて協調的に改善すること,(2)遅延報酬を伴うマルチステージエージェントロールアウトに特化したエージェントGRPOの導入,およびエージェントRLで普及している厳しいオフポリシードリフトの導入,の2つの要因に起因している。最新の3つのCodeforcesライブコンペ、すなわち、ラウンド~1087(2026年3月21日)、ラウンド~1088(2026年3月28日)、ラウンド~1089(2026年3月29日)では、グランドコードが、伝説的なグランドマスターを含むすべての参加者を圧倒した。 GrandCodeによると、AIシステムは、最も競争力のあるコーディングタスクにおいて、最強の人間プログラマーを上回る水準に達している。

関連論文リスト

Humanity's Last Code Exam: Can Advanced LLMs Conquer Human's Hardest Code Competition? [53.863591321231276]
Humanity's Last Code Exam (HLCE) は、ICPC World Finals (International Collegiate Programming Contest) と International Olympiad in Informatics (IOI) の235の最も難しい問題で構成されている。 HLCEの一部として、完全に再現可能な評価を保証する、調和したオンラインオフラインサンドボックスを設計する。最強の理由である o4-mini(high) と Gemini-2.5 Pro でさえ,それぞれ 15.9% と 11.4% のパス@1 レートを達成した。
論文参考訳（メタデータ） (2025-06-15T04:03:31Z)
CodeElo: Benchmarking Competition-level Code Generation of LLMs with Human-comparable Elo Ratings [70.95565672516979]
LiveCodeBenchやUSACOといった既存のベンチマークは、プライベートテストケースの可用性の欠如、特別な審査員のサポートの欠如、不整合実行環境のために不足している。 CodeEloは標準化された競合レベルのコード生成ベンチマークで、これらすべての課題に初めて効果的に対処する。
論文参考訳（メタデータ） (2025-01-02T13:49:00Z)
Amplifying human performance in combinatorial competitive programming [41.59043428241635]
私たちは競争力のあるプログラミングに重点を置いています。そこでは、難解な問題に対する、可能な限り優れた解決策を見つけることを目的としています。私たちは、GoogleのNPハードなソフトウェアエンジニアリング問題に触発されたグローバルなチームプログラミングコンペであるHash Codeの以前のイテレーションにアプローチをデプロイしています。私たちのソリューションは、ベースラインから得られたスコアを大幅に改善し、以前のHash Codeオンライン資格ラウンドのトップパーセンタイルに到達しました。
論文参考訳（メタデータ） (2024-11-29T14:40:36Z)
Benchmarking Robustness and Generalization in Multi-Agent Systems: A Case Study on Neural MMO [50.58083807719749]
IJCAI 2022で開催されている第2回Neural MMOチャレンジの結果を報告する。この競合はマルチエージェントシステムの堅牢性と一般化をターゲットにしている。環境ラッパー、ベースライン、可視化ツール、そしてさらなる研究のための選択されたポリシーを含むベンチマークをオープンソースにします。
論文参考訳（メタデータ） (2023-08-30T07:16:11Z)
Retrospective on the 2021 BASALT Competition on Learning from Human Feedback [92.37243979045817]
競争の目的は、人間のフィードバック(LfHF)技術から学び、オープンワールドの課題を解決するエージェントへの研究を促進することであった。 LfHF技術の使用を義務付けるのではなく、ビデオゲームMinecraftで達成すべき自然言語の4つのタスクについて説明した。チームは、様々な可能な人間のフィードバックタイプにまたがる多様なLfHFアルゴリズムを開発した。
論文参考訳（メタデータ） (2022-04-14T17:24:54Z)
Insights From the NeurIPS 2021 NetHack Challenge [40.52602443114554]
最初のNeurIPS 2021 NetHack Challengeでは、AIのコミュニティ主導の進歩が紹介された。これはニューラル(ディープRLなど)とシンボリックAI、ハイブリッドシステムを直接比較する役割を果たした。 AI研究の長期的なベンチマークとして、NetHackの適合性を示すエージェントはいなかった。
論文参考訳（メタデータ） (2022-03-22T17:01:07Z)
Competition-Level Code Generation with AlphaCode [74.87216298566942]
より深い推論を必要とする問題に対する新しいソリューションを作成することができるコード生成システムであるAlphaCodeを紹介する。 Codeforcesプラットフォームにおける最近のプログラミングコンペティションのシミュレーション評価において、AlphaCodeは平均54.3%のランキングを達成した。
論文参考訳（メタデータ） (2022-02-08T23:16:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。