論文の概要: UniCode: A Framework for Generating High Quality Competitive Coding Problems
- arxiv url: http://arxiv.org/abs/2510.17868v1
- Date: Thu, 16 Oct 2025 05:07:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.238631
- Title: UniCode: A Framework for Generating High Quality Competitive Coding Problems
- Title(参考訳): UniCode: 高品質な競合的コーディング問題を生成するフレームワーク
- Authors: Xinyue Zheng, Haowei Lin, Shaofei Cai, Zilong Zheng, Yitao Liang,
- Abstract要約: UniCodeは、堅牢で汚染に強いテストケースと並行して、高品質なアルゴリズム問題を自動生成する新しいフレームワークである。
トップパフォーマンスのモデルであるo4-miniが70.3%のパス率しか達成していないため、UniCodeは非常に困難で差別的であることを示す。
- 参考スコア(独自算出の注目度): 41.66698149759178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reliance of competitive coding benchmarks on static, human-authored problems creates significant challenges, including data contamination and limited scalability. To address these issues, we introduce UniCode, a novel framework that automatically generates high-quality algorithmic problems alongside robust, contamination-resistant test cases. Inspired by biological evolution that creates better and diverse offspring, our framework leverages Large Language Models (LLMs) to systematically diversify problems through three strategies: single problem extension, same-type fusion, and cross-type fusion. A key innovation is our stress-driven test case synthesis pipeline, which generates reliable test suites without requiring a canonical ground-truth solution. This pipeline combines brute-force grounding for small-scale inputs with a consensus-based validation mechanism for large-scale inputs to ensure high correctness and coverage. We demonstrate effectiveness of our framework by curating a benchmark of 492 problems and evaluating 19 state-of-the-art LLMs. The results reveal that UniCode is highly challenging and discriminative, with the top-performing model, o4-mini, achieving a pass rate of only 70.3%. Our framework provides a scalable and reliable solution for generating dynamic evaluation datasets in coding domain.
- Abstract(参考訳): 静的で人為的な問題に対する競合するコーディングベンチマークへの依存は、データの汚染やスケーラビリティの制限など、大きな課題を生み出します。
これらの問題に対処するため、我々は、堅牢で汚染に強いテストケースとともに、高品質なアルゴリズム問題を自動生成する新しいフレームワークUniCodeを紹介した。
より良く多様な子孫を生み出す生物学的進化にインスパイアされた我々のフレームワークは、大規模言語モデル(LLM)を利用して、単一問題拡張、同型融合、およびクロスタイプ融合の3つの戦略を通じて、問題を体系的に多様化する。
重要なイノベーションはストレス駆動型テストケース合成パイプラインです。
このパイプラインは、小規模入力に対するブルートフォースグラウンドと、大規模入力に対するコンセンサスに基づく検証機構を組み合わせて、高い正確性とカバレッジを保証する。
提案手法は,492件の問題点のベンチマークを算出し,19件のLLMを評価し,その有効性を実証する。
その結果、UniCodeは非常に困難で差別的であり、最高性能のモデルであるo4-miniは70.3%のパス率しか達成していないことが明らかとなった。
私たちのフレームワークは、コーディングドメインで動的評価データセットを生成するためのスケーラブルで信頼性の高いソリューションを提供します。
関連論文リスト
- BOSQTGEN: Breaking the Sound Barrier in Test Generation [3.052470294814771]
本稿では,新しいブラックボックスとAPIテスト生成ツールであるBOSQTGENを紹介する。
BOSQTGENは、API仕様をプリミティブに分解するための新しいアプローチ、LLMを使用してコヒーレントなインタラクションを提案し、これらの値を効率的にサンプリングするためにテストを採用する。
結果として得られたBOSQTGENシステムは、ベンチマークで平均82%のコードカバレッジを達成するが、しばしば以前の最先端システムよりも20%以上増加する。
論文 参考訳(メタデータ) (2025-10-22T17:11:30Z) - QueST: Incentivizing LLMs to Generate Difficult Problems [77.75835742350644]
大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。
既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。
本稿では,難解なグラフサンプリングと難解な拒否の微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
論文 参考訳(メタデータ) (2025-10-20T16:29:53Z) - An Agentic Framework with LLMs for Solving Complex Vehicle Routing Problems [66.60904891478687]
複雑な車両ルーティング問題を解決するために,LLM (AFL) を用いたエージェントフレームワークを提案する。
AFLは生の入力から知識を直接抽出し、自己完結型コード生成を可能にする。
AFLは、コード信頼性とソリューション実現性の両方において、既存のLCMベースのベースラインを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2025-10-19T03:59:25Z) - AutoCode: LLMs as Problem Setters for Competitive Programming [94.71566758494787]
競合グレードの問題ステートメントやテストケースを生成するために,複数の検証ラウンドを使用するAutoCodeを紹介します。
ホールドアウト問題では、AutoCodeテストスイートが99%の一貫性と公式判断にアプローチしている。
論文 参考訳(メタデータ) (2025-09-29T17:59:03Z) - AetherCode: Evaluating LLMs' Ability to Win In Premier Programming Competitions [37.21656149034477]
競合プログラミングは、LLM(Large Language Models)の推論とコーディング能力を評価するための重要なベンチマークとして登場した。
現在の評価は、LLMとエリートな人間プログラマの間にかなりのギャップを隠蔽する、状態モデル習熟度を超越している、と我々は主張する。
我々は、IOIやI CPCといった主要なプログラミングコンペティションから問題を引き出す新しいベンチマークであるAetherCodeを紹介する。
論文 参考訳(メタデータ) (2025-08-22T14:04:55Z) - rStar-Coder: Scaling Competitive Code Reasoning with a Large-Scale Verified Dataset [13.309261291558146]
rStar-Coderは、418Kのコード問題、580Kの長推論ソリューション、さまざまな困難を伴うリッチテストケースの大規模かつ検証されたデータセットである。
LiveCodeBenchでは、rStar-CoderはQwen2.5-7Bを17.4%から57.3%に改善し、Qwen2.5-14Bを23.3%から62.5%に改善し、o3-mini(以下)を3.1%上回る。
論文 参考訳(メタデータ) (2025-05-27T15:00:57Z) - KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding [49.56049319037421]
KodCodeは、高品質で検証可能なトレーニングデータを取得するという永続的な課題に対処する、合成データセットである。
自己検証手順によって体系的に検証される質問解決テスト三つ子を含む。
このパイプラインは大規模で堅牢で多様なコーディングデータセットを生成する。
論文 参考訳(メタデータ) (2025-03-04T19:17:36Z) - How to Get Your LLM to Generate Challenging Problems for Evaluation [33.625052642068624]
CHASEは、大規模言語モデルを用いて、難しい問題を合成的に生成する統合フレームワークである。
評価ベンチマークを作成するためにCHASEを実装している。
これらのベンチマークにおける最先端のLCMの性能は、40-60%の精度の範囲にある。
論文 参考訳(メタデータ) (2025-02-20T16:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。