論文の概要: FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale
- arxiv url: http://arxiv.org/abs/2605.14445v1
- Date: Thu, 14 May 2026 06:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.667152
- Title: FrontierSmith: Synthesizing Open-Ended Coding Problems at Scale
- Title(参考訳): FrontierSmith: スケールでのオープンエンドコーディング問題の合成
- Authors: Runyuan He, Qiuyang Mang, Shang Zhou, Kaiyuan Liu, Hanchen Li, Huanzhi Mao, Qizheng Zhang, Zerui Li, Bo Peng, Lufeng Cheng, Tianfu Fu, Yichuan Wang, Wenhao Chai, Jingbo Shang, Alex Dimakis, Joseph E. Gonzalez, Alvin Cheung,
- Abstract要約: 既存のクローズドエンドコーディングタスクからオープンエンドの問題を進化させる自動化システムであるFrontierSmithを紹介する。
2つのオープンエンドコーディングベンチマークでは、我々の合成データに対するトレーニングはベースモデルよりも大幅に向上する。
合成された問題は、エージェントがもっと回転してトークンを使うようにもなっています。
- 参考スコア(独自算出の注目度): 73.57353294235223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many real-world coding challenges are open-ended and admit no known optimal solution. Yet, recent progress in LLM coding has focused on well-defined tasks such as feature implementation, bug fixing, and competitive programming. Open-ended coding remains a weak spot for LLMs, largely because open-ended training problems are scarce and expensive to construct. Our goal is to synthesize open-ended coding problems at scale to train stronger LLM coders. We introduce FrontierSmith, an automated system for iteratively evolving open-ended problems from existing closed-ended coding tasks. Starting from competitive programming problems, FrontierSmith generates candidate open-ended variants by changing the problems'goals, restricting outputs, and generalizing inputs. It then uses a quantitative idea divergence metric to select problems that elicit genuinely diverse approaches from different solvers. Agents then generate test cases and verifiers for the surviving candidates. On two open-ended coding benchmarks, training on our synthesized data yields substantial gains over the base models: Qwen3.5-9B improves by +8.82 score on FrontierCS and +306.36 (Elo-rating-based performance) on ALE-bench; Qwen3.5-27B improves by +12.12 and +309.12, respectively. The synthesized problems also make agents take more turns and use more tokens, similar to human-curated ones, suggesting that closed-ended seeds can be a practical starting point for long-horizon coding data.
- Abstract(参考訳): 多くの現実世界のコーディング課題は、オープンエンドであり、既知の最適解を認めていない。
しかし、LLMコーディングの最近の進歩は、機能の実装、バグ修正、競合プログラミングなど、明確に定義されたタスクに焦点を当てている。
オープンエンドのコーディングはLLMにとって依然として弱点であり、主に、オープンエンドのトレーニング問題が不足し、構築に費用がかかるためである。
我々のゴールは、LLMコーダを訓練するために、大規模にオープンエンドコーディング問題を合成することである。
既存のクローズドエンドコーディングタスクから、オープンエンド問題を反復的に進化させる自動化システムであるFrontierSmithを紹介する。
競合プログラミング問題から始めて、FrontierSmithは問題のゴールを変更し、出力を制限し、入力を一般化することで、候補となるオープンエンドの変種を生成する。
次に、量的アイデアの発散度を使って、異なる解法から真に多様なアプローチを導出する問題を選択する。
エージェントは、生き残った候補に対するテストケースと検証器を生成する。
Qwen3.5-9BはFrontierCSで+8.82、ALE-benchで+306.36(Elo-rating-based performance)、Qwen3.5-27Bは+12.12、+309.12。
合成された問題はまた、エージェントがより回転して、人間によって計算されたものと同様のトークンを使用するようにもなっており、クローズドエンド種子が長距離符号化データの実用的な出発点になり得ることを示唆している。
関連論文リスト
- Increasing LLM Coding Capabilities through Diverse Synthetic Coding Tasks [41.75017840131367]
大規模言語モデル(LLM)は、コード生成において素晴らしい可能性を示しています。
800k近い命令推論コードテスト四重項を生成するスケーラブルな合成データ生成パイプラインを提案する。
論文 参考訳(メタデータ) (2025-10-27T10:54:25Z) - QueST: Incentivizing LLMs to Generate Difficult Problems [77.75835742350644]
大規模言語モデルは、推論タスク、競合レベルのコーディングと数学の問題を解く上で、強力なパフォーマンスを達成した。
既存の競合するコーディングデータセットには、数千から数万の問題しか含まれていない。
本稿では,難解なグラフサンプリングと難解な拒否の微調整を組み合わせた新しいフレームワークであるQueSTを提案する。
論文 参考訳(メタデータ) (2025-10-20T16:29:53Z) - Online Intrinsic Rewards for Decision Making Agents from Large Language Model Feedback [52.763620660061115]
ONIは、RLポリシーと本質的な報酬関数を同時に学習する分散アーキテクチャである。
我々は、様々な複雑さを持つ報酬モデリングのためのアルゴリズムの選択範囲を探索する。
提案手法は,NetHack Learning Environment の様々な課題にまたがって,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-10-30T13:52:43Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Code Repair with LLMs gives an Exploration-Exploitation Tradeoff [16.80314690163063]
大きな言語モデル(LLM)でソースコードを反復的に改善し、修復することは、1ショットで構築するには複雑すぎるプログラムを生成する一般的な方法として現れている。
ここでは、リファインメントが探索と露見のトレードオフを露呈していることを示します。ほとんどのテストケースをパスするプログラムをリファイン化したり、考慮の少ないプログラムをリファインダでリファインダすることです。
論文 参考訳(メタデータ) (2024-05-26T04:00:30Z) - AutoCodeRover: Autonomous Program Improvement [8.66280420062806]
プログラムの改善を自律的に達成するために、GitHubの問題を解決する自動化アプローチを提案する。
AutoCodeRoverと呼ばれるアプローチでは、LLMは洗練されたコード検索機能と組み合わせられ、最終的にプログラムの変更やパッチにつながります。
SWE-bench-lite(300の現実のGitHubイシュー)の実験では、GitHubの問題を解決する効果が向上している(SWE-bench-liteでは19%)。
論文 参考訳(メタデータ) (2024-04-08T11:55:09Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。