論文の概要: CodeClash: Benchmarking Goal-Oriented Software Engineering
- arxiv url: http://arxiv.org/abs/2511.00839v1
- Date: Sun, 02 Nov 2025 07:42:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:26.959658
- Title: CodeClash: Benchmarking Goal-Oriented Software Engineering
- Title(参考訳): CodeClash: 目標指向のソフトウェアエンジニアリングのベンチマーク
- Authors: John Yang, Kilian Lieret, Joyce Yang, Carlos E. Jimenez, Ofir Press, Ludwig Schmidt, Diyi Yang,
- Abstract要約: 6つのアリーナで8つのLMを評価するために、1680のトーナメント(合計25,200ラウンド)を実行しました。
結果は,モデルが多様な開発スタイルを示す一方で,戦略的推論の基本的制約を共有していることを明らかにする。
私たちはCodeClashをオープンソースにして、自律的でゴール指向のコード開発の研究を進めています。
- 参考スコア(独自算出の注目度): 63.65464283837602
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current benchmarks for coding evaluate language models (LMs) on concrete, well-specified tasks such as fixing specific bugs or writing targeted tests. However, human programmers do not spend all day incessantly addressing isolated tasks. Instead, real-world software development is grounded in the pursuit of high-level goals, like improving user retention or reducing costs. Evaluating whether LMs can also iteratively develop code to better accomplish open-ended objectives without any explicit guidance remains an open challenge. To address this, we introduce CodeClash, a benchmark where LMs compete in multi-round tournaments to build the best codebase for achieving a competitive objective. Each round proceeds in two phases: agents edit their code, then their codebases compete head-to-head in a code arena that determines winners based on objectives like score maximization, resource acquisition, or survival. Whether it's writing notes, scrutinizing documentation, analyzing competition logs, or creating test suites, models must decide for themselves how to improve their codebases both absolutely and against their opponents. We run 1680 tournaments (25,200 rounds total) to evaluate 8 LMs across 6 arenas. Our results reveal that while models exhibit diverse development styles, they share fundamental limitations in strategic reasoning. Models also struggle with long-term codebase maintenance, as repositories become progressively messy and redundant. These limitations are stark: top models lose every round against expert human programmers. We open-source CodeClash to advance the study of autonomous, goal-oriented code development.
- Abstract(参考訳): 言語モデル(LM)を具体的な、特定のバグを修正したり、ターゲットとするテストを書くといった、明確に定義されたタスクでコーディングするための現在のベンチマーク。
しかし、人間のプログラマは、一日中孤立したタスクに取り組んでいない。
その代わり、現実世界のソフトウェア開発は、ユーザ維持の改善やコスト削減など、ハイレベルな目標追求に基礎を置いています。
明示的なガイダンスなしで、オープンな目標を達成するために、LMが反復的にコードを開発できるかどうかを評価することは、まだオープンな課題である。
そのために私たちは,LMが複数ラウンドのトーナメントで競い合うベンチマークであるCodeClashを紹介した。
各ラウンドは2つのフェーズで進行する: エージェントがコードを編集すると、そのコードベースは、スコアの最大化、リソース獲得、サバイバルといった目標に基づいて勝者を決定するコードアリーナで真っ向から競合する。
ノートを書くか、ドキュメントを精査するか、競合ログを解析するか、テストスイートを作成するかにかかわらず、モデルは自身のコードベースを絶対的かつ反対的に改善する方法を決定する必要があります。
6つのアリーナで8つのLMを評価するために、1680のトーナメント(合計25,200ラウンド)を実行しました。
結果は,モデルが多様な開発スタイルを示す一方で,戦略的推論の基本的制約を共有していることを明らかにする。
リポジトリが徐々に散らかって冗長になり、モデルは長期のコードベースのメンテナンスにも苦労する。
トップモデルは、熟練した人間プログラマに対して、すべてのラウンドで負けます。
私たちはCodeClashをオープンソースにして、自律的でゴール指向のコード開発の研究を進めています。
関連論文リスト
- MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming? [88.29001498765629]
大規模言語モデル(LLM)は、競争力のあるプログラミングにおいてエリート人間より優れています。
我々はこの主張を再考し、LLMが人間の専門家とどのように異なるのか、そしてまだ限界が残っているのかを考察する。
私たちは、Codeforces、ICPC、IOIの問題からなるベンチマークであるLiveCodeBench Proを紹介します。
オリンピアードのメダリストのチームはアルゴリズムカテゴリーのあらゆる問題に注釈を付け、失敗したモデル生成の提出をライン・バイ・ラインで分析する。
論文 参考訳(メタデータ) (2025-06-13T16:29:09Z) - CodeSense: a Real-World Benchmark and Dataset for Code Semantic Reasoning [17.316444989311993]
私たちはCodeSenseという,一連のきめ細かいコード推論タスクを利用できる最初のベンチマークを提案しています。
この結果から,モデルが微粒な推論処理を行う場合の性能差が明らかとなった。
当社の作業では,詳細なSE推論タスクに対して,真理を簡単に収集することのできる実行トレースフレームワークとツールセットを作成しました。
論文 参考訳(メタデータ) (2025-05-31T23:32:01Z) - What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [92.62952504133926]
本研究は,3つの一般的なベンチマーク上で,3つの主要なクローズドソースLLMと6つの人気のあるオープンソースLLMの性能評価を行った。
間違ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析した。
本稿では,自己批判を導入し,LLMが生成したコードに対する批判と修正を可能にする,新たな学習自由反復手法を提案する。
論文 参考訳(メタデータ) (2024-07-08T17:27:17Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。