論文の概要: BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution
- arxiv url: http://arxiv.org/abs/2510.08697v1
- Date: Thu, 09 Oct 2025 18:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.397069
- Title: BigCodeArena: Unveiling More Reliable Human Preferences in Code Generation via Execution
- Title(参考訳): BigCodeArena: 実行によるコード生成において、より信頼性の高い人間の選好を実現する
- Authors: Terry Yue Zhuo, Xiaolong Jin, Hange Liu, Juyong Jiang, Tianyang Liu, Chen Gong, Bhupesh Bishnoi, Vaisakhi Mishra, Marek Suppa, Noah Ziems, Saiteja Utpala, Ming Xu, Guangyu Song, Kaixin Li, Yuhan Cao, Bo Liu, Zheng Liu, Sabina Abdurakhmanova, Wenhao Yu, Mengzhao Jia, Jihan Yao, Kenneth Hamilton, Kumar Shridhar, Minh Chien Vu, Dingmin Wang, Jiawei Liu, Zijian Wang, Qian Liu, Binyuan Hui, Meg Risdal, Ahsen Khaliq, Atin Sood, Zhenchang Xing, Wasi Uddin Ahmad, John Grundy, David Lo, Banghua Zhu, Xiaoning Du, Torsten Scholak, Leandro von Werra,
- Abstract要約: BigCodeArenaは、包括的でオンザフライな実行環境を背景とした、コード生成のためのオープンなヒューマン評価プラットフォームである。
10の言語と8種類の実行環境にまたがる10のLLMで14,000以上の生のコード中心の会話セッションを収集しました。
BigCodeRewardでは、4700件の会話を後処理し、報酬モデルと人間の好みの一貫性を評価した。
- 参考スコア(独自算出の注目度): 68.95247403447051
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Crowdsourced model evaluation platforms, such as Chatbot Arena, enable real-time evaluation from human perspectives to assess the quality of model responses. In the coding domain, manually examining the quality of LLM-generated content is extremely challenging, as it requires understanding long chunks of raw code and deliberately simulating code execution. To this end, we introduce BigCodeArena, an open human evaluation platform for code generation backed by a comprehensive and on-the-fly execution environment. Built on top of Chatbot Arena, BigCodeArena enables the execution of LLM-generated code and allows humans to interact with the execution process and outcomes. We collected over 14,000 raw code-centric conversation sessions across 10 widely used LLMs, spanning 10 languages and 8 types of execution environments. Among these conversations, we identified more than 4,700 multi-turn samples with pairwise human preferences. Further analysis uncovers underexplored preferences of LLMs in fine-grained domains characterized by tasks, languages, and frameworks. To systematically examine code understanding and generation capabilities of frontier LLMs, we curated two benchmarks based on the collected data, namely BigCodeReward and AutoCodeArena. For BigCodeReward, we post-processed the 4,700 conversations and evaluated the consistency between reward models and human preferences. The evaluation shows that most LLMs have superior performance in judging coding preferences when the execution results are available. Inspired by these findings, we propose AutoCodeArena, an automatic Elo rating benchmark designed to assess the coding quality of LLMs without human involvement. We find that proprietary LLMs like GPT-5, Claude-Sonnet-4, and Claude-Opus-4 still lead in code generation performance among recent emerging models.
- Abstract(参考訳): Chatbot Arenaのようなクラウドソーシングモデル評価プラットフォームは、人間の視点によるリアルタイム評価を可能にし、モデル応答の品質を評価する。
コーディング領域では、LLM生成したコンテンツの質を手動で調べるのは極めて難しい。
この目的のために私たちは,包括的でオンザフライな実行環境を背景とした,コード生成のためのオープンなヒューマン評価プラットフォームであるBigCodeArenaを紹介した。
Chatbot Arena上に構築されたBigCodeArenaは、LLM生成コードの実行を可能にし、人間が実行プロセスと結果と対話できるようにする。
10の言語と8種類の実行環境にまたがる10のLLMで14,000以上の生のコード中心の会話セッションを収集しました。
これらの会話の中で,2対の嗜好を持つ4,700以上のマルチターンサンプルを同定した。
さらなる分析により、タスク、言語、フレームワークを特徴とするきめ細かいドメインでのLLMの探索された嗜好が明らかになった。
そこで我々は,収集したデータ,すなわちBigCodeRewardとAutoCodeArenaに基づいて,Frontier LLMのコード理解と生成能力を体系的に検証した。
BigCodeRewardでは、4700件の会話を後処理し、報酬モデルと人間の好みの一貫性を評価した。
評価の結果,ほとんどのLLMは,実行結果が利用可能である場合の符号化選好を判断する上で優れた性能を示した。
これらの知見にインスパイアされたAutoCodeArenaは,人間の関与なしにLLMの符号化品質を評価するために設計された,自動Elo評価ベンチマークである。
GPT-5、Claude-Sonnet-4、Claude-Opus-4といったプロプライエタリなLLMは、近年の新興モデルではコード生成性能を保っている。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - Evaluating and Aligning CodeLLMs on Human Preference [42.26173776584043]
実世界のコーディングタスクの複雑さと多様性をエミュレートするために,厳密な人為的なベンチマークであるCodeArenaを提案する。
また,大規模合成命令微調整の有効性を検証するために,多種多様な合成命令コーパスSynCode-Instructを提案する。
その結果、実行ベースのベンチマークとCodeArenaのパフォーマンスの違いが判明した。
論文 参考訳(メタデータ) (2024-12-06T17:40:38Z) - Human-Like Code Quality Evaluation through LLM-based Recursive Semantic Comprehension [39.277408536940825]
コード品質評価には、特定の問題ステートメントに対する参照コードに基づいて生成されたコード品質を評価することが含まれる。
現在、コード品質の評価には、マッチベースの評価と実行ベースの評価の2つの主要な形態がある。
論文 参考訳(メタデータ) (2024-11-30T01:49:25Z) - InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。
慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。
InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文 参考訳(メタデータ) (2024-03-11T02:06:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。