論文の概要: CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments
- arxiv url: http://arxiv.org/abs/2510.27565v1
- Date: Fri, 31 Oct 2025 15:47:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:16.15653
- Title: CodeAlignBench: Assessing Code Generation Models on Developer-Preferred Code Adjustments
- Title(参考訳): CodeAlignBench: 開発者優先のコード調整によるコード生成モデルの評価
- Authors: Forough Mehralian, Ryan Shar, James R. Rae, Alireza Hashemi,
- Abstract要約: 本稿では,命令追従機能の評価を行うマルチ言語ベンチマークを提案する。
本ベンチマークでは、初期問題に規定された事前定義された制約の順守と、フォローアップ命令に基づいて改善を行う能力の2つの主要な設定で命令に従うことを評価する。
- 参考スコア(独自算出の注目度): 1.3999481573773072
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models become increasingly capable of generating code, evaluating their performance remains a complex and evolving challenge. Existing benchmarks primarily focus on functional correctness, overlooking the diversity of real-world coding tasks and developer expectations. To this end, we introduce a multi-language benchmark that evaluates LLM instruction-following capabilities and is extensible to operate on any set of standalone coding problems. Our benchmark evaluates instruction following in two key settings: adherence to pre-defined constraints specified with the initial problem, and the ability to perform refinements based on follow-up instructions. For this paper's analysis, we empirically evaluated our benchmarking pipeline with programming tasks from LiveBench, that are also automatically translated from Python into Java and JavaScript. Our automated benchmark reveals that models exhibit differing levels of performance across multiple dimensions of instruction-following. Our benchmarking pipeline provides a more comprehensive evaluation of code generation models, highlighting their strengths and limitations across languages and generation goals.
- Abstract(参考訳): 大きな言語モデルがコードを生成する能力が増すにつれて、そのパフォーマンスの評価は複雑で進化する課題である。
既存のベンチマークは主に、現実世界のコーディングタスクと開発者の期待の多様性を見越して、機能の正しさに重点を置いている。
この目的のために,LLM命令追従機能の評価を行うマルチ言語ベンチマークを導入し,任意のスタンドアロンコーディング問題に対して拡張可能であることを示す。
本ベンチマークでは、初期問題に規定された事前定義された制約の順守と、フォローアップ命令に基づいて改善を行う能力の2つの主要な設定で命令に従うことを評価する。
本稿では,PythonからJavaとJavaScriptに自動的に変換されるLiveBenchのプログラミングタスクを用いて,ベンチマークパイプラインを実証的に評価した。
自動ベンチマークにより,複数次元の命令追跡において,モデルの性能が異なることが明らかとなった。
私たちのベンチマークパイプラインは、コード生成モデルのより包括的な評価を提供し、言語間の長所と短所を強調します。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - Turning the Tide: Repository-based Code Reflection [52.13709676656648]
マルチファイルリポジトリコンテキストにおけるコード理解と生成を評価するベンチマークであるLiveRepoReflectionを紹介する。
多様性、正確性、難易度を確保するため、6ドル(約6,800円)のプログラミング言語で厳格にテストケースをフィルタリングしました。
RepoReflection-Instructは、さまざまなソースから派生した大規模で品質の高い命令チューニングデータセットである。
論文 参考訳(メタデータ) (2025-07-14T02:36:27Z) - CodeIF-Bench: Evaluating Instruction-Following Capabilities of Large Language Models in Interactive Code Generation [10.438717413104062]
大規模言語モデルの命令追従能力を評価するためのベンチマークであるCodeIF-Benchを紹介する。
CodeIF-Benchには、現実世界のソフトウェア開発要件に沿った9種類の検証可能な命令が組み込まれている。
textitStatic Conversation と textitDynamic Conversation の設定の両方において、7つの最先端 LLM の性能を評価する。
論文 参考訳(メタデータ) (2025-03-05T09:47:02Z) - CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation [20.013757490442064]
タスク指向の命令に準拠する大規模言語モデル(LLM)の能力を評価するために設計された最初のベンチマークであるCodeIFを紹介する。
CodeIFは関数合成、アルゴリズム命令、コード説明など幅広いタスクを含んでいる。
我々はLLMによる広範囲な実験を行い、これらの課題の要求を満たす上での強みと限界を分析した。
論文 参考訳(メタデータ) (2025-02-26T14:19:49Z) - CodeScope: An Execution-based Multilingual Multitask Multidimensional Benchmark for Evaluating LLMs on Code Understanding and Generation [18.354576598908448]
LLM(Large Language Models)は、人間のプログラミング支援に優れた性能を発揮している。
LLMのコード理解と生成能力を評価するための既存のベンチマークは、厳しい制限に悩まされている。
実行ベース,多言語,マルチタスク,多次元評価ベンチマークであるCodeScopeを紹介する。
論文 参考訳(メタデータ) (2023-11-14T23:18:52Z) - Benchmarking Generalization via In-Context Instructions on 1,600+
Language Tasks [95.06087720086133]
Natural-Instructions v2 は 1,600 以上の多種多様な言語タスクとその専門家による命令のコレクションである。
ベンチマークでは、タグ付け、インフィル、書き換えなど、70以上の異なるタスクタイプがカバーされている。
このベンチマークにより、モデルのクロスタスク一般化の大規模評価が可能になる。
論文 参考訳(メタデータ) (2022-04-16T03:12:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。