Fugu-MT 論文翻訳(概要): DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

論文の概要: DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models

arxiv url: http://arxiv.org/abs/2601.11895v1
Date: Sat, 17 Jan 2026 03:33:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-21 22:47:22.36122
Title: DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models
Title（参考訳）: DevBench: コード生成モデルのための現実的で開発者によるベンチマーク
Authors: Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu,
Abstract要約: DevBenchは、現実的なコード補完タスクにおいて、LLM(Large Language Models)を評価するために設計されたテレメトリ駆動のベンチマークである。これには、6つのプログラミング言語で1,800の評価インスタンスと、実際の開発者テレメトリから派生した6つのタスクカテゴリが含まれている。
参考スコア（独自算出の注目度）: 13.17188927209697
License: http://creativecommons.org/licenses/by/4.0/
Abstract: DevBench is a telemetry-driven benchmark designed to evaluate Large Language Models (LLMs) on realistic code completion tasks. It includes 1,800 evaluation instances across six programming languages and six task categories derived from real developer telemetry, such as API usage and code purpose understanding. Unlike prior benchmarks, it emphasizes ecological validity, avoids training data contamination, and enables detailed diagnostics. The evaluation combines functional correctness, similarity-based metrics, and LLM-judge assessments focused on usefulness and contextual relevance. 9 state-of-the-art models were assessed, revealing differences in syntactic precision, semantic reasoning, and practical utility. Our benchmark provides actionable insights to guide model selection and improvement-detail that is often missing from other benchmarks but is essential for both practical deployment and targeted model development.
Abstract（参考訳）: DevBenchは、現実的なコード補完タスクにおいて、LLM(Large Language Models)を評価するために設計されたテレメトリ駆動のベンチマークである。これには、6つのプログラミング言語で1,800の評価インスタンスと、実際の開発者テレメトリから派生した6つのタスクカテゴリが含まれている。以前のベンチマークとは異なり、生態学的妥当性を強調し、データ汚染のトレーニングを避け、詳細な診断を可能にする。この評価は、機能的正当性、類似度に基づくメトリクス、有用性と文脈的関連性に焦点を当てたLCM-judgeアセスメントを組み合わせたものである。 9つの最先端モデルを評価し, 構文的精度, 意味的推論, 実用性の違いを明らかにした。我々のベンチマークは、他のベンチマークに欠落することが多いモデル選択と改善詳細をガイドする実用的な洞察を提供するが、実用的デプロイメントとターゲットモデル開発の両方に不可欠である。

関連論文リスト

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation [85.56193980646981]
命令追従のための総合的メタ評価ベンチマークであるIF-RewardBenchを提案する。各命令に対して、複数の応答間の全てのペアの選好を含む選好グラフを構築する。 IF-RewardBenchの実験は、現在の審査モデルに重大な欠陥を呈している。
論文参考訳（メタデータ） (2026-03-05T02:21:17Z)
DARE-bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science [31.00353091375463]
DARE-benchは機械学習モデリングとデータサイエンスのインストラクションのためのベンチマークである。 6300のKaggleから派生したタスクで構成され、大規模なトレーニングデータと評価セットの両方を提供する。 DARE-benchトレーニングタスクを微調整に使用すると、モデルのパフォーマンスが大幅に向上する。
論文参考訳（メタデータ） (2026-02-27T18:58:57Z)
Holistic Evaluation of State-of-the-Art LLMs for Code Generation [5.504955093712013]
DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
論文参考訳（メタデータ） (2025-12-19T23:29:05Z)
LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文参考訳（メタデータ） (2025-11-17T23:57:24Z)
Smart but Costly? Benchmarking LLMs on Functional Accuracy and Energy Efficiency [5.771786260272727]
我々は、エネルギー効率と機能的正当性の統一的なスケールでコード言語モデルのベンチマークを行うためのフレームワークBRACEを提案する。同心性漸進的レーティングサークル(CIRC)と予測レーティング(OTER)の2つの評価手法を提案する。我々の分析では、文法ベースで構文的に正しい出力を生成するように強制されないため、コード要約タスクにおいて、一般的にモデルの性能が向上することを明らかにした。
論文参考訳（メタデータ） (2025-11-10T23:44:48Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。 QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文参考訳（メタデータ） (2023-11-06T00:21:44Z)
Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文参考訳（メタデータ） (2023-11-03T14:59:54Z)
FLASK: Fine-grained Language Model Evaluation based on Alignment Skill Sets [69.91340332545094]
FLASKは、人間に基づく評価とモデルに基づく評価の両方のためのきめ細かい評価プロトコルである。モデル性能の全体像を得るためには,評価の微粒化が重要であることを実験的に観察する。
論文参考訳（メタデータ） (2023-07-20T14:56:35Z)
Personalized Benchmarking with the Ludwig Benchmarking Toolkit [12.347185532330919]
Ludwig Benchmarking Toolkit (LBT)は、エンドツーエンドのベンチマーク研究を行うためのパーソナライズされたベンチマークツールキットである。 LBTは、トレーニングの制御と評価のカスタマイズのためのインターフェース、境界変数の排除のための標準化されたトレーニングフレームワーク、多目的評価のサポートを提供する。 7つのモデルと9つのデータセットにまたがるテキスト分類のための大規模比較分析を用いて、LBTを用いてパーソナライズされたベンチマーク研究を作成する方法を示す。
論文参考訳（メタデータ） (2021-11-08T03:53:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。