論文の概要: DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models
- arxiv url: http://arxiv.org/abs/2601.11895v1
- Date: Sat, 17 Jan 2026 03:33:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.36122
- Title: DevBench: A Realistic, Developer-Informed Benchmark for Code Generation Models
- Title(参考訳): DevBench: コード生成モデルのための現実的で開発者によるベンチマーク
- Authors: Pareesa Ameneh Golnari, Adarsh Kumarappan, Wen Wen, Xiaoyu Liu, Gabriel Ryan, Yuting Sun, Shengyu Fu, Elsie Nallipogu,
- Abstract要約: DevBenchは、現実的なコード補完タスクにおいて、LLM(Large Language Models)を評価するために設計されたテレメトリ駆動のベンチマークである。
これには、6つのプログラミング言語で1,800の評価インスタンスと、実際の開発者テレメトリから派生した6つのタスクカテゴリが含まれている。
- 参考スコア(独自算出の注目度): 13.17188927209697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: DevBench is a telemetry-driven benchmark designed to evaluate Large Language Models (LLMs) on realistic code completion tasks. It includes 1,800 evaluation instances across six programming languages and six task categories derived from real developer telemetry, such as API usage and code purpose understanding. Unlike prior benchmarks, it emphasizes ecological validity, avoids training data contamination, and enables detailed diagnostics. The evaluation combines functional correctness, similarity-based metrics, and LLM-judge assessments focused on usefulness and contextual relevance. 9 state-of-the-art models were assessed, revealing differences in syntactic precision, semantic reasoning, and practical utility. Our benchmark provides actionable insights to guide model selection and improvement-detail that is often missing from other benchmarks but is essential for both practical deployment and targeted model development.
- Abstract(参考訳): DevBenchは、現実的なコード補完タスクにおいて、LLM(Large Language Models)を評価するために設計されたテレメトリ駆動のベンチマークである。
これには、6つのプログラミング言語で1,800の評価インスタンスと、実際の開発者テレメトリから派生した6つのタスクカテゴリが含まれている。
以前のベンチマークとは異なり、生態学的妥当性を強調し、データ汚染のトレーニングを避け、詳細な診断を可能にする。
この評価は、機能的正当性、類似度に基づくメトリクス、有用性と文脈的関連性に焦点を当てたLCM-judgeアセスメントを組み合わせたものである。
9つの最先端モデルを評価し, 構文的精度, 意味的推論, 実用性の違いを明らかにした。
我々のベンチマークは、他のベンチマークに欠落することが多いモデル選択と改善詳細をガイドする実用的な洞察を提供するが、実用的デプロイメントとターゲットモデル開発の両方に不可欠である。
関連論文リスト
- Holistic Evaluation of State-of-the-Art LLMs for Code Generation [5.504955093712013]
DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。
構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
論文 参考訳(メタデータ) (2025-12-19T23:29:05Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Smart but Costly? Benchmarking LLMs on Functional Accuracy and Energy Efficiency [5.771786260272727]
我々は、エネルギー効率と機能的正当性の統一的なスケールでコード言語モデルのベンチマークを行うためのフレームワークBRACEを提案する。
同心性漸進的レーティングサークル(CIRC)と予測レーティング(OTER)の2つの評価手法を提案する。
我々の分析では、文法ベースで構文的に正しい出力を生成するように強制されないため、コード要約タスクにおいて、一般的にモデルの性能が向上することを明らかにした。
論文 参考訳(メタデータ) (2025-11-10T23:44:48Z) - The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。
BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文 参考訳(メタデータ) (2024-06-09T12:30:30Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Personalized Benchmarking with the Ludwig Benchmarking Toolkit [12.347185532330919]
Ludwig Benchmarking Toolkit (LBT)は、エンドツーエンドのベンチマーク研究を行うためのパーソナライズされたベンチマークツールキットである。
LBTは、トレーニングの制御と評価のカスタマイズのためのインターフェース、境界変数の排除のための標準化されたトレーニングフレームワーク、多目的評価のサポートを提供する。
7つのモデルと9つのデータセットにまたがるテキスト分類のための大規模比較分析を用いて、LBTを用いてパーソナライズされたベンチマーク研究を作成する方法を示す。
論文 参考訳(メタデータ) (2021-11-08T03:53:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。