Fugu-MT 論文翻訳(概要): CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

論文の概要: CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2502.16614v1
Date: Sun, 23 Feb 2025 15:36:43 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.26184
Title: CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models
Title（参考訳）: CodeCriticBench: 大規模言語モデルのためのホロスティックなコード批評ベンチマーク
Authors: Alexander Zhang, Marcus Dong, Jiaheng Liu, Wei Zhang, Yejie Wang, Jian Yang, Ge Zhang, Tianyu Liu, Zhongyuan Peng, Yingshui Tan, Yuanxing Zhang, Zhexu Wang, Weixun Wang, Yancheng He, Ken Deng, Wangchunshu Zhou, Wenhao Huang, Zhaoxiang Zhang,
Abstract要約: 本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
参考スコア（独自算出の注目度）: 97.18215355266143
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The critique capacity of Large Language Models (LLMs) is essential for reasoning abilities, which can provide necessary suggestions (e.g., detailed analysis and constructive feedback). Therefore, how to evaluate the critique capacity of LLMs has drawn great attention and several critique benchmarks have been proposed. However, existing critique benchmarks usually have the following limitations: (1). Focusing on diverse reasoning tasks in general domains and insufficient evaluation on code tasks (e.g., only covering code generation task), where the difficulty of queries is relatively easy (e.g., the code queries of CriticBench are from Humaneval and MBPP). (2). Lacking comprehensive evaluation from different dimensions. To address these limitations, we introduce a holistic code critique benchmark for LLMs called CodeCriticBench. Specifically, our CodeCriticBench includes two mainstream code tasks (i.e., code generation and code QA) with different difficulties. Besides, the evaluation protocols include basic critique evaluation and advanced critique evaluation for different characteristics, where fine-grained evaluation checklists are well-designed for advanced settings. Finally, we conduct extensive experimental results of existing LLMs, which show the effectiveness of CodeCriticBench.
Abstract（参考訳）: 大規模言語モデル(LLM)の批判能力は、推論能力に不可欠であり、必要な提案(例えば、詳細な分析と建設的なフィードバック)を提供することができる。そのため、LCMの批判能力の評価方法が注目され、いくつかの批判ベンチマークが提案されている。しかしながら、既存の批判ベンチマークは通常、以下の制限がある。一般的なドメインにおける多種多様な推論タスクに注目し、クエリの難易度が比較的容易であるコードタスク(例えばコード生成タスクのみをカバーする)に対する評価が不十分である(例えば、CriticBenchのコードクエリはHumanevalとMBPPから来ている)。 (2)。異なる次元からの包括的評価の欠如。これらの制限に対処するため、私たちはCodeCriticBenchと呼ばれるLCMの総括的コード批判ベンチマークを導入しました。具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。さらに、評価プロトコルには、基本的な批判評価と異なる特性に対する高度な批評評価が含まれており、高度な設定のためにきめ細かい評価チェックリストが適切に設計されている。最後に,CodeCriticBenchの有効性を示す既存LLMの広範な実験結果について報告する。

関連論文リスト

MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文参考訳（メタデータ） (2025-07-16T14:31:33Z)
CoCo-Bench: A Comprehensive Code Benchmark For Multi-task Large Language Model Evaluation [19.071855537400463]
大規模言語モデル(LLM)はソフトウェア工学において重要な役割を果たし、コード生成やメンテナンスといったタスクに優れています。 CoCo-Benchは、コード理解、コード生成、コード修正、コードレビューの4つの重要な側面にわたるLCMを評価するように設計されている。
論文参考訳（メタデータ） (2025-04-29T11:57:23Z)
RealCritic: Towards Effectiveness-Driven Evaluation of Language Model Critiques [59.861013614500024]
我々は,Large Language Models (LLMs) の批判能力を評価するために設計された新しいベンチマークを導入する。通常、オープンループ方式で機能する既存のベンチマークとは異なり、我々のアプローチでは、批判から生成された修正の質を評価するクローズドループ手法を採用している。
論文参考訳（メタデータ） (2025-01-24T13:48:10Z)
SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文参考訳（メタデータ） (2024-06-20T17:56:07Z)
The BiGGen Bench: A Principled Benchmark for Fine-grained Evaluation of Language Models with Language Models [94.31327813151208]
BiGGen Benchは、77のタスクにわたるLMの9つの異なる能力を徹底的に評価するために設計された、原則化された世代ベンチマークである。 BiGGen Benchの重要な特徴は、インスタンス固有の評価基準の使用であり、人間の評価のニュアンスな識別を忠実に反映している。
論文参考訳（メタデータ） (2024-06-09T12:30:30Z)
Reasoning Runtime Behavior of a Program with LLM: How Far Are We? [25.451857140926943]
コードのための大規模な言語モデル(LLM)は、強力なコード理解と生成能力を示している。コード推論は、コードLLMの最も重要な能力の1つである。本稿では,プログラム実行によるLLMのコード推論能力と一貫性を評価するためのフレームワークであるRevalを提案する。
論文参考訳（メタデータ） (2024-03-25T05:37:16Z)
CriticBench: Benchmarking LLMs for Critique-Correct Reasoning [26.45110574463893]
CriticBenchは、大規模言語モデルの推論を批判し修正する能力を評価するために設計されたベンチマークである。生成, 批判, 修正推論における17個のLLMの性能を評価し, 評価した。
論文参考訳（メタデータ） (2024-02-22T18:59:02Z)
CriticEval: Evaluating Large Language Model as Critic [110.29766259843453]
CriticEvalは、大規模言語モデルの批判能力を包括的かつ確実に評価するように設計された、新しいベンチマークである。包括性を確保するため、CriticalEvalは9つの異なるタスクシナリオの4次元から批判能力を評価する。信頼性を確保するため、多数の批判が注釈付けされ、参照として機能する。
論文参考訳（メタデータ） (2024-02-21T12:38:59Z)
CodeMind: Evaluating Large Language Models for Code Reasoning [6.819757372634151]
大規模言語モデル(LLM)は、プログラミングタスクの自動化に広く使われている。本稿では,LLMのコード推論能力を評価するためのフレームワークであるCodeMindを紹介する。
論文参考訳（メタデータ） (2024-02-15T02:24:46Z)
The Critique of Critique [45.40025444461465]
私たちは、特定の定量化基準を構築するMetaCritiqueと呼ばれる批判の批判の先駆者です。メタ評価データセットを構築し,人間による記述とLLMによる批評を含む4つのタスクを網羅する。実験では、MetaCritiqueが人間に近いパフォーマンスを達成できることが示されている。
論文参考訳（メタデータ） (2024-01-09T12:20:41Z)
Exploring the Reliability of Large Language Models as Customized Evaluators for Diverse NLP Tasks [65.69651759036535]
大規模言語モデル(LLM)が人間にとって信頼できる代替手段であるかどうかを解析する。本稿では、従来のタスク(例えば、ストーリー生成)とアライメントタスク(例えば、数学推論)の両方について検討する。 LLM評価器は不要な基準を生成したり、重要な基準を省略することができる。
論文参考訳（メタデータ） (2023-10-30T17:04:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。