Fugu-MT 論文翻訳(概要): CRQBench: A Benchmark of Code Reasoning Questions

論文の概要: CRQBench: A Benchmark of Code Reasoning Questions

arxiv url: http://arxiv.org/abs/2408.08453v1
Date: Thu, 15 Aug 2024 23:30:47 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-19 16:59:46.092054
Title: CRQBench: A Benchmark of Code Reasoning Questions
Title（参考訳）: CRQBench: コード推論に関する質問のベンチマーク
Authors: Elizabeth Dinella, Satish Chandra, Petros Maniatis,
Abstract要約: 質問と回答を推論する100のC++コードのベンチマークであるCRQBenchを紹介します。 CRQBenchをキュレートするために、人間の検査と同時にLLMアシスタントを使用し、手作業の労力を減らす。
参考スコア（独自算出の注目度）: 10.397212374940935
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models have demonstrated exceptional proficiency on coding tasks, but it is challenging to precisely evaluate their code reasoning ability. Existing benchmarks are insufficient as they are unrealistic and conflate semantic reasoning ability with performance on software engineering tasks. We introduce CRQBench, a benchmark of 100 C++ code reasoning questions and answers derived from contextualized code review comments. To curate CRQBench, we use an LLM assistant alongside human inspection, reducing manual effort. We conduct an evaluation of GPT-4 on CRQBench and find that it produces correct responses grounded in the given context for 65 of the 100 questions.
Abstract（参考訳）: 大規模言語モデルは、コーディングタスクに例外的な習熟度を示してきたが、コードの推論能力を正確に評価することは困難である。既存のベンチマークは、非現実的で、セマンティック推論能力とソフトウェアエンジニアリングタスクのパフォーマンスを説明できないため、不十分です。 CRQBenchは、コンテキスト化されたコードレビューコメントから得られた質問や回答を100のC++コードで推論するベンチマークである。 CRQBenchをキュレートするために、人間の検査と同時にLLMアシスタントを使用し、手作業の労力を減らす。 CRQBench 上で GPT-4 の評価を行い,100 問中65 問に対して所定の文脈で正しい応答が得られた。

関連論文リスト

Curiosity by Design: An LLM-based Coding Assistant Asking Clarification Questions [4.2689345057164205]
この作業は、人間のコードレビュープロセスを模倣するLLMベースのコーディングアシスタントを構築することを目的としている。エンドツーエンドシステムには,(1)不明瞭なプログラミング関連クエリを検出するために訓練されたクエリ,(2)明確化質問を生成する微調整LDMが含まれている。
論文参考訳（メタデータ） (2025-07-28T19:10:57Z)
CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文参考訳（メタデータ） (2025-02-23T15:36:43Z)
CLOVER: A Test Case Generation Benchmark with Coverage, Long-Context, and Verification [71.34070740261072]
本稿では,テストケースの生成と完成におけるモデルの能力を評価するためのベンチマークCLOVERを提案する。ベンチマークはタスク間でのコード実行のためにコンテナ化されています。
論文参考訳（メタデータ） (2025-02-12T21:42:56Z)
Proving the Coding Interview: A Benchmark for Formally Verified Code Generation [3.5319285228327417]
FVAPPS (Formally Verified Automated Programming Progress Standards, FVAPPS) は,プログラムの記述と正確性を証明するための4715サンプルのベンチマークである。我々は,機械学習とプログラム合成コミュニティに対して,汎用プログラミング問題とその関連した正当性仕様の解決に挑戦する。
論文参考訳（メタデータ） (2025-02-08T22:54:58Z)
Can Language Models Replace Programmers? REPOCOD Says 'Not Yet' [9.48622608877252]
大規模言語モデル(LLM)は、Pythonのコーディング問題を解く際に90%以上のpass@1を達成している。 REPOCODは、11の人気のある現実世界プロジェクトから収集された980の問題のコード生成ベンチマークである。 REPOCODの各タスクには、平均313.5人の開発者によるテストケースが含まれている。
論文参考訳（メタデータ） (2024-10-29T01:21:05Z)
Reproducibility of Issues Reported in Stack Overflow Questions: Challenges, Impact & Estimation [2.2160604288512324]
ソフトウェア開発者は、コードレベルの問題を解決するために、Stack Overflow (SO)のような技術的Q&Aサイトに質問を提出することが多い。実際には、プログラミングの問題を説明するための質問付きのサンプルコードスニペットが含まれている。残念なことに、このようなコードスニペットはいくつかの未解決の課題のために常に問題を再現できなかった。
論文参考訳（メタデータ） (2024-07-13T22:55:35Z)
NExT: Teaching Large Language Models to Reason about Code Execution [50.93581376646064]
大規模言語モデル(LLM)のコードは通常、プログラムの表面テキスト形式に基づいて訓練される。 NExTは,プログラムの実行トレースを検査し,実行時の動作を判断する手法である。
論文参考訳（メタデータ） (2024-04-23T01:46:32Z)
InfiBench: Evaluating the Question-Answering Capabilities of Code Large Language Models [56.723509505549536]
InfiBenchは、私たちの知識に合ったコードのための、最初の大規模フリーフォーム質問回答(QA)ベンチマークです。慎重に選択された234の高品質なStack Overflow質問で構成されており、15のプログラミング言語にまたがっている。 InfiBench上で100以上の最新のコードLLMに対して,系統的評価を行い,新しい知見と洞察に富んだ結果を得た。
論文参考訳（メタデータ） (2024-03-11T02:06:30Z)
Enhancing Code Intelligence Tasks with ChatGPT [17.712126698173535]
ChatGPTの生成したコメントは、人間の参照よりもコードに対するセマンティックな一貫性が優れていることを示している。広く使われているデータセットであるCodeSearchNetを、ChatGPTで生成されたコメントで再構築します。以上の結果から,ChatGPTによって事前訓練されたモデルは,コード要約,コード生成,コード翻訳タスクにおいて,そのモデルよりも優れていた。
論文参考訳（メタデータ） (2023-12-23T09:01:08Z)
Exploring the Potential of ChatGPT in Automated Code Refinement: An Empirical Study [0.0]
最先端の言語モデルであるChatGPTは、様々な自然言語処理タスクにおいて印象的なパフォーマンスを示している。コードレビュータスクにおけるChatGPTの機能を理解するための実証的研究を行った。その結果,ChatGPTは高いEMとBLEUのスコアを22.78と76.44で達成し,最先端のコードレビューデータセットでは15.50と62.88しか達成していないことがわかった。
論文参考訳（メタデータ） (2023-09-15T07:41:33Z)
Large Language Models (GPT) Struggle to Answer Multiple-Choice Questions about Code [0.0]
我々は,3つの生成事前学習型トランスフォーマー(GPT)モデルの有効性を,MCQ (Multiple-choice Question) の評価に答えるために分析した。これらの知見は、プログラミングコースにおける教育実践や評価に適応するために、教育者によって活用することができる。
論文参考訳（メタデータ） (2023-03-09T16:52:12Z)
CoSQA: 20,000+ Web Queries for Code Search and Question Answering [63.92224685262063]
CoSQAデータセットには、自然言語クエリとコードのペア用の20,604ラベルが含まれている。本稿では,クエリコードマッチングを強化するために,CoCLRと呼ばれる対照的な学習手法を提案する。我々は,CodeXGLUEを同じCodeBERTモデルで評価し,CoSQAのトレーニングにより,コード質問応答の精度が5.1%向上したことを示す。
論文参考訳（メタデータ） (2021-05-27T15:37:21Z)
Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。私たちのベンチマークには1万の問題が含まれています。 GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文参考訳（メタデータ） (2021-05-20T17:58:42Z)
Few-Shot Complex Knowledge Base Question Answering via Meta Reinforcement Learning [55.08037694027792]
複雑な質問答え(CQA)は、知識ベース(KB)上の複雑な自然言語質問に答える。従来のニューラルプログラム誘導(NPI)アプローチは、質問の種類が異なる場合、不均一なパフォーマンスを示す。本稿では,CQAにおけるプログラム誘導のためのメタ強化学習手法を提案する。
論文参考訳（メタデータ） (2020-10-29T18:34:55Z)
PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文参考訳（メタデータ） (2020-10-06T15:47:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。