論文の概要: Beyond Output Correctness: Benchmarking and Evaluating Large Language Model Reasoning in Coding Tasks
- arxiv url: http://arxiv.org/abs/2604.12379v1
- Date: Tue, 14 Apr 2026 07:12:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.308969
- Title: Beyond Output Correctness: Benchmarking and Evaluating Large Language Model Reasoning in Coding Tasks
- Title(参考訳): 出力の正確性を超えて:コーディングタスクにおける大規模言語モデル推論のベンチマークと評価
- Authors: Yuangang Li, Justin Tian Jin Chen, Ethan Yu, David Hong, Iftekhar Ahmed,
- Abstract要約: 我々は3つのコーディングタスクカテゴリ(生成、要約、分類)における推論品質を評価する最初のベンチマークであるCodeRQ-Benchを紹介する。
本研究では,エビデンスに基づく検証とあいまいさを考慮したスコア補正を組み合わせた2段階評価器VERAを提案する。
CodeRQ-Benchの実験によると、VERAは4つのデータセットで強いベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 4.641791001110209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) increasingly rely on explicit reasoning to solve coding tasks, yet evaluating the quality of this reasoning remains challenging. Existing reasoning evaluators are not designed for coding, and current benchmarks focus primarily on code generation, leaving other coding tasks largely unexplored. We introduce CodeRQ-Bench, the first benchmark for evaluating LLM reasoning quality across three coding task categories: generation, summarization, and classification. Using this benchmark, we analyze 1,069 mismatch cases from existing evaluators, identify five recurring limitations, and derive four design insights for reasoning evaluation in coding tasks. Guided by these insights, we propose VERA, a two-stage evaluator that combines evidence-grounded verification with ambiguity-aware score correction. Experiments on CodeRQ-Bench show that VERA consistently outperforms strong baselines across four datasets, improving AUCROC by up to 0.26 and AUPRC by up to 0.21. We release CodeRQ-Bench at https://github.com/MrLYG/CodeRQ-Bench, supporting future investigations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コーディングタスクを解決するために明示的な推論にますます依存しているが、この推論の品質を評価することは依然として難しい。
既存の推論評価器はコーディングのために設計されておらず、現在のベンチマークはコード生成に重点を置いており、他のコーディングタスクはほとんど探索されていない。
我々は、3つのコーディングタスクカテゴリ(生成、要約、分類)にわたるLCM推論品質を評価するための最初のベンチマークであるCodeRQ-Benchを紹介する。
このベンチマークを用いて、既存の評価者から1069件のミスマッチケースを分析し、繰り返し発生する5つの制約を特定し、コーディングタスクにおける推論評価のための4つの設計思想を導出する。
これらの知見に導かれて、エビデンスに基づく検証とあいまいさを考慮したスコア補正を組み合わせた2段階評価器VERAを提案する。
CodeRQ-Benchの実験によると、VERAは4つのデータセットで強いベースラインを一貫して上回り、AUCROCを最大0.26、AUPRCを最大0.21改善している。
CodeRQ-Benchはhttps://github.com/MrLYG/CodeRQ-Benchでリリースしています。
関連論文リスト
- Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Teaching LLM to Reason: Reinforcement Learning from Algorithmic Problems without Code [76.80306464249217]
本稿では,LLMにより良い理性を教えることを目的としたTeaRを提案する。
TeaRは、注意深いデータキュレーションと強化学習を活用して、コード関連のタスクを通じて最適な推論パスを発見するモデルをガイドする。
我々は、2つのベースモデルと3つの長いCoT蒸留モデルを用いて広範な実験を行い、モデルのサイズは15億から32億のパラメータから、Math、Knowledge、Code、Logical Reasoningにまたがる17のベンチマークにまたがる。
論文 参考訳(メタデータ) (2025-07-10T07:34:05Z) - CodeCriticBench: A Holistic Code Critique Benchmark for Large Language Models [97.18215355266143]
本稿では,Large Language Models (LLMs) のコード批判ベンチマークであるCodeCriticBenchを紹介する。
具体的には、CodeCriticBenchには2つの主要なコードタスク(コード生成とコードQA)が含まれています。
さらに、評価プロトコルには、基本的な批評評価と、異なる特性に対する高度な批評評価が含まれる。
論文 参考訳(メタデータ) (2025-02-23T15:36:43Z) - Prompting and Fine-tuning Large Language Models for Automated Code Review Comment Generation [5.6001617185032595]
プログラムデータと自然言語データの両方で事前訓練された大きな言語モデルは、コード指向のタスクでうまく機能する傾向にある。
我々は,パラメータ効率,量子化低ランクのオープンソースLarge Language Model (LLM) をコンシューマグレードハードウェア上で微調整し,レビューコメント生成を改善する。
論文 参考訳(メタデータ) (2024-11-15T12:01:38Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - The Fault in our Stars: Quality Assessment of Code Generation Benchmarks [0.5137309756089941]
我々は、異なるコード生成モデルの性能を比較するために使用されるベンチマークの中で、プロンプトの品質について、第一種研究を行う。
9つのコード生成ベンチマークから3,566のプロンプトを分析し、その中の品質問題を特定した。
論文 参考訳(メタデータ) (2024-04-15T22:02:58Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。