論文の概要: RubberDuckBench: A Benchmark for AI Coding Assistants
- arxiv url: http://arxiv.org/abs/2601.16456v1
- Date: Fri, 23 Jan 2026 05:28:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.551385
- Title: RubberDuckBench: A Benchmark for AI Coding Assistants
- Title(参考訳): RubberDuckBench: AIコーディングアシスタントのベンチマーク
- Authors: Ferida Mohammad, Fatma Ayad, Petros Maniatis, Satish Chandra, Elizabeth Dinella,
- Abstract要約: RubberDuckBench: コードに関する質問のベンチマークと、回答を評価するための詳細なルーリックを紹介します。
これらの疑問に答える上で,我々は20のLLM(プロパティおよびオープンソース)を多種多様なセットで評価する。
Grok 4 (69.29%)、Claude Opus 4 (68.5%)、GPT-5 (67.8%) は総合的に最高の成績を上げているが、次の9つの最高のパフォーマンスモデルよりも2倍の優位性を示すことはない。
- 参考スコア(独自算出の注目度): 5.198865387380684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Programmers are turning to AI coding assistants to answer questions about their code. Benchmarks are needed to soundly evaluate these systems and understand their performance. To enable such a study, we curate a benchmark of real-world contextualized questions derived from Github pull request comments. Out of this work, we present RubberDuckBench: a multilingual benchmark of questions about code, along with detailed rubrics for evaluating answers. We evaluate a diverse set of 20 LLMs (proprietary & open-source) on answering these questions. We find that even state of the art models fail to give consistent, correct responses across the benchmark. Grok 4 (69.29%), Claude Opus 4 (68.5%), and GPT-5 (67.8%) perform best overall, but do not exhibit pairwise significant superiority over the next 9 best performing models. Most models obtain points through partial credit, with the best performing models only answering at most 2 questions completely correctly across all trials. Furthermore, models often hallucinate with lies in 58.3\% of responses on average. Cost analysis reveals no correlation between expense (API pricing or parameter count) and performance. We intend this benchmark to be a target for future research in trustworthy and correct AI coding assistants.
- Abstract(参考訳): プログラマは、コードに関する質問に答えるために、AIコーディングアシスタントに目を向けている。
ベンチマークは、これらのシステムを健全に評価し、その性能を理解するために必要である。
このような研究を可能にするため、Githubのプルリクエストコメントから得られた実世界の文脈化された質問のベンチマークをキュレートする。
この作業の中で、コードに関する質問の多言語ベンチマークであるRubberDuckBenchと、回答を評価するための詳細なルーリックを紹介します。
これらの疑問に答える上で,我々は20のLLM(プロパティおよびオープンソース)を多種多様なセットで評価する。
最先端モデルでさえ、ベンチマーク全体で一貫した正しいレスポンスを与えていないことが分かりました。
Grok 4 (69.29%)、Claude Opus 4 (68.5%)、GPT-5 (67.8%) は総合的に最高の成績を上げているが、次の9つの最高のパフォーマンスモデルよりも2倍の優位性を示すことはない。
ほとんどのモデルは、部分クレジットでポイントを取得し、最高のパフォーマンスモデルは、すべてのトライアルにおいて、少なくとも2つの質問に完全に答えるだけである。
さらに、モデルは平均して58.3 %の反応で幻覚することが多い。
コスト分析では、コスト(API価格やパラメータ数)とパフォーマンスの相関は示されていない。
私たちはこのベンチマークを、信頼できる正しいAIコーディングアシスタントに関する将来の研究のターゲットにしたいと考えています。
関連論文リスト
- Fantastic Bugs and Where to Find Them in AI Benchmarks [28.604919035475188]
本稿では, 応答パターンの統計的解析を利用して, 潜在的に無効な質問にフラグを付ける手法を提案する。
我々のアプローチは、平均スコアがモデル性能を十分に要約する、AI評価で一般的に使用されるコア仮定に基づいています。
提案手法は,9つの広く使用されているベンチマークにおいて,最大84%の精度で問題のある問題を特定するために専門家のレビューをガイドする。
論文 参考訳(メタデータ) (2025-11-20T22:49:21Z) - A$^2$Search: Ambiguity-Aware Question Answering with Reinforcement Learning [46.81869577197105]
A$2$Searchはアノテーションのないエンドツーエンドのトレーニングフレームワークで、曖昧さを認識し、扱います。
8つのオープンドメインQAベンチマークの実験では、A$2$Searchが新しい最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-10-09T08:53:31Z) - UQ: Assessing Language Models on Unsolved Questions [149.46593270027697]
当社では,Stack Exchangeから提供された500の難解で多様な質問を対象としたテストベッドであるUQを紹介します。
未解決の質問は、人間が答えを求めるときにしばしば難しく自然に発生する。
上位モデルは15%の質問でUQ検証をパスし、予備的な人間の検証はすでに正しい答えを同定している。
論文 参考訳(メタデータ) (2025-08-25T01:07:59Z) - EquiBench: Benchmarking Large Language Models' Reasoning about Program Semantics via Equivalence Checking [58.15568681219339]
大規模言語モデル(LLM)を評価するための新しいベンチマークであるEquiBenchを紹介する。
このタスクは、プログラムのセマンティクスについて推論するモデルの能力を直接テストする。
19の最先端LCMを評価し、最も難しいカテゴリでは、最高の精度は63.8%と76.2%であり、50%のランダムベースラインよりわずかに高い。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - CRQBench: A Benchmark of Code Reasoning Questions [10.397212374940935]
質問と回答を推論する100のC++コードのベンチマークであるCRQBenchを紹介します。
CRQBenchをキュレートするために、人間の検査と同時にLLMアシスタントを使用し、手作業の労力を減らす。
論文 参考訳(メタデータ) (2024-08-15T23:30:47Z) - Perception Test: A Diagnostic Benchmark for Multimodal Video Models [78.64546291816117]
本稿では,事前学習したマルチモーダルモデルの知覚と推論能力を評価するために,新しいマルチモーダルビデオベンチマークを提案する。
知覚テストは、スキル(記憶、抽象化、物理学、セマンティックス)と、ビデオ、オーディオ、テキストモダリティ間の推論(記述的、説明的、予測的、反ファクト的)のタイプに焦点を当てている。
このベンチマークは、ゼロショット/少数ショットまたは限定的な微調整方式で、転送機能の事前訓練されたモデルを探索する。
論文 参考訳(メタデータ) (2023-05-23T07:54:37Z) - Progressive-Hint Prompting Improves Reasoning in Large Language Models [63.98629132836499]
本稿では,プログレッシブ・ヒント・プロンプト(PHP)と呼ばれる新しいプロンプト手法を提案する。
事前に生成された回答をヒントとして使用することで、ユーザとLLM(Large Language Models)間の自動多元的対話を可能にする。
我々は7つのベンチマークで広範囲かつ包括的な実験を行った。その結果、PHPは高い効率を保ちながら精度を大幅に向上することが示された。
論文 参考訳(メタデータ) (2023-04-19T16:29:48Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - PRover: Proof Generation for Interpretable Reasoning over Rules [81.40404921232192]
本稿では,ルールベース上の二項質問に応答し,対応する証明を生成するトランスフォーマーモデルを提案する。
本モデルは,効率的な制約付き学習パラダイムを用いて,証明グラフに対応するノードやエッジを予測できることを学習する。
我々は、QAと証明生成のための有望な結果を示すために、合成、手書き、人文による規則ベースの実験を行う。
論文 参考訳(メタデータ) (2020-10-06T15:47:53Z) - AIBench Training: Balanced Industry-Standard AI Training Benchmarking [26.820244556465333]
新しいAIアーキテクチャ/システムのアーリーステージ評価には、安価なベンチマークが必要だ。
私たちは現実世界のベンチマークを使って、学習力学に影響を与える要因をカバーしています。
私たちは、最も包括的なAIトレーニングベンチマークスイートにコントリビュートしています。
論文 参考訳(メタデータ) (2020-04-30T11:08:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。