論文の概要: HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems
- arxiv url: http://arxiv.org/abs/2502.00226v1
- Date: Fri, 31 Jan 2025 23:47:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:21:53.535844
- Title: HackerRank-ASTRA: Evaluating Correctness & Consistency of Large Language Models on cross-domain multi-file project problems
- Title(参考訳): HackerRank-ASTRA: クロスドメイン多ファイルプロジェクト問題における大規模言語モデルの正確性と一貫性の評価
- Authors: Jun Xing, Mayur Bhatia, Sahil Phulwani, Darshan Suresh, Rafik Matta,
- Abstract要約: HackerRank-ASTRA Benchmarkでは、実際のシナリオを反映したプロジェクトベースのコーディング問題が導入されている。
モデル一貫性を32ラン(k = 32)と中央標準偏差で評価する。
上位3モデル(o1、o1-preview、Claude-3.5-Sonnet-1022)は75%のスコアを記録した。
- 参考スコア(独自算出の注目度): 2.4241401076864
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Evaluating the real-world applicability of large language models (LLMs) provides valuable insights for their development and use in software development tasks. Existing benchmarks often focus on standalone coding problems or specific libraries, overlooking multi-file, project-based scenarios and lacking a rigorous evaluation of consistency. The HackerRank-ASTRA Benchmark introduces project-based coding problems that mirror real-world scenarios. It evaluates model consistency through 32 runs (k = 32) and median standard deviation while incorporating taxonomy-level analysis to assess sub-skill capabilities. Initial evaluations on 65 problems show that the top three models -- o1, o1-preview, and Claude-3.5-Sonnet-1022 -- achieved comparable average scores of 75%, with no statistically significant differences in performance. Notably, Claude-3.5-Sonnet-1022 demonstrated the highest consistency across problems, with low variability (SD = 0.0497), which was statistically significant compared to other models, highlighting its reliability for real-world software development tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)の現実的な適用性を評価することは、ソフトウェア開発タスクにおける彼らの開発と利用に対する貴重な洞察を提供する。
既存のベンチマークでは、スタンドアローンのコーディング問題や特定のライブラリ、複数ファイル、プロジェクトベースのシナリオ、厳密な一貫性評価の欠如などに焦点を当てていることが多い。
HackerRank-ASTRA Benchmarkでは、実際のシナリオを反映したプロジェクトベースのコーディング問題が導入されている。
モデル一貫性を32ラン(k = 32)と中央標準偏差で評価し、分類学レベルの分析を取り入れてサブスキル能力を評価する。
65の問題を最初に評価したところ、上位3つのモデル(o1、o1-preview、Claude-3.5-Sonnet-1022)が75%に匹敵する平均スコアを得た。
特に、Claude-3.5-Sonnet-1022は、他のモデルと比べて統計的に有意な低変数 (SD = 0.0497) の問題を最も高い一貫性を示し、実際のソフトウェア開発タスクに対する信頼性を強調した。
関連論文リスト
- RankLLM: Weighted Ranking of LLMs by Quantifying Question Difficulty [102.02839046225468]
RankLLMは質問の難しさとモデルの能力の両方を定量化する新しいフレームワークである。
複数のドメインにまたがる35,550の質問に対して30のモデルを評価する。
論文 参考訳(メタデータ) (2026-02-12T21:28:46Z) - Beyond Single Bugs: Benchmarking Large Language Models for Multi-Vulnerability Detection [1.2802720336459552]
我々は,C,C++,Python,JavaScriptの4つの主要言語を対象としたマルチ脆弱性検出のベンチマークを紹介する。
長文コードサンプルに制御された脆弱性数を注入することにより,4万ファイルのデータセットを構築した。
その結果, 脆弱性密度の増加に伴い, 性能が著しく低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-26T05:43:35Z) - Holistic Evaluation of State-of-the-Art LLMs for Code Generation [5.504955093712013]
DeepSeek-R1 と GPT-4.1 は、正確性、効率、堅牢性という点で他より一貫して優れている。
構文エラーや論理的欠陥,最適化アルゴリズムといった,一般的な障害シナリオを特定します。
論文 参考訳(メタデータ) (2025-12-19T23:29:05Z) - SWE-Compass: Towards Unified Evaluation of Agentic Coding Abilities for Large Language Models [59.90381306452982]
ソフトウェアエンジニアリングのための大規模言語モデル(LLM)の評価は、タスクカバレッジの狭さ、言語バイアス、現実世界の開発者との整合性の不足によって制限されている。
SWE-1は、不均一なコード関連評価を構造化および生産整合性のあるフレームワークに統合する包括的なベンチマークである。
SWE-は8つのタスクタイプ、8つのプログラミングシナリオ、10のプログラミング言語にまたがる。
論文 参考訳(メタデータ) (2025-11-07T18:01:32Z) - VisCoder2: Building Multi-Language Visualization Coding Agents [63.63232038173407]
可視化符号化エージェントを進化させるための3つの相補的なリソースを紹介する。
VisCoder2は、強力なオープンソースベースラインを著しく上回り、プロプライエタリなモデルのパフォーマンスにアプローチする。
論文 参考訳(メタデータ) (2025-10-24T18:03:57Z) - Benchmarking Correctness and Security in Multi-Turn Code Generation [41.75392001830794]
MTSecは,マルチターン符号化シナリオにおける正当性とセキュリティを評価する最初のベンチマークである。
MT-Secでは32のオープンソースモデルとクローズドソースモデルと3つのエージェントスキャフォールディングを評価した。
エージェント生成スキャフォールディングは単一ターンコード生成性能を高めるが,マルチターン評価にはあまり有効ではないことがわかった。
論文 参考訳(メタデータ) (2025-10-13T01:20:46Z) - StatEval: A Comprehensive Benchmark for Large Language Models in Statistics [18.64342811887586]
StatEvalは統計学に特化した最初の総合ベンチマークであり、難易度をまたいだ幅と深さの両方にまたがる。
学部と大学院のカリキュラムに関する13,817の基本的な問題と、主要な雑誌から抽出された2374の研究レベルの証明タスクで構成されている。
本稿では,算術的タスクと証明的タスクの両方に適したロバストな評価フレームワークを提案し,推論能力のきめ細かい評価を可能にする。
論文 参考訳(メタデータ) (2025-10-10T16:28:43Z) - Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Large Language Models Versus Static Code Analysis Tools: A Systematic Benchmark for Vulnerability Detection [0.0]
業界標準の3つの静的コード分析ツール(Sonar、CodeQL、Snyk Code)と、GitHub Modelsプラットフォーム(GPT-4.1、Mistral Large、DeepSeek V3)にホストされた最先端の3つの大規模言語モデルを評価した。
63の脆弱性を埋め込んだ10の現実世界のC#プロジェクトのキュレートされたスイートを使用して、古典的な精度(精度、リコール、Fスコア)、分析のレイテンシ、粒度、真の肯定性を検証するために必要な開発者の労力を測定します。
開発初期段階の言語モデルを採用して、広義のコンテキスト認識検出と検出を行う、ハイブリッドパイプラインを推奨します。
論文 参考訳(メタデータ) (2025-08-06T13:48:38Z) - Reliable Decision Support with LLMs: A Framework for Evaluating Consistency in Binary Text Classification Applications [0.7124971549479361]
本研究では,大言語モデル(LLM)のバイナリテキスト分類における一貫性を評価するフレームワークを提案する。
我々は,サンプルサイズ要件を定め,不適切な応答の指標を開発し,レータ内およびレータ間信頼性を評価する。
論文 参考訳(メタデータ) (2025-05-20T21:12:58Z) - Model Utility Law: Evaluating LLMs beyond Performance through Mechanism Interpretable Metric [99.56567010306807]
大規模言語モデル(LLM)は、学術、産業、そして日々のアプリケーションに欠かせないものになっている。
大規模言語モデル (LLM) 時代における評価の課題の1つは一般化問題である。
従来の性能スコアを補完するメカニズムの解釈可能性向上指標であるモデル利用指数(MUI)を提案する。
論文 参考訳(メタデータ) (2025-04-10T04:09:47Z) - SCORE: Systematic COnsistency and Robustness Evaluation for Large Language Models [4.875712300661656]
本稿では,大規模言語モデルの非敵対的評価のための総合的なフレームワークであるSCORE ($mathbfS$ystematic $mathbfCO$nsistency and $mathbfR$obustness $mathbfE$valuationを提案する。
SCOREフレームワークは、様々な設定で同じベンチマークで繰り返しテストすることでモデルを評価し、精度と一貫性を現実的に見積もる。
論文 参考訳(メタデータ) (2025-02-28T19:27:29Z) - From Correctness to Comprehension: AI Agents for Personalized Error Diagnosis in Education [24.970741456147447]
大規模言語モデル(LLM)は、GSM8Kのようなベンチマークでほぼ完璧なパフォーマンスを達成し、驚くべき数学的推論能力を示している。
しかし、誤り診断やフィードバック生成よりも正確さが過大評価されているため、パーソナライズされた教育への応用は依然として限られている。
textbfMathCCSは,システム的エラー解析と修正されたフィードバックのためのベンチマークである。
第2に、過去のデータを利用してトレンドを追跡し、診断精度を向上させるシーケンシャルなエラー解析フレームワークを開発する。
第3に、歴史的分析のための時系列エージェントと実時間のためのMLLMエージェントを組み合わせたマルチエージェント協調フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-19T14:57:51Z) - EquiBench: Benchmarking Code Reasoning Capabilities of Large Language Models via Equivalence Checking [54.354203142828084]
本稿では,大規模言語モデルのコード推論能力を評価する新しい手法として等価チェックの課題を提案する。
EquiBenchは、4つのプログラミング言語と6つの等価カテゴリにまたがる2400のプログラムペアのデータセットである。
その結果,OpenAI o3-miniの精度は78.0%と高いことがわかった。
論文 参考訳(メタデータ) (2025-02-18T02:54:25Z) - IHEval: Evaluating Language Models on Following the Instruction Hierarchy [67.33509094445104]
命令階層は、システムメッセージからユーザメッセージ、会話履歴、ツール出力への優先順位を定めている。
その重要性にもかかわらず、このトピックは限定的な注目を集めており、命令階層に従うモデルの能力を評価するための包括的なベンチマークが欠如している。
IHEvalは、異なる優先順位の命令が一致または矛盾するケースをカバーする、新しいベンチマークです。
論文 参考訳(メタデータ) (2025-02-12T19:35:28Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Uncovering Weaknesses in Neural Code Generation [21.552898575210534]
マッチングベースのメトリクスと実行ベースのメトリクスを用いて生成されたコードの品質を評価し、その後、セマンティック分析を行い、9種類の弱点の分類法を開発する。
CoNaLaデータセットでは、不正確なプロンプトが顕著な問題であり、すべての大きなモデルが26.84%のケースで失敗する。
CoNaLaタスクの65.78%でキーセマンティクスを省略する1つ以上の大きなモデルがある。
すべてのモデルは、あいまいなプロンプトや複雑なプロンプトによって増幅された、適切なAPI使用に苦しむ。
論文 参考訳(メタデータ) (2024-07-13T07:31:43Z) - The Fault in our Stars: Quality Assessment of Code Generation Benchmarks [0.5137309756089941]
我々は、異なるコード生成モデルの性能を比較するために使用されるベンチマークの中で、プロンプトの品質について、第一種研究を行う。
9つのコード生成ベンチマークから3,566のプロンプトを分析し、その中の品質問題を特定した。
論文 参考訳(メタデータ) (2024-04-15T22:02:58Z) - Advancing LLM Reasoning Generalists with Preference Trees [119.57169648859707]
推論に最適化された大規模言語モデル(LLM)のスイートであるEulusを紹介する。
Eurusモデルは、様々なベンチマークでオープンソースのモデルの間で最先端の結果を得る。
論文 参考訳(メタデータ) (2024-04-02T16:25:30Z) - Language Models for Code Completion: A Practical Evaluation [13.174471984950857]
本研究は,実世界のコードを完成させる際の3つの公開言語モデルの定量的および定性的な評価を提供する。
1200以上のユーザから1年以上にわたって,実際の自動補完使用データを収集しました。
66.3%の障害はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデル使用によるものであり、9.3%は開発者が過剰に記述した有効な要求であることがわかった。
論文 参考訳(メタデータ) (2024-02-25T20:43:55Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - Holistic Evaluation of Language Models [183.94891340168175]
言語モデル(LM)は、ほとんどすべての主要言語技術の基盤となっているが、その能力、制限、リスクはよく理解されていない。
本稿では,言語モデルの透明性を向上させるために,言語モデルの完全性評価(HELM)を提案する。
論文 参考訳(メタデータ) (2022-11-16T18:51:34Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。