Fugu-MT 論文翻訳(概要): SWE-Bench+: Enhanced Coding Benchmark for LLMs

論文の概要: SWE-Bench+: Enhanced Coding Benchmark for LLMs

arxiv url: http://arxiv.org/abs/2410.06992v2
Date: Thu, 10 Oct 2024 13:13:09 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-31 23:07:19.428766
Title: SWE-Bench+: Enhanced Coding Benchmark for LLMs
Title（参考訳）: SWE-Bench+: LLMの符号化ベンチマークの強化
Authors: Reem Aleithan, Haoran Xue, Mohammad Mahdi Mohajer, Elijah Nnorom, Gias Uddin, Song Wang,
Abstract要約: SWE-benchデータセットは、2,294の現実世界のGitHubイシューとそれに対応するプルリクエストで構成されている。 SWE-Agent+GPT-4の分解率は12.47%から3.97%に減少した。同様のデータ品質問題は、SWE-bench LiteとSWE-Bench Verifiedの2つの変種にも存在している。
参考スコア（独自算出の注目度）: 7.584728644156347
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) in Software Engineering (SE) can offer assistance for coding. To facilitate a rigorous evaluation of LLMs in practical coding contexts, Carlos et al. introduced the SWE-bench dataset, which comprises 2,294 real-world GitHub issues and their corresponding pull requests, collected from 12 widely used Python repositories. Several impressive LLM-based toolkits recently are developed and evaluated on this dataset. However, a systematic evaluation of the quality of SWE-bench remains missing. In this paper, we addressed this gap by presenting an empirical analysis of the SWE-bench dataset. We conducted a manual screening of instances where SWEAgent + GPT-4 successfully resolved issues by comparing the model-generated patches with the actual pull requests. SWE-Agent+GPT-4 was at the top of SWE-bench leaderboard during the time of our study. Our analysis reveals some critical issues with the SWE-bench dataset: 1) 32.67% of the successful patches involve cheating as the solutions were directly provided in the issue report or the comments. We refer to as solution leakage problem. 2) 31.08% of the passed patches are suspicious patches due to weak test cases, i.e., the tests were not adequate to verify the correctness of a patch. When we filtered out these problematic issues, the resolution rate of SWE-Agent+GPT-4 dropped from 12.47% to 3.97%. We also observed that the same data quality issues also exist in the two variants of SWE-bench, i.e., SWE-bench Lite and SWE-Bench Verified. In addition, over 94% of the issues were created before LLM's knowledge cutoff dates, posing potential data leakage issues.
Abstract（参考訳）: ソフトウェア工学(SE)のLLM(Large Language Models)は、コーディングの補助を提供する。実用的なコーディングコンテキストにおけるLSMの厳密な評価を容易にするため、Carlosらは、SWE-benchデータセットを導入した。 LLMベースのツールキットが最近開発され、このデータセットで評価されている。しかし,SWEベンチの品質の体系的評価はいまだに欠落している。本稿では,SWE-benchデータセットの実証分析を行い,このギャップに対処する。 SWEAgent + GPT-4がモデル生成パッチと実際のプルリクエストを比較することで,問題の解決に成功したインスタンスを手動でスクリーニングした。研究期間中,SWE-Agent+GPT-4はSWE-benchのリーダーボードの一番上にあった。我々の分析は、SWE-benchデータセットにおけるいくつかの重要な問題を明らかにしている。 1) パッチの成功率の32.67%は、イシューレポートやコメントにソリューションが直接提供されているため、不正行為を伴っている。解決策リーク問題と呼ぶ。 2) 通過したパッチの31.08%は, 弱いテストケースによる不審なパッチであり, パッチの正当性を検証するには不十分であった。これらの問題をフィルタリングすると、SWE-Agent+GPT-4の分解率は12.47%から3.97%に低下した。また,SWE-bench LiteとSWE-Bench Verifiedの2つの変種にデータ品質の問題が存在することも確認した。加えて、LLMの知識の遮断日以前に94%以上の問題が作成され、潜在的なデータ漏洩の問題を引き起こした。

関連論文リスト

The SWE-Bench Illusion: When State-of-the-Art LLMs Remember Instead of Reason [1.6249398255272318]
本稿では,SWE-Bench-Verifiedの性能向上は,真の問題解決よりも記憶によってもたらされる可能性があることを示す。現状のモデルでは,リポジトリ構造にアクセスすることなく,問題記述のみを用いて,バグのあるファイルパスを識別する精度を最大76%向上することを示す。これらの結果は、既存の結果の有効性に関する懸念を提起し、より堅牢で汚染に強いベンチマークの必要性を浮き彫りにした。
論文参考訳（メタデータ） (2025-06-14T00:25:26Z)
UTBoost: Rigorous Evaluation of Coding Agents on SWE-Bench [8.00058513405915]
LLM駆動のテストケースジェネレータであるUTGeneratorを導入し、実世界のPythonプロジェクトのテストケースを生成する。 UTGenerator上に構築されたUTBoostは、テストケース拡張のための包括的なフレームワークである。評価では,テストケースが不十分な36のタスクインスタンスを同定し,元のSWE Benchに渡された345の誤ったパッチを誤ってラベル付けした。
論文参考訳（メタデータ） (2025-06-10T22:56:49Z)
SWE-Dev: Building Software Engineering Agents with Training and Inference Scaling [39.53265893083118]
大規模言語モデル(LLM)は、会話による問題解決から、ツール使用に関わる現実的なタスクへの対処まで、急速に進歩している。この問題に対処するために、オープンソースのLLM上に構築されたSWEエージェントであるSWE-Devを提案する。 SWE-bench-Verifiedベンチマークの実験は、SWE-Devモデルが全てのオープンなSWEエージェントの中で最高のパフォーマンスを達成できることを示している。
論文参考訳（メタデータ） (2025-06-09T11:03:16Z)
Are "Solved Issues" in SWE-bench Really Solved Correctly? An Empirical Study [20.46588369793562]
自動問題解決のための最も一般的なベンチマークは、SWE-benchと、その人間のフィルタリングサブセットであるSWE-bench Verifiedである。本稿では,SWE-bench Verifiedで評価された3つの最先端課題解決ツールによって生成された可塑性パッチの正確性について,詳細な実験的検討を行った。
論文参考訳（メタデータ） (2025-03-19T14:02:21Z)
LessLeak-Bench: A First Investigation of Data Leakage in LLMs Across 83 Software Engineering Benchmarks [15.584759853972992]
大規模言語モデル(LLM)は、コード生成やプログラムの自動修復といったソフトウェア工学(SE)タスクで広く利用されている。広範囲かつしばしば開示されていない事前トレーニングデータセットへの依存は、データ漏洩に関する重大な懸念を提起する。本稿では,LLM に関する 83 SE ベンチマークにおいて,データ漏洩の大規模解析を行った。
論文参考訳（メタデータ） (2025-02-10T07:33:49Z)
SWE-Fixer: Training Open-Source LLMs for Effective and Efficient GitHub Issue Resolution [56.9361004704428]
大規模言語モデル(LLM)は、様々な複雑なタスクにまたがる顕著な習熟度を示している。 SWE-Fixerは、GitHubの問題を効果的かつ効率的に解決するために設計された、新しいオープンソースフレームワークである。我々は,SWE-Bench LiteとVerifiedベンチマークに対するアプローチを評価し,オープンソースモデル間の最先端性能を実現する。
論文参考訳（メタデータ） (2025-01-09T07:54:24Z)
Training Software Engineering Agents and Verifiers with SWE-Gym [89.55822534364727]
SWE-Gymは、現実世界のソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための最初の環境である。 SWE-Gymには2,438の現実世界のPythonタスクインスタンスが含まれている。
論文参考訳（メタデータ） (2024-12-30T18:15:39Z)
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。 GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文参考訳（メタデータ） (2024-12-19T18:58:04Z)
A Real-World Benchmark for Evaluating Fine-Grained Issue Solving Capabilities of Large Language Models [11.087034068992653]
FAUN-Eval は LLM の Fine-grAined issUe solviNg 機能を評価するために特別に設計されたベンチマークである。 30の有名なGitHubリポジトリからキュレートされたデータセットを使って構築されている。 FAUN-Evalでは,4つのクローズドソースモデルと6つのオープンソースモデルを含む10個のLLMを評価した。
論文参考訳（メタデータ） (2024-11-27T03:25:44Z)
Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文参考訳（メタデータ） (2024-09-03T11:09:44Z)
Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文参考訳（メタデータ） (2024-08-09T20:55:46Z)
LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文参考訳（メタデータ） (2024-06-27T16:47:42Z)
DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation [39.857198257988685]
大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。彼らは幻覚を起こしやすく、確立した事実に矛盾する主張を生じさせ、同じプロンプトが複数回提示されたときに矛盾する反応を生じさせる。本稿では,8つの領域にまたがる75,000以上のプロンプトからなる総合ベンチマークデータセットを提案する。
論文参考訳（メタデータ） (2024-06-13T14:18:13Z)
Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
Increasing the LLM Accuracy for Question Answering: Ontologies to the Rescue! [1.0786522863027366]
本稿では,1)オントロジーに基づくクエリチェック (OBQC) と2) LLM修復からなるアプローチを提案する。当社のアプローチでは、"知らない"結果の8%を含む、全体的な精度を72%に向上しています。
論文参考訳（メタデータ） (2024-05-20T00:28:00Z)
LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。 LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。 GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文参考訳（メタデータ） (2024-03-22T08:57:07Z)
SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines [15.389579061898429]
本研究では,データ品質アサーションを自動的に合成するSPADEを提案する。 9つの現実世界のLLMパイプラインをテストする場合、SPADEはアサーションの数を14%削減する。
論文参考訳（メタデータ） (2024-01-05T19:27:58Z)
Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文参考訳（メタデータ） (2023-11-16T11:03:04Z)
Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文参考訳（メタデータ） (2023-11-10T08:01:23Z)
Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文参考訳（メタデータ） (2023-10-20T06:49:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。