論文の概要: SWE-Bench+: Enhanced Coding Benchmark for LLMs
- arxiv url: http://arxiv.org/abs/2410.06992v1
- Date: Thu, 10 Oct 2024 13:13:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 23:07:19.431353
- Title: SWE-Bench+: Enhanced Coding Benchmark for LLMs
- Title(参考訳): SWE-Bench+: LLMの符号化ベンチマークの強化
- Authors: Reem Aleithan, Haoran Xue, Mohammad Mahdi Mohajer, Elijah Nnorom, Gias Uddin, Song Wang,
- Abstract要約: SWE-benchデータセットは、2,294の現実世界のGitHubイシューとそれに対応するプルリクエストで構成されている。
SWE-Agent+GPT-4の分解率は12.47%から3.97%に減少した。
同様のデータ品質問題は、SWE-bench LiteとSWE-Bench Verifiedの2つの変種にも存在している。
- 参考スコア(独自算出の注目度): 7.584728644156347
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) in Software Engineering (SE) can offer assistance for coding. To facilitate a rigorous evaluation of LLMs in practical coding contexts, Carlos et al. introduced the SWE-bench dataset, which comprises 2,294 real-world GitHub issues and their corresponding pull requests, collected from 12 widely used Python repositories. Several impressive LLM-based toolkits recently are developed and evaluated on this dataset. However, a systematic evaluation of the quality of SWE-bench remains missing. In this paper, we addressed this gap by presenting an empirical analysis of the SWE-bench dataset. We conducted a manual screening of instances where SWEAgent + GPT-4 successfully resolved issues by comparing the model-generated patches with the actual pull requests. SWE-Agent+GPT-4 was at the top of SWE-bench leaderboard during the time of our study. Our analysis reveals some critical issues with the SWE-bench dataset: 1) 32.67% of the successful patches involve cheating as the solutions were directly provided in the issue report or the comments. We refer to as solution leakage problem. 2) 31.08% of the passed patches are suspicious patches due to weak test cases, i.e., the tests were not adequate to verify the correctness of a patch. When we filtered out these problematic issues, the resolution rate of SWE-Agent+GPT-4 dropped from 12.47% to 3.97%. We also observed that the same data quality issues also exist in the two variants of SWE-bench, i.e., SWE-bench Lite and SWE-Bench Verified. In addition, over 94% of the issues were created before LLM's knowledge cutoff dates, posing potential data leakage issues.
- Abstract(参考訳): ソフトウェア工学(SE)のLLM(Large Language Models)は、コーディングの補助を提供する。
実用的なコーディングコンテキストにおけるLSMの厳密な評価を容易にするため、Carlosらは、SWE-benchデータセットを導入した。
LLMベースのツールキットが最近開発され、このデータセットで評価されている。
しかし,SWEベンチの品質の体系的評価はいまだに欠落している。
本稿では,SWE-benchデータセットの実証分析を行い,このギャップに対処する。
SWEAgent + GPT-4がモデル生成パッチと実際のプルリクエストを比較することで,問題の解決に成功したインスタンスを手動でスクリーニングした。
研究期間中,SWE-Agent+GPT-4はSWE-benchのリーダーボードの一番上にあった。
我々の分析は、SWE-benchデータセットにおけるいくつかの重要な問題を明らかにしている。
1) パッチの成功率の32.67%は、イシューレポートやコメントにソリューションが直接提供されているため、不正行為を伴っている。
解決策リーク問題と呼ぶ。
2) 通過したパッチの31.08%は, 弱いテストケースによる不審なパッチであり, パッチの正当性を検証するには不十分であった。
これらの問題をフィルタリングすると、SWE-Agent+GPT-4の分解率は12.47%から3.97%に低下した。
また,SWE-bench LiteとSWE-Bench Verifiedの2つの変種にデータ品質の問題が存在することも確認した。
加えて、LLMの知識の遮断日以前に94%以上の問題が作成され、潜在的なデータ漏洩の問題を引き起こした。
関連論文リスト
- Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,ブラックボックス条件下で動作することができる。
我々は,4つのベンチマークデータセットを用いて,31個の主要なオープンソースLCMのデータ漏洩の程度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Revisiting Multi-Modal LLM Evaluation [29.094387692681337]
我々は,最近のMLLM(LLaVA 1.5, LLaVA-NeXT, BLIP2, InstructBLIP, GPT-4V, GPT-4o)を,以前のMLLMの弱点に対処するためのデータセット上で評価した。
我々のコードはMLLM評価のために広く使われているLAVISフレームワークに統合されており、将来のMLLMの迅速な評価を可能にしている。
論文 参考訳(メタデータ) (2024-08-09T20:55:46Z) - LiveBench: A Challenging, Contamination-Free LLM Benchmark [101.21578097087699]
最近の情報ソースから頻繁に更新された質問を含む最初のベンチマークであるLiveBenchをリリースする。
我々は、多くの著名なクローズドソースモデルと、0.5Bから110Bまでの数十のオープンソースモデルを評価した。
質問は毎月追加され、更新されるので、時間とともに新しいタスクとより難しいバージョンのタスクをリリースします。
論文 参考訳(メタデータ) (2024-06-27T16:47:42Z) - DefAn: Definitive Answer Dataset for LLMs Hallucination Evaluation [39.857198257988685]
大規模言語モデル(LLM)は、日常生活のアプリケーションにおけるAIの統合に革命をもたらしている。
彼らは幻覚を起こしやすく、確立した事実に矛盾する主張を生じさせ、同じプロンプトが複数回提示されたときに矛盾する反応を生じさせる。
本稿では,8つの領域にまたがる75,000以上のプロンプトからなる総合ベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2024-06-13T14:18:13Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Increasing the LLM Accuracy for Question Answering: Ontologies to the Rescue! [1.0786522863027366]
本稿では,1)オントロジーに基づくクエリチェック (OBQC) と2) LLM修復からなるアプローチを提案する。
当社のアプローチでは、"知らない"結果の8%を含む、全体的な精度を72%に向上しています。
論文 参考訳(メタデータ) (2024-05-20T00:28:00Z) - LLM2LLM: Boosting LLMs with Novel Iterative Data Enhancement [79.31084387589968]
事前訓練された大規模言語モデル(LLM)は、現在、自然言語処理タスクの大部分を解決するための最先端技術である。
LLM2LLMは、教師のLLMを使って小さなシードデータセットを強化するデータ拡張戦略である。
GSM8Kデータセットでは最大24.2%、CaseHOLDでは32.6%、SNIPSでは32.0%、TRECでは52.6%、SST-2では39.8%の改善が達成された。
論文 参考訳(メタデータ) (2024-03-22T08:57:07Z) - SPADE: Synthesizing Data Quality Assertions for Large Language Model Pipelines [15.389579061898429]
本研究では,データ品質アサーションを自動的に合成するSPADEを提案する。
9つの現実世界のLLMパイプラインをテストする場合、SPADEはアサーションの数を14%削減する。
論文 参考訳(メタデータ) (2024-01-05T19:27:58Z) - Investigating Data Contamination in Modern Benchmarks for Large Language Models [27.479260572913724]
近年の観測は、膨らませたベンチマークスコアとLLMの実際の性能の相違を裏付けている。
我々は,オープンソースのLLMとプロプライエタリなLLMの両方に適した2つの手法を提案し,データ汚染について検討した。
いくつかの商用LCMは、様々なテストセットに欠けているオプションを驚くほど推測できる。
論文 参考訳(メタデータ) (2023-11-16T11:03:04Z) - Fake Alignment: Are LLMs Really Aligned Well? [91.26543768665778]
本研究では,複数質問とオープンエンド質問の相違点について検討した。
ジェイルブレイク攻撃パターンの研究にインスパイアされた我々は、これが不一致の一般化によって引き起こされたと論じている。
論文 参考訳(メタデータ) (2023-11-10T08:01:23Z) - Test-Time Self-Adaptive Small Language Models for Question Answering [63.91013329169796]
ラベルのないテストデータのみを用いて、より小さな自己適応型LMの能力を示し、検討する。
提案した自己適応戦略は,ベンチマークQAデータセットの大幅な性能向上を示す。
論文 参考訳(メタデータ) (2023-10-20T06:49:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。