Fugu-MT 論文翻訳(概要): GitBug-Actions: Building Reproducible Bug-Fix Benchmarks with GitHub Actions

論文の概要: GitBug-Actions: Building Reproducible Bug-Fix Benchmarks with GitHub Actions

arxiv url: http://arxiv.org/abs/2310.15642v3
Date: Sun, 21 Jan 2024 12:01:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-23 20:28:41.400345
Title: GitBug-Actions: Building Reproducible Bug-Fix Benchmarks with GitHub Actions
Title（参考訳）: GitBug-Actions:GitHubアクションで再現可能なバグフィックスベンチマークを構築する
Authors: Nuno Saavedra, Andr\'e Silva, Martin Monperrus
Abstract要約: GitBug-Actionsは、最新の完全に再現可能なバグフィックスでバグフィックスベンチマークを構築するための新しいツールです。 GitBug-Actionsは、最も人気のあるCIプラットフォームであるGitHub Actionsに依存してバグフィックスを検出する。ツールチェーンを実証するために、GitBug-Actionsをデプロイして、概念実証Goバグフィックスベンチマークを構築しました。
参考スコア（独自算出の注目度）: 8.508198765617196
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Bug-fix benchmarks are fundamental in advancing various sub-fields of software engineering such as automatic program repair (APR) and fault localization (FL). A good benchmark must include recent examples that accurately reflect technologies and development practices of today. To be executable in the long term, a benchmark must feature test suites that do not degrade overtime due to, for example, dependencies that are no longer available. Existing benchmarks fail in meeting both criteria. For instance, Defects4J, one of the foremost Java benchmarks, last received an update in 2020. Moreover, full-reproducibility has been neglected by the majority of existing benchmarks. In this paper, we present GitBug-Actions: a novel tool for building bug-fix benchmarks with modern and fully-reproducible bug-fixes. GitBug-Actions relies on the most popular CI platform, GitHub Actions, to detect bug-fixes and smartly locally execute the CI pipeline in a controlled and reproducible environment. To the best of our knowledge, we are the first to rely on GitHub Actions to collect bug-fixes. To demonstrate our toolchain, we deploy GitBug-Actions to build a proof-of-concept Go bug-fix benchmark containing executable, fully-reproducible bug-fixes from different repositories. A video demonstrating GitBug-Actions is available at: https://youtu.be/aBWwa1sJYBs.
Abstract（参考訳）: バグフィックスベンチマークは、自動プログラム修復(APR)やフォールトローカライゼーション(FL)など、ソフトウェア工学の様々なサブフィールドを進化させる上で基本的なものである。優れたベンチマークには、今日の技術と開発プラクティスを正確に反映する最近の例を含める必要があります。長期的に実行可能なベンチマークは、例えば、もはや利用できない依存関係のために、残業時間を劣化しないテストスイートを特徴としなければならない。既存のベンチマークは両方の基準を満たさない。例えば、最上位のjavaベンチマークである defects4j が、2020年にアップデートされた。さらに、既存のベンチマークの大半では、完全な再現性は無視されている。本稿では,gitbug-actionsについて述べる。最新かつ完全に再現可能なバグフィックスを用いて,バグフィックスベンチマークを構築するための新しいツールである。 GitBug-Actionsは、最も人気のあるCIプラットフォームであるGitHub Actionsに依存して、バグフィックスを検出し、制御された再現可能な環境でCIパイプラインをスマートにローカルに実行する。私たちの知る限りでは、GitHub Actionsを使ってバグフィックスを収集するのは初めてです。ツールチェーンを示すために、gitbug-actionsをデプロイして、さまざまなリポジトリから実行可能な、完全に再現可能なバグ修正を含む、概念実証のgoバグフィックスベンチマークを構築します。 GitBug-Actionsをデモするビデオは、https://youtu.be/aBWwa1sJYBsで公開されている。

関連論文リスト

SwingArena: Competitive Programming Arena for Long-context GitHub Issue Solving [90.32201622392137]
We present SwingArena, a competitive evaluation framework for Large Language Models (LLMs)。従来の静的ベンチマークとは異なり、SwingArenaはLLMをイテレーションとして組み合わせて、テストケースを作成し、継続的インテグレーション(CI)パイプラインを通じてパッチを検証するパッチとレビュアーを生成することで、ソフトウェアのコラボレーションプロセスをモデル化する。
論文参考訳（メタデータ） (2025-05-29T18:28:02Z)
GitGoodBench: A Novel Benchmark For Evaluating Agentic Performance On Git [0.8397730500554048]
GitGoodBenchは、バージョン管理システム(VCS)タスク上でAIエージェントのパフォーマンスを評価するための新しいベンチマークである。私たちのベンチマークでは、オープンソースのPython、Java、Kotlinリポジトリから抽出された3つのコアGitシナリオについて取り上げています。我々は、カスタムツールを備えたGPT-4oを用いて、ベンチマークのプロトタイプバージョン上でベースライン性能を確立し、全体的な21.1%の解決率を達成する。
論文参考訳（メタデータ） (2025-05-28T16:56:11Z)
CrashFixer: A crash resolution agent for the Linux kernel [58.152358195983155]
この作業は、システムレベルのLinuxカーネルバグのベンチマークと、Linuxカーネルで実験を実行するプラットフォームを共有するkGymの上に構築されている。 CrashFixerはLinuxカーネルのバグに適応する最初のLCMベースのソフトウェア修復エージェントである。
論文参考訳（メタデータ） (2025-04-29T04:18:51Z)
GitBugs: Bug Reports for Duplicate Detection, Retrieval Augmented Generation, Triage, and More [0.0]
私たちはGitBugsを紹介します。9つのアクティブにメンテナンスされているオープンソースプロジェクトから15万以上のバグレポートを収集し、簡潔で最新のデータセットです。 GitBugsはGithub、Bugzilla、Jiraのイシュートラッカからのデータを集約し、分類タスクの標準化されたカテゴリフィールドを提供する。予報分析ノートや、重複率や解像度時間などの詳細なプロジェクトレベルの統計情報が含まれている。
論文参考訳（メタデータ） (2025-04-13T16:55:28Z)
Do Large Language Model Benchmarks Test Reliability? [66.1783478365998]
モデル信頼性の定量化について検討する。信頼性評価におけるこのギャップにより、我々はいわゆるプラチナベンチマークの概念を提案する。我々は、これらのプラチナベンチマークにおいて、幅広いモデルを評価し、実際、フロンティアLSMは、単純なタスクで失敗を示す。
論文参考訳（メタデータ） (2025-02-05T18:58:19Z)
KGym: A Platform and Dataset to Benchmark Large Language Models on Linux Kernel Crash Resolution [59.20933707301566]
大規模言語モデル(LLM)は、ますます現実的なソフトウェア工学(SE)タスクにおいて一貫して改善されている。現実世界のソフトウェアスタックでは、Linuxカーネルのような基本的なシステムソフトウェアの開発にSEの取り組みが費やされています。このような大規模システムレベルのソフトウェアを開発する際にMLモデルが有用かどうかを評価するため、kGymとkBenchを紹介する。
論文参考訳（メタデータ） (2024-07-02T21:44:22Z)
JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。 JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文参考訳（メタデータ） (2024-03-28T02:44:02Z)
MAGIS: LLM-Based Multi-Agent Framework for GitHub Issue Resolution [47.850418420195304]
大規模言語モデル(LLM)はコード生成において有望であるが、GitHubの問題を解決する上で困難に直面している。ソフトウェア進化のためにカスタマイズされた4つのエージェントからなる、GitHub Issue Resolution, MAGISのための新しいMulti-Agentフレームワークを提案する。
論文参考訳（メタデータ） (2024-03-26T17:57:57Z)
GitBug-Java: A Reproducible Benchmark of Recent Java Bugs [8.508198765617196]
最近のJavaバグの再現可能なベンチマークであるGitBug-Javaを紹介します。 GitBug-Javaは、55の有名なオープンソースリポジトリの2023年のコミット履歴から抽出された199のバグを特徴としている。
論文参考訳（メタデータ） (2024-02-05T12:40:41Z)
RaceFixer -- An Automated Data Race Fixer [0.0]
RaceFixerは、ひとつの一般的なタイプのバグを修正するプロセスを自動化する。複数のバグのパッチを組み合わせることで、パフォーマンスとコードの可読性を向上する。
論文参考訳（メタデータ） (2024-01-08T20:25:14Z)
WRTester: Differential Testing of WebAssembly Runtimes via Semantic-aware Binary Generation [19.78427170624683]
WRTesterは,現実のWasmバイナリを分解・組み立てることで複雑なWasmテストケースを生成可能な,新しい差分テストフレームワークである。予期せぬ動作の根本原因を更に特定するために,実行時に依存しない根本原因特定手法を設計し,バグを正確に検出する。人気の高いWasmランタイムで33のユニークなバグを発見しました。
論文参考訳（メタデータ） (2023-12-16T14:02:42Z)
RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。 RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。 RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文参考訳（メタデータ） (2023-09-12T08:52:56Z)
Using Developer Discussions to Guide Fixing Bugs in Software [51.00904399653609]
我々は,タスク実行前に利用可能であり,また自然発生しているバグレポートの議論を,開発者による追加情報の必要性を回避して利用することを提案する。このような議論から派生したさまざまな自然言語コンテキストがバグ修正に役立ち、オラクルのバグ修正コミットに対応するコミットメッセージの使用よりもパフォーマンスの向上につながることを実証する。
論文参考訳（メタデータ） (2022-11-11T16:37:33Z)
BigIssue: A Realistic Bug Localization Benchmark [89.8240118116093]
BigIssueは、現実的なバグローカライゼーションのためのベンチマークである。実際のJavaバグと合成Javaバグの多様性を備えた一般的なベンチマークを提供する。われわれは,バグローカライゼーションの最先端技術として,APRの性能向上と,現代の開発サイクルへの適用性の向上を期待している。
論文参考訳（メタデータ） (2022-07-21T20:17:53Z)
DeepDebug: Fixing Python Bugs Using Stack Traces, Backtranslation, and Code Skeletons [5.564793925574796]
本稿では,大規模な事前学習型トランスを用いた自動デバッグ手法を提案する。まず、合成バグを生成するために、逆コミットデータにバグ生成モデルをトレーニングすることから始めます。次に、テストを実行できる10Kリポジトリに焦点を当て、テストをパスすることでカバーされるすべての関数のバグの多いバージョンを作成します。
論文参考訳（メタデータ） (2021-05-19T18:40:16Z)
Generating Bug-Fixes Using Pretrained Transformers [11.012132897417592]
実世界のgithubからマイニングしたjavaメソッドのバグの検出と修正を学ぶ,データ駆動型プログラム修復手法を導入する。ソースコードプログラムの事前トレーニングは,スクラッチからの教師ありトレーニングに比べて,33%のパッチ数を改善することを示す。我々は,標準精度評価基準を非削除および削除のみの修正に洗練し,我々の最良モデルが従来よりも75%多くの非削除修正を生成することを示す。
論文参考訳（メタデータ） (2021-04-16T05:27:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。