論文の概要: BackportBench: A Multilingual Benchmark for Automated Backporting of Patches
- arxiv url: http://arxiv.org/abs/2512.01396v1
- Date: Mon, 01 Dec 2025 08:16:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.759509
- Title: BackportBench: A Multilingual Benchmark for Automated Backporting of Patches
- Title(参考訳): BackportBench: パッチの自動バックポートのための多言語ベンチマーク
- Authors: Zhiqing Zhong, Jiaming Huang, Pinjia He,
- Abstract要約: ソフトウェア開発者は、古いリリースにセキュリティパッチをバックポートすることで、この問題を軽減することができる。
BackportBenchは、パッチバックポート問題に対する最初の包括的なベンチマークスイートである。
その結果,エージェント法は従来のパッチポーティング法よりも優れていた。
- 参考スコア(独自算出の注目度): 15.032583823113514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many modern software projects evolve rapidly to incorporate new features and security patches. It is important for users to update their dependencies to safer versions, but many still use older, vulnerable package versions because upgrading can be difficult and may break their existing codebase. Software developers can mitigate this problem by backporting security patches to older releases. However, manually backporting is time-consuming and error-prone. The effectiveness of existing automated backporting techniques on general software remains unclear since they typically target only code-hunk or function-level patch porting scenarios and are evaluated with imperfect metrics. To facilitate the development and evaluation of automated backporting techniques, we introduce BackportBench, the first comprehensive benchmark suite for patch backporting problem. BackportBench is a multilingual benchmark that contains 202 patch backporting problems from PyPI, Maven, and npm, each with executable Docker environments and relevant test cases. We evaluated existing patch porting methods and LLM-based techniques that have the potential to adapt to this task using BackportBench. The results show that the agentic method has outperformed traditional patch porting methods, especially on cases that require logical and structural changes. However, the performance varies across different programming languages. Based on the findings, we draw several implications for researchers and software practitioners in future work on automated backporting.
- Abstract(参考訳): 多くの現代のソフトウェアプロジェクトは、新しい機能とセキュリティパッチを組み込むために急速に進化している。
ユーザは、より安全なバージョンに依存関係をアップデートすることが重要だが、アップグレードが難しく、既存のコードベースを壊す可能性があるため、古い、脆弱なパッケージバージョンを使っている人も多い。
ソフトウェア開発者は、古いリリースにセキュリティパッチをバックポートすることで、この問題を軽減することができる。
しかし、手動のバックポートは時間がかかりエラーが発生しやすい。
一般的なソフトウェアにおける既存の自動バックポート技術の有効性は、通常、コードハンクやファンクションレベルのパッチポーティングシナリオのみをターゲットにし、不完全なメトリクスで評価されるため、不明である。
自動バックポート技術の開発と評価を容易にするため,パッチバックポート問題に対する初の総合ベンチマークスイートであるBackportBenchを紹介した。
BackportBenchは、PyPI、Maven、npmからの202のパッチバックポート問題を含む、多言語ベンチマークである。
BackportBench を用いて既存のパッチポーティング手法と LLM ベースの手法の評価を行った。
その結果,エージェント法は従来のパッチポーティング法,特に論理的および構造的変化を必要とする場合において,優れた性能を示した。
しかし、性能は異なるプログラミング言語によって異なる。
この結果から, 研究者やソフトウェア実践者たちが今後, 自動バックポート開発に携わる上で, いくつかの意味を見出している。
関連論文リスト
- What a diff makes: automating code migration with large language models [0.15293427903448018]
差分を含むコンテキストは LLM のアウトオブボックスに対する性能を著しく向上させることができることを示す。
この問題領域のさらなる開発を支援するデータセットと,コードベースのマイグレーションを支援するオープンソースPythonパッケージであるAIMigrateを提供しています。
STARSIMバージョン間のTYPHOIDSIMの実際の移行において、AIMigrateは、1回の実行で必要な変更の65%を正しく識別し、複数の実行で80%まで増加し、変更の47%が完璧に生成された。
論文 参考訳(メタデータ) (2025-10-31T18:08:52Z) - PortGPT: Towards Automated Backporting Using Large Language Models [16.654479541363802]
本稿では,現実シナリオにおけるパッチバックポートのエンドツーエンド自動化のためのエージェントである PortGPT を紹介する。
PortGPTはLLMを拡張し、オンデマンドでコードにアクセスし、Git履歴を要約し、フィードバックに基づいてパッチを自動修正する。
PortGPTからLinuxカーネルコミュニティに9つのバックポートパッチを提供しました。
論文 参考訳(メタデータ) (2025-10-25T18:46:04Z) - MigGPT: Harnessing Large Language Models for Automated Migration of Out-of-Tree Linux Kernel Patches Across Versions [53.811953357289866]
大規模言語モデル(LLM)は、様々な領域で顕著な進歩を示している。
LLMは不完全なコードコンテキスト理解と不正確なマイグレーションポイント識別に苦労する。
MigGPTは、コードスニペット情報を保持するために新しいコード指紋構造を使用するフレームワークである。
論文 参考訳(メタデータ) (2025-04-13T08:08:37Z) - SWE-PolyBench: A multi-language benchmark for repository level evaluation of coding agents [49.73885480071402]
我々はSWE-PolyBenchを紹介した。SWE-PolyBenchは、コードエージェントのリポジトリレベル、実行ベース評価のための新しいベンチマークである。
SWE-PolyBenchには21のリポジトリから2110のインスタンスが含まれており、Java(165)、JavaScript(1017)、TypeScript(729)、Python(199)のタスクが含まれており、バグ修正、機能追加、コードを含んでいる。
実験の結果,現在のエージェントは言語間で不均一なパフォーマンスを示し,複雑な問題に対処しつつ,単純なタスクで高いパフォーマンスを示すことがわかった。
論文 参考訳(メタデータ) (2025-04-11T17:08:02Z) - MultiMend: Multilingual Program Repair with Context Augmentation and Multi-Hunk Patch Generation [2.7036595757881323]
MultiMendは学習ベースのAPRアプローチで、複数のプログラミング言語の修復性能を改善する。
ソースコード行を埋め込み、検索拡張生成を適用して、パッチ生成中に関連する行でバギーコンテキストを拡大する。
4つのプログラミング言語を持つ4つのベンチマークでMultiMendを評価し、最先端の手法と比較した。
論文 参考訳(メタデータ) (2025-01-27T13:37:43Z) - SWE-bench-java: A GitHub Issue Resolving Benchmark for Java [27.226354754864783]
大規模言語モデル(LLM)の問題解決能力を評価するため、SWE-benchがリリースされた。
マルチ言語サポートへの第一歩として、SWE-bench-javaと呼ばれるSWE-benchのJavaバージョンを開発しました。
SWE-bench-javaの信頼性を検証するために、従来のSWE-agentを実装し、その上で複数の強力なLCMをテストする。
論文 参考訳(メタデータ) (2024-08-26T15:30:05Z) - Automating Zero-Shot Patch Porting for Hard Forks [12.622409703778604]
本稿では,機能的にハードフォーク用のパッチを自動的に移植する大規模言語モデル (LLM) を提案する。
PPatHFは131 (42.3%)のパッチを正しく移植し、開発者がパッチを移植するのに必要な手作業の57%を自動化する。
論文 参考訳(メタデータ) (2024-04-27T17:40:39Z) - RAP-Gen: Retrieval-Augmented Patch Generation with CodeT5 for Automatic
Program Repair [75.40584530380589]
新たな検索型パッチ生成フレームワーク(RAP-Gen)を提案する。
RAP-Gen 以前のバグ修正ペアのリストから取得した関連する修正パターンを明示的に活用する。
RAP-GenをJavaScriptのTFixベンチマークとJavaのCode RefinementとDefects4Jベンチマークの2つのプログラミング言語で評価する。
論文 参考訳(メタデータ) (2023-09-12T08:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。