論文の概要: BUMP: A Benchmark of Reproducible Breaking Dependency Updates
- arxiv url: http://arxiv.org/abs/2401.09906v1
- Date: Thu, 18 Jan 2024 11:41:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:59:48.906565
- Title: BUMP: A Benchmark of Reproducible Breaking Dependency Updates
- Title(参考訳): BUMP: 再現可能な依存関係更新のベンチマーク
- Authors: Frank Reyes, Yogya Gamage, Gabriel Skoglund, Benoit Baudry, Martin
Monperrus
- Abstract要約: サードパーティの依存性更新は、新しい依存性バージョンが使用法と互換性のない変更を導入した場合、ビルドが失敗する可能性がある。
依存性の更新を壊す研究は活発に行われており、特徴付け、理解、更新を壊す自動修復、その他のソフトウェア工学的な側面が研究されている。
1) 現実世界のブレークスルー更新を含む; 2) ブレークスルー更新は実行可能である; 3) ベンチマークは、時間とともにブレークスルー更新の安定した科学的アーティファクトを提供する。
- 参考スコア(独自算出の注目度): 10.405775369526006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Third-party dependency updates can cause a build to fail if the new
dependency version introduces a change that is incompatible with the usage:
this is called a breaking dependency update. Research on breaking dependency
updates is active, with works on characterization, understanding, automatic
repair of breaking updates, and other software engineering aspects. All such
research projects require a benchmark of breaking updates that has the
following properties: 1) it contains real-world breaking updates; 2) the
breaking updates can be executed; 3) the benchmark provides stable scientific
artifacts of breaking updates over time, a property we call reproducibility. To
the best of our knowledge, such a benchmark is missing. To address this
problem, we present BUMP, a new benchmark that contains reproducible breaking
dependency updates in the context of Java projects built with the Maven build
system. BUMP contains 571 breaking dependency updates collected from 153 Java
projects. BUMP ensures long-term reproducibility of dependency updates on
different platforms, guaranteeing consistent build failures. We categorize the
different causes of build breakage in BUMP, providing novel insights for future
work on breaking update engineering. To our knowledge, BUMP is the first of its
kind, providing hundreds of real-world breaking updates that have all been made
reproducible.
- Abstract(参考訳): サードパーティの依存性更新は、新しい依存性バージョンが使用法と互換性のない変更を導入した場合、ビルドが失敗する可能性がある。
依存関係の更新を分解する研究は活発であり、更新のキャラクタリゼーション、理解、更新の自動修復、その他のソフトウェア工学的な側面に取り組んでいる。
これらの研究プロジェクトはすべて、以下の特性を持つアップデートのベンチマークを必要とする。
1)現実の破壊的アップデートを含む。
2) 更新更新は実行可能である。
3) このベンチマークは、更新を時間とともに破壊する安定した科学的成果物を提供する。
私たちの知る限りでは、そのようなベンチマークは欠落している。
この問題に対処するため、Mavenビルドシステムで構築されたJavaプロジェクトのコンテキストにおいて、再現可能な依存性更新を含む新しいベンチマークであるBUMPを紹介します。
BUMPには153のJavaプロジェクトから収集された571の依存性更新が含まれている。
BUMPは、さまざまなプラットフォームにおける依存関係更新の長期的な再現性を確保し、一貫したビルド障害を保証する。
我々はビルド破壊のさまざまな原因をbumpに分類し、今後のアップデートエンジニアリングの破壊に関する新しい知見を提供する。
私たちの知る限り、BUMPはその種の最初のもので、再現可能な何百もの現実世界の更新を提供する。
関連論文リスト
- NewTerm: Benchmarking Real-Time New Terms for Large Language Models with Annual Updates [61.492590008258986]
大規模言語モデル(LLM)は、開発プロセスにおける知識の遮断により、リアルタイム情報に苦しむ。
本稿では,新しい用語をリアルタイムに評価するための適応型ベンチマークであるNewTermを提案する。
論文 参考訳(メタデータ) (2024-10-28T08:02:23Z) - CodeUpdateArena: Benchmarking Knowledge Editing on API Updates [77.81663273436375]
コードドメインの知識編集のためのベンチマークであるCodeUpdateArenaを提示する。
私たちのベンチマークのインスタンスは、プログラム合成例と組み合わせた合成API関数のアップデートで構成されています。
ベンチマークでは、7つのPythonパッケージから54の関数へ、さまざまなタイプの更新をカバーしています。
論文 参考訳(メタデータ) (2024-07-08T17:55:04Z) - Breaking-Good: Explaining Breaking Dependency Updates with Build Analysis [11.367562045401554]
依存関係の更新は、新しい依存関係バージョンが既存のクライアントコードと互換性のない変更を導入したときに、コンパイルエラーを引き起こすことが多い。
Breaking-Goodは、更新を壊すための説明を自動的に生成するツールです。
論文 参考訳(メタデータ) (2024-07-04T12:20:26Z) - See to Believe: Using Visualization To Motivate Updating Third-party Dependencies [1.7914660044009358]
サードパーティの依存関係を使用したアプリケーションによって導入されたセキュリティ脆弱性が増加している。
開発者はライブラリのアップデートに注意を払っており、脆弱性の修正にも注意している。
本稿では、依存性グラフ可視化(DGV)アプローチが、開発者が更新を動機付けると仮定する。
論文 参考訳(メタデータ) (2024-05-15T03:57:27Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z) - StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models [74.88844320554284]
ToolBenchから進化したベンチマークであるStableToolBenchを紹介します。
仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。
安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
論文 参考訳(メタデータ) (2024-03-12T14:57:40Z) - GitBug-Actions: Building Reproducible Bug-Fix Benchmarks with GitHub
Actions [8.508198765617196]
GitBug-Actionsは、最新の完全に再現可能なバグフィックスでバグフィックスベンチマークを構築するための新しいツールです。
GitBug-Actionsは、最も人気のあるCIプラットフォームであるGitHub Actionsに依存してバグフィックスを検出する。
ツールチェーンを実証するために、GitBug-Actionsをデプロイして、概念実証Goバグフィックスベンチマークを構築しました。
論文 参考訳(メタデータ) (2023-10-24T09:04:14Z) - Information Association for Language Model Updating by Mitigating
LM-Logical Discrepancy [68.31760483418901]
大規模言語モデル(LLM)は、時代遅れの事前学習データのために現在の情報を提供するのに苦労する。
知識編集や連続的な微調整など,従来のLCMの更新方法は,新たな情報の一般化に重大な欠点がある。
これらの欠点の中核となる課題は,言語モデリングの確率と論理的確率の差を特徴とするLM論理的相違である。
論文 参考訳(メタデータ) (2023-05-29T19:48:37Z) - Dependency Update Strategies and Package Characteristics [5.119787101452765]
本研究は,パッケージ特性と依存者が選択した依存関係更新戦略との関係について検討する。
我々は112,000 npm以上のパッケージを調査し、19の特性を用いて、各パッケージの共通依存関係更新戦略を特定する予測モデルを構築した。
論文 参考訳(メタデータ) (2023-05-25T02:58:21Z) - Plug-and-Play Adaptation for Continuously-updated QA [21.665681980293137]
言語モデル(LM)は暗黙の知識ベース(KB)として大きな可能性を示している
実用上、LMの知識を定期的に更新する必要がある。
本稿では,LM に対して大規模更新を行う新しいタスクである連続更新 QA を提案する。
論文 参考訳(メタデータ) (2022-04-27T09:11:16Z) - FRUIT: Faithfully Reflecting Updated Information in Text [106.40177769765512]
FRUIT(FruIT)で更新情報を反映した新しい生成タスクについて紹介する。
我々の分析は、記事の更新が可能なモデルを開発するには、ニューラルジェネレーションモデルに新しい能力が必要であることを示している。
論文 参考訳(メタデータ) (2021-12-16T05:21:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。