論文の概要: PExReport: Automatic Creation of Pruned Executable Cross-Project Failure
Reports
- arxiv url: http://arxiv.org/abs/2305.06669v1
- Date: Thu, 11 May 2023 09:09:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 09:04:18.194828
- Title: PExReport: Automatic Creation of Pruned Executable Cross-Project Failure
Reports
- Title(参考訳): PExReport: 実行可能なクロスプロジェクト障害レポートの自動作成
- Authors: Sunzhou Huang, Xiaoyin Wang
- Abstract要約: 我々は,スタンドアロンのCPFレポートを生成するPExReportを開発した。
PExReportは、我々のデータセットで198のテスト障害のうち184の実行可能なCPFレポートを作成することができ、ソースクラスと内部JARのクラスで平均72.97%の削減を実現している。
- 参考スコア(独自算出の注目度): 12.174340719791532
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern software development extensively depends on existing libraries written
by other developer teams from the same or a different organization. When a
developer executes the software, the execution trace may go across the
boundaries of multiple software products and create cross-project failures
(CPFs). Existing studies show that a stand-alone executable failure report may
enable the most effective communication, but creating such a report is often
challenging due to the complicated files and dependencies interactions in the
software ecosystems. In this paper, to solve the CPF report trilemma, we
developed PExReport, which automatically creates stand-alone executable CPF
reports. PExReport leverages build tools to prune source code and dependencies,
and further analyzes the build process to create a pruned build environment for
reproducing the CPF. We performed an evaluation on 74 software project issues
with 198 CPFs, and the evaluation results show that PExReport can create
executable CPF reports for 184 out of 198 test failures in our dataset, with an
average reduction of 72.97% on source classes and the classes in internal JARs.
- Abstract(参考訳): 現代のソフトウェア開発は、同じまたは別の組織から他の開発チームによって書かれた既存のライブラリに大きく依存します。
開発者がソフトウェアを実行すると、実行トレースは複数のソフトウェアプロダクトの境界を越えて、プロジェクト横断障害(CPF)を生成する。
既存の研究によると、スタンドアロンの実行可能な障害レポートは最も効果的なコミュニケーションを可能にする可能性があるが、ソフトウェアエコシステムにおける複雑なファイルと依存関係の相互作用のため、そのようなレポートを作成することはしばしば困難である。
本稿では,CPFレポートのトリレンマを解決するために,スタンドアローンのCPFレポートを自動生成するPExReportを開発した。
pexreportはビルドツールを利用してソースコードと依存関係をプルインし、さらにビルドプロセスを分析してcpfを再現するprunedビルド環境を作成する。
198のCPFを用いて74のソフトウェアプロジェクト問題の評価を行い、評価結果から、PExReportは、我々のデータセットの198のテスト障害のうち184の実行可能なCPFレポートを作成でき、ソースクラスと内部JARのクラスを平均72.97%削減できることを示した。
関連論文リスト
- Large Language Model Critics for Execution-Free Evaluation of Code Changes [5.1973075342632535]
大規模言語モデル(LLM)は、ソフトウェアエンジニアリングタスクを自動化するための有望な方法を提供する。
ビルド状況や時折のログ分析などを評価するための既存のメトリクスは、変更の質を評価するのに必要な情報を提供するには不十分で制限されています。
本研究では,LLMをベースとした批判者に対して,コード変更の実行可能性に対する厳密で厳密な中間レベル/ステップレベルの,実行不要な評価プロキシを導出する設計を行った。
論文 参考訳(メタデータ) (2025-01-28T02:38:56Z) - Does Functional Package Management Enable Reproducible Builds at Scale? Yes [4.492444446637857]
Reproducible Builds (R-B) は、ソフトウェアパッケージをソースから再構築することを保証する。
我々は,Nix機能パッケージマネージャのコンテキストにおいて,ビットワイズに関する最初の大規模研究を行う。
非常に高いビットワイズ率、69~91%の上昇傾向、さらに高いリビルド可能性率、99%以上を得ています。
論文 参考訳(メタデータ) (2025-01-27T10:11:27Z) - DI-BENCH: Benchmarking Large Language Models on Dependency Inference with Testable Repositories at Scale [39.92722886613929]
DI-BENCHは、大規模言語モデルの依存性推論能力を評価するために設計された、大規模なベンチマークおよび評価フレームワークである。
ベンチマークでは、Python、C#、Rust、JavaScriptにまたがるテスト環境を備えた581のリポジトリが提供されている。
テキストと実行ベースのメトリクスによる大規模な実験により、現在の最高のパフォーマンスモデルは42.9%の実行パス率しか達成していないことが明らかになった。
論文 参考訳(メタデータ) (2025-01-23T14:27:11Z) - ExecRepoBench: Multi-level Executable Code Completion Evaluation [45.963424627710765]
本稿では,リポジトリレベルのベンチマークであるExecRepoBenchの作成を通じて,ソフトウェア開発におけるコード補完を強化する新しいフレームワークを紹介する。
本稿では,抽象構文木をベースとした多段階文法ベースの補完手法を提案し,様々な論理単位のコードフラグメントをマスキングする。
次に,Repo-Instruct の 7B パラメータでオープンソースの LLM を微調整し,強力なコード補完ベースラインモデル Qwen2.5-Coder-Instruct-C を生成する。
論文 参考訳(メタデータ) (2024-12-16T17:14:35Z) - You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects [18.129031749321058]
ExecutionAgentは任意のプロジェクトをインストールし、テストケースを実行するように設定し、プロジェクト固有のスクリプトを生成する自動テクニックである。
ExecutionAgentは、14の異なるプログラミング言語と多くの異なるビルドおよびテストツールを使用する50のオープンソースプロジェクトに適用します。
論文 参考訳(メタデータ) (2024-12-13T13:30:51Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Codev-Bench: How Do LLMs Understand Developer-Centric Code Completion? [60.84912551069379]
Code-Development Benchmark (Codev-Bench)は、細粒度で現実世界、リポジトリレベル、開発者中心の評価フレームワークです。
Codev-Agentは、リポジトリのクローリングを自動化し、実行環境を構築し、既存のユニットテストから動的呼び出しチェーンを抽出し、データ漏洩を避けるために新しいテストサンプルを生成するエージェントベースのシステムである。
論文 参考訳(メタデータ) (2024-10-02T09:11:10Z) - Automatic benchmarking of large multimodal models via iterative experiment programming [71.78089106671581]
本稿では,LMMの自動ベンチマークのための最初のフレームワークであるAPExを紹介する。
自然言語で表現された研究の質問に対して、APExは大きな言語モデル(LLM)と事前定義されたツールのライブラリを活用して、手元にあるモデルの一連の実験を生成する。
調査の現在の状況に基づいて、APExはどの実験を行うか、結果が結論を引き出すのに十分かどうかを選択する。
論文 参考訳(メタデータ) (2024-06-18T06:43:46Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - A Data-Centric Framework for Composable NLP Workflows [109.51144493023533]
アプリケーションドメインにおける経験的自然言語処理システム(例えば、ヘルスケア、ファイナンス、教育)は、複数のコンポーネント間の相互運用を伴う。
我々は,このような高度なNLPの高速な開発を支援するために,統一的なオープンソースフレームワークを構築した。
論文 参考訳(メタデータ) (2021-03-02T16:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。