論文の概要: Agent-Based Software Artifact Evaluation
- arxiv url: http://arxiv.org/abs/2602.02235v2
- Date: Tue, 03 Feb 2026 16:08:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 16:18:58.871614
- Title: Agent-Based Software Artifact Evaluation
- Title(参考訳): エージェントによるソフトウェアアーチファクト評価
- Authors: Zhaonan Wu, Yanjie Zhao, Zhenpeng Chen, Zheng Wang, Haoyu Wang,
- Abstract要約: アーティファクト評価は、ソフトウェア工学(SE)研究コミュニティで15年間採用されてきた。
自動アーティファクト評価のための最初のエンドツーエンドエージェントベースのフレームワークであるArtifactCopilotを提案する。
- 参考スコア(独自算出の注目度): 15.526715803442746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artifact evaluation has been adopted in the Software Engineering (SE) research community for 15 years, substantially improving research reproducibility across major SE conferences. However, this success has introduced a growing scalability challenge, as artifact evaluation relies heavily on reviewers' manual execution and debugging, leading to escalating human effort amid rapidly increasing paper submissions. To address this problem, we investigate automated artifact evaluation. We first conduct a preliminary study on artifacts from top-tier SE conferences and identify three key challenges: perceiving execution states, maintaining stable execution environments, and recovering from execution errors. Inspired by these findings, we propose ArtifactCopilot, the first end-to-end agent-based framework for automated artifact evaluation. ArtifactCopilot automates environment construction, instruction execution, and error recovery by combining an execution normalization strategy to ensure environment stability with an artifact evaluation graph that transforms README documents into dependency-aware command graphs, enabling structured execution planning, execution-state tracking, and error recovery. Evaluation on 48 real-world artifacts shows that ArtifactCopilot matches human artifact evaluation outcomes for 85.42% of the artifacts, outperforming Claude Code by 52.09 percentage points, while costing only \$0.091 per artifact on average and requiring zero human intervention for 45 out of 48 artifacts.
- Abstract(参考訳): アーティファクト評価は、ソフトウェア工学(SE)研究コミュニティで15年間採用され、主要なSEカンファレンスにおける研究再現性を大幅に改善した。
しかし、この成功は、アーティファクト評価がレビュアーの手作業による実行とデバッグに大きく依存するため、スケーラビリティが向上する課題をもたらしている。
この問題に対処するため,自動アーティファクト評価について検討する。
まず、最上位のSEカンファレンスのアーティファクトに関する予備的な研究を行い、実行状態の認識、安定した実行環境の維持、実行エラーからの回復という3つの重要な課題を特定します。
これらの知見に触発されて、自動アーティファクト評価のための最初のエンドツーエンドエージェントベースのフレームワークであるArtifactCopilotを提案する。
ArtifactCopilotは、環境構築、命令実行、エラー回復を自動化し、実行正規化戦略を組み合わせて環境安定性を保証し、READMEドキュメントを依存性対応のコマンドグラフに変換するアーティファクト評価グラフと組み合わせ、構造化された実行計画、実行状態追跡、エラー回復を可能にする。
48の現実世界のアーティファクトを評価すると、ArtifactCopilotは85.42%のアーティファクト評価結果と一致し、Claude Codeを52.09ポイント上回った。
関連論文リスト
- The State of Open Science in Software Engineering Research: A Case Study of ICSE Artifacts [2.5705703401045557]
ソフトウェア工学(SE)研究において、複製パッケージの実行可能性と厳密さを包括的に調査する研究は、著しく欠如している。
過去10年間のICSE手続きの一環として,100個の複製パッケージを評価した。
以上の結果から,評価対象となった人工物100品のうち約40%が実行可能であり,そのうち32.5%(40品中13品)が変更することなく実行可能であった。
論文 参考訳(メタデータ) (2026-01-05T12:47:43Z) - Gesture Generation (Still) Needs Improved Human Evaluation Practices: Insights from a Community-Driven State-of-the-Art Benchmark [55.41250396114216]
音声認識による3Dジェスチャー生成における人的評価の実践について検討する。
本稿では,広範に使用されているBEAT2モーションキャプチャーデータセットの詳細な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-11-03T05:17:28Z) - Foundational Automatic Evaluators: Scaling Multi-Task Generative Evaluator Training for Reasoning-Centric Domains [97.5573252172065]
自動推論評価器(FARE)のファミリーを,簡易な反復的リジェクションサンプリング制御による微調整手法で訓練する。
FARE-8Bはより大型のRL訓練評価器に挑戦し、FARE-20Bはオープンソース評価器の新しい標準となる。
推論時リランカとして、FARE-20BはMATH上でのニアオークル性能を達成する。
論文 参考訳(メタデータ) (2025-10-20T17:52:06Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - An LLM-as-Judge Metric for Bridging the Gap with Human Evaluation in SE Tasks [15.820416019287622]
SE-JuryはLLM-as-Ensemble-Judgeの最初の評価基準である。
さまざまなソフトウェアエンジニアリング(SE)ベンチマークでSE-Juryを評価します。
論文 参考訳(メタデータ) (2025-05-27T08:04:34Z) - TRIAD: Automated Traceability Recovery based on Biterm-enhanced
Deduction of Transitive Links among Artifacts [53.92293118080274]
トレーサビリティにより、ステークホルダは、ソフトウェアライフサイクル全体で導入されたソフトウェアアーティファクト間のトレースリンクを抽出し、理解することができます。
ほとんどの場合、Information Retrieval (IR) など、ソフトウェアアーティファクト間のテキストの類似性に依存している。
論文 参考訳(メタデータ) (2023-12-28T06:44:24Z) - Re-Evaluating LiDAR Scene Flow for Autonomous Driving [80.37947791534985]
自己教師型LiDARシーンフローの一般的なベンチマークは、動的動き、非現実的な対応、非現実的なサンプリングパターンの非現実的な速度を持つ。
実世界のデータセットのスイート上で,トップメソッドのスイートを評価する。
学習に重点を置いているにもかかわらず、ほとんどのパフォーマンス向上は前処理と後処理のステップによって引き起こされる。
論文 参考訳(メタデータ) (2023-04-04T22:45:50Z) - Real-Time Visual Feedback to Guide Benchmark Creation: A
Human-and-Metric-in-the-Loop Workflow [22.540665278228975]
NLPのための新しいベンチマーク作成パラダイムであるVAIDAを提案する。
VAIDAは、ベンチマークの慣用性に対処する未調査の顔である、クラウドワーカーを導くことに焦点を当てている。
VAIDAは, クラウドワーカーやアナリストの努力, フラストレーション, 精神的, 時間的要求を減少させる。
論文 参考訳(メタデータ) (2023-02-09T04:43:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。