論文の概要: Artisan: Agentic Artifact Evaluation
- arxiv url: http://arxiv.org/abs/2602.10046v1
- Date: Tue, 10 Feb 2026 18:15:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.735978
- Title: Artisan: Agentic Artifact Evaluation
- Title(参考訳): Artisan: エージェントアーティファクト評価
- Authors: Doehyun Baek, Michael Pradel,
- Abstract要約: アーティファクト評価は、研究結果の正確性を保証するために、ソフトウェアエンジニアリングコミュニティで標準的な実践となっている。
研究成果を再現する自動LLMエージェントArtisanとそのアーティファクトについて紹介する。
- 参考スコア(独自算出の注目度): 14.265317773238529
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artifact evaluation has become standard practice in the software engineering community to ensure the reproducibility of research results. However, the current manual process is labor-intensive, and hence, done only as a one-time assessment for a subset of all papers. To support the artifact evaluation effort, we present Artisan, an automated LLM agent for reproducing research results given a paper and its artifact. The approach is enabled by two key contributions: First, we frame the reproduction problem as a code generation task where the goal is to generate a reproduction script that, when executed, reproduces the results reported in a paper. Unlike prior work on automatically reproducing research results in other domains, this formulation allows for running the script independently of the agent and for assessing the reproduction process at a fine-grained level. Second, we design automated judging mechanism that guides the agent toward the expected results without revealing them and that prevent trivial solutions, such as simply copying checked-in results. To evaluate Artisan, we introduce Artisan-Bench, the first benchmark assessing the ability to generate reproduction scripts and the first benchmark for automated artifact evaluation in software engineering. Artisan-Bench comprises 60 tasks derived from 23 software engineering papers, covering different research areas and programming languages. We validate all tasks in Artisan-Bench for reproducibility to ensure that the tasks are feasible. Our experiments show that Artisan is effective, producing 44/60 reproduction scripts and outperforming the best available baseline, a vanilla LLM agent (mini-swe-agent), by 3.14$\times$ in terms of reproduction scripts generated while taking $0.45 and 48 minutes, on average per task. Artisan also helped uncover 20 new errors in either the paper or artifact.
- Abstract(参考訳): 成果の再現性を確保するため、ソフトウェアエンジニアリングコミュニティでは、成果評価が標準的な実践となっている。
しかしながら、現在のマニュアルプロセスは労働集約的であり、すべての論文のサブセットに対する1回評価としてのみ行われる。
人工物評価の取り組みを支援するため,論文とその成果物から研究成果を再現する自動LLMエージェントArtisanを提案する。
まず、再生問題はコード生成タスクであり、そこでゴールは再生スクリプトを生成することであり、それが実行されると、論文に報告された結果が再現される。
他のドメインで研究結果を自動再生する以前の作業とは異なり、この定式化は、エージェントから独立してスクリプトを実行し、再現プロセスをきめ細かいレベルで評価することを可能にする。
第2に,エージェントが期待する結果へ誘導する自動判定機構を設計し,チェックイン結果のコピーなど自明な解決策を未然に防止する。
Artisan-Benchは,再現スクリプトを生成する能力を評価する最初のベンチマークであり,ソフトウェア工学における自動アーティファクト評価のための最初のベンチマークである。
Artisan-Benchは、23のソフトウェアエンジニアリング論文から派生した60のタスクで構成され、異なる研究領域とプログラミング言語をカバーする。
再現性を確保するため,Artisan-Benchのすべてのタスクを検証する。
実験の結果、Artisanは44/60の再生スクリプトを生成し、最高のベースラインであるバニラLSMエージェント(mini-swe-agent)を平均0.45および48分で生成した再生スクリプトの3.14$\times$で上回っていることがわかった。
アーティザンはまた、紙かアーティファクトの20の誤りの発見にも協力した。
関連論文リスト
- Agent-Based Software Artifact Evaluation [15.526715803442746]
アーティファクト評価は、ソフトウェア工学(SE)研究コミュニティで15年間採用されてきた。
自動アーティファクト評価のための最初のエンドツーエンドエージェントベースのフレームワークであるArtifactCopilotを提案する。
論文 参考訳(メタデータ) (2026-02-02T15:41:16Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - From Reproduction to Replication: Evaluating Research Agents with Progressive Code Masking [48.90371827091671]
AutoExperimentは、AIエージェントの機械学習実験の実装と実行能力を評価するベンチマークである。
我々は最先端のエージェントを評価し、n$が増加するにつれて性能が急速に低下することを発見した。
本研究は、長期コード生成、文脈検索、自律的な実験実行における重要な課題を浮き彫りにした。
論文 参考訳(メタデータ) (2025-06-24T15:39:20Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - FieldWorkArena: Agentic AI Benchmark for Real Field Work Tasks [52.47895046206854]
FieldWorkArenaは、現実世界のフィールドワークをターゲットにしたエージェントAIのベンチマークである。
本稿では、エージェントAIが現実世界の作業環境ベンチマークのために持つべき新しいアクション空間を定義する。
論文 参考訳(メタデータ) (2025-05-26T08:21:46Z) - PaperBench: Evaluating AI's Ability to Replicate AI Research [3.4567792239799133]
PaperBenchは、AIエージェントが最先端のAI研究を複製する能力を評価するベンチマークである。
エージェントは、スクラッチから20個のICML 2024 SpotlightとOralの文書を複製する必要がある。
PaperBenchには8,316の個別の段階的なタスクが含まれている。
論文 参考訳(メタデータ) (2025-04-02T15:55:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。