論文の概要: Rethinking Artifact Evaluation for Software Engineering in the Age of Generative AI
- arxiv url: http://arxiv.org/abs/2604.16306v1
- Date: Mon, 26 Jan 2026 09:36:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 07:23:15.374336
- Title: Rethinking Artifact Evaluation for Software Engineering in the Age of Generative AI
- Title(参考訳): 生成AI時代のソフトウェア工学におけるアーティファクト評価の再考
- Authors: Christoph Treude, Christopher M. Poskitt, Rashina Hoda,
- Abstract要約: 我々は、アーティファクト評価をピアレビューの第一級コンポーネントとして扱うべきであると論じている。
我々は、ピアレビューを注意割当問題とみなし、生成AIが物語の質を厳格なシグナルとして弱め、アーティファクト評価がピアレビュー決定においてより顕著な役割を果たすべきだと論じている。
- 参考スコア(独自算出の注目度): 20.515496306312873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Peer review in software engineering research operates under tight time constraints, while generative AI has substantially reduced the human effort required to produce polished research narratives. Reviewer attention is often spent on aspects of submissions such as writing quality or literature positioning that have become relatively less effort-intensive to address, rather than on evaluating the scientific substance of a paper. At the same time, assessing whether methods are implemented correctly, analyses are sound, and claims are supported by evidence remains effort-intensive and dependent on human expertise. In software engineering research, this substance is frequently embodied in artifacts, including code, data, evidence and analysis samples, and experimental infrastructure. In this position paper, we argue that artifact evaluation should be treated as a first-class component of peer review. We frame peer review as an attention allocation problem, examine how generative AI weakens narrative quality as a signal of rigor, and argue that artifact evaluation should play a more prominent role in peer review decisions.
- Abstract(参考訳): ソフトウェアエンジニアリング研究におけるピアレビューは、厳密な時間制約の下で動作し、生成AIは、洗練された研究物語を作成するのに必要な人的労力を大幅に削減した。
レビュアーの注意は、論文の科学的な物質を評価するよりも、文章の質や文学的な位置付けなど、論文の提出の側面に費やされることが多い。
同時に、手法が正しく実装されているかを評価し、分析は健全であり、証拠によって裏付けられているクレームは、努力が集中的であり、人間の専門性に依存している。
ソフトウェア工学の研究において、この物質は、コード、データ、エビデンスと分析サンプル、実験的なインフラを含むアーティファクトにしばしば組み込まれている。
本稿では,アーティファクト評価をピアレビューの第一級コンポーネントとして扱うべきであると論じる。
我々は、ピアレビューを注意割当問題とみなし、生成AIが物語の質を厳格なシグナルとして弱め、アーティファクト評価がピアレビュー決定においてより顕著な役割を果たすべきだと論じている。
関連論文リスト
- The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - Automatic Reviewers Fail to Detect Faulty Reasoning in Research Papers: A New Counterfactual Evaluation Framework [55.078301794183496]
我々は、高品質なピアレビューを支えるコアレビュースキル、すなわち欠陥のある研究ロジックの検出に注力する。
これは、論文の結果、解釈、クレームの間の内部の一貫性を評価することを含む。
本稿では,このスキルを制御条件下で分離し,テストする,完全自動対物評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-29T08:48:00Z) - The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。
我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文 参考訳(メタデータ) (2025-06-09T18:37:14Z) - Is Your Paper Being Reviewed by an LLM? Benchmarking AI Text Detection in Peer Review [6.20631177269082]
ピアレビュープロセスに対する新たなリスクは、Negligentレビュアーが論文をレビューするために大きな言語モデル(LLM)に依存することだ。
我々は、AIで書かれたピアレビューを、対応する人間のレビューと組み合わせた合計788,984件の包括的データセットを導入する。
我々は、この新たなリソースを使用して、既存の18のAIテキスト検出アルゴリズムが、人間が完全に書いたピアレビューと、最先端のLLMを区別する能力を評価する。
論文 参考訳(メタデータ) (2025-02-26T23:04:05Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [51.26815896167173]
本稿では,3つの相補的な側面からPAMIレビューを総合的に分析する。
我々の分析は、現在のレビューの実践において、独特の組織パターンと永続的なギャップを明らかにします。
最後に、最先端のAI生成レビューの評価は、コヒーレンスと組織の進歩を奨励していることを示している。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Artificial intelligence technologies to support research assessment: A
review [10.203602318836444]
この文献レビューは、記事のテキストから、より高いインパクトやより高い品質の研究に関連する指標を特定する。
論文やカンファレンス論文の引用数や品質スコアを予測するために機械学習技術を使用した研究が含まれている。
論文 参考訳(メタデータ) (2022-12-11T06:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。