論文の概要: The State of Open Science in Software Engineering Research: A Case Study of ICSE Artifacts
- arxiv url: http://arxiv.org/abs/2601.02066v1
- Date: Mon, 05 Jan 2026 12:47:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.12707
- Title: The State of Open Science in Software Engineering Research: A Case Study of ICSE Artifacts
- Title(参考訳): ソフトウェア工学研究におけるオープンサイエンスの現状:ICSEアーティファクトを事例として
- Authors: Al Muttakin, Saikat Mondal, Chanchal Roy,
- Abstract要約: ソフトウェア工学(SE)研究において、複製パッケージの実行可能性と厳密さを包括的に調査する研究は、著しく欠如している。
過去10年間のICSE手続きの一環として,100個の複製パッケージを評価した。
以上の結果から,評価対象となった人工物100品のうち約40%が実行可能であり,そのうち32.5%(40品中13品)が変更することなく実行可能であった。
- 参考スコア(独自算出の注目度): 2.5705703401045557
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Replication packages are crucial for enabling transparency, validation, and reuse in software engineering (SE) research. While artifact sharing is now a standard practice and even expected at premier SE venues such as ICSE, the practical usability of these replication packages remains underexplored. In particular, there is a marked lack of studies that comprehensively examine the executability and reproducibility of replication packages in SE research. In this paper, we aim to fill this gap by evaluating 100 replication packages published as part of ICSE proceedings over the past decade (2015--2024). We assess the (1) executability of the replication packages, (2) efforts and modifications required to execute them, (3) challenges that prevent executability, and (4) reproducibility of the original findings. We spent approximately 650 person-hours in total executing the artifacts and reproducing the study findings. Our findings reveal that only 40\% of the 100 evaluated artifacts were executable, of which 32.5\% (13 out of 40) ran without any modification. Regarding effort levels, 17.5\% (7 out of 40) required low effort, while 82.5\% (33 out of 40) required moderate to high effort to execute successfully. We identified five common types of modifications and 13 challenges leading to execution failure, spanning environmental, documentation, and structural issues. Among the executable artifacts, only 35\% (14 out of 40) reproduced the original results. These findings highlight a notable gap between artifact availability, executability, and reproducibility. Our study proposes three actionable guidelines to improve the preparation, documentation, and review of research artifacts, thereby strengthening the rigor and sustainability of open science practices in SE research.
- Abstract(参考訳): 複製パッケージは、ソフトウェア工学(SE)研究における透明性、検証、再利用を可能にするために不可欠である。
現在、アーティファクト共有は標準のプラクティスであり、ICSEのようなプレミアSEの会場でも期待されているが、これらの複製パッケージの実用的使用性はまだ未定である。
特に、SE研究における複製パッケージの実行可能性と再現性について包括的に調べる研究は、顕著に欠落している。
本稿では,過去10年(2015年~2024年)にICSE手続きの一環として発行された複製パッケージ100個を評価することで,このギャップを埋めることを目的とする。
本研究では,(1)複製パッケージの実行可能性,(2)複製パッケージの実行に必要な取り組みと修正,(3)実行可能性を妨げる課題,(4)元の結果の再現性を評価する。
約650時間かけて人工物の実行と研究結果の再現に費やした。
その結果, 評価された100のアーティファクトのうち40 %のみが実行可能であり, そのうち32.5 % (40 件中13 件) は変更せずに実行可能であった。
作業レベルについては、17.5\%(40点中7点)が低作業、82.5\%(40点中33点)が高作業と高作業を必要とした。
一般的な5つのタイプの修正と13の課題を特定し、実行の失敗、環境、ドキュメント、構造上の問題に対処しました。
実行可能なアーティファクトのうち、元の成果を再現したのは35\%(40点中14点)しかなかった。
これらの発見は、アーティファクトの可用性、実行可能性、再現性の間の顕著なギャップを浮き彫りにした。
本研究は,SE研究におけるオープンサイエンス実践の厳格さと持続可能性を高めるために,研究成果の準備,資料,レビューを改善するための3つの実行可能なガイドラインを提案する。
関連論文リスト
- Chasing Shadows: Pitfalls in LLM Security Research [14.334369124449346]
大型言語モデル(LLM)の出現に関連する9つの共通の落とし穴を同定する。
これらの落とし穴は、データ収集、事前トレーニング、微調整から、プロンプトと評価まで、プロセス全体にわたっています。
各紙には少なくとも1つの落とし穴があり、各落とし穴は複数の論文に現れている。しかし、現在の落とし穴の15.7%しか明示的に議論されておらず、大多数は認識されていないことを示唆している。
論文 参考訳(メタデータ) (2025-12-10T11:39:09Z) - Large Language Models for Software Engineering: A Reproducibility Crisis [4.730658148470817]
本稿では,大規模言語モデル(LLM)に基づくソフトウェア工学研究における実践の大規模かつ実証的研究について述べる。
2017年から2025年の間に発行された640の論文を、ソフトウェアエンジニアリング、機械学習、自然言語処理の会場で体系的に掘り下げて分析しました。
分析の結果、アーティファクトの可用性、環境仕様、バージョニングの厳格さ、ドキュメントの明確さの持続的なギャップが明らかになりました。
論文 参考訳(メタデータ) (2025-11-29T22:16:47Z) - BrowseComp-Plus: A More Fair and Transparent Evaluation Benchmark of Deep-Research Agent [74.10138164281618]
BrowseComp-Plus(BrowseComp-Plus)は、BrowseCompから派生したベンチマークである。
このベンチマークは、ディープリサーチエージェントと検索方法の総合的な評価とアンタングル解析を可能にする。
論文 参考訳(メタデータ) (2025-08-08T17:55:11Z) - Research Artifacts in Secondary Studies: A Systematic Mapping in Software Engineering [0.9421843976231371]
システムレビュー(SR)は、ソフトウェア工学(SE)を含む科学における最先端の証拠をまとめたものである。
2013年から2023年にかけて発行された537件の二次研究を調査し,研究成果の公開状況と報告状況について検討した。
論文 参考訳(メタデータ) (2025-04-17T05:11:39Z) - On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations [58.60617136236957]
ディープ・強化学習(Deep Reinforcement Learning, DRL)とは、エージェントがニューラルネットワークを使って特定の環境でどのアクションをとるかを学ぶ人工知能のパラダイムである。
DRLは最近、ドライビングシミュレーター、3Dロボット制御、マルチプレイヤー・オンライン・バトル・アリーナ・ビデオゲームといった複雑な環境を解くことで注目を集めている。
現在、Deep Q-Network (DQN) や Proximal Policy Optimization (PPO) アルゴリズムのような、これらのエージェントを訓練する最先端のアルゴリズムの実装が数多く存在する。
論文 参考訳(メタデータ) (2025-03-28T16:25:06Z) - O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。
我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。
本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:13:01Z) - SUPER: Evaluating Agents on Setting Up and Executing Tasks from Research Repositories [55.161075901665946]
Superは、機械学習(ML)と自然言語処理(NLP)の研究リポジトリを扱う研究者が直面する現実的な課題を捉えることを目的としている。
本ベンチマークでは,注釈付きエキスパートソリューションを用いたエンドツーエンド問題45,特定の課題に焦点をあてたエキスパートソリューションから導いた152,大規模開発のための602の問題を自動生成する。
我々は、最先端のアプローチが、最良のモデル(GPT-4o)でこれらの問題を解決するのに苦労していることを示し、エンド・ツー・エンドの16.3%と46.1%のシナリオを解決した。
論文 参考訳(メタデータ) (2024-09-11T17:37:48Z) - ICDAR 2023 Competition on Structured Text Extraction from Visually-Rich
Document Images [198.35937007558078]
大会は2022年12月30日に開かれ、2023年3月24日に閉幕した。
トラック1には35人の参加者と91人の有効な応募があり、トラック2には15人の参加者と26人の応募がある。
提案手法の性能によると, 複雑なシナリオやゼロショットシナリオにおいて, 期待される情報抽出性能にはまだ大きなギャップがあると考えられる。
論文 参考訳(メタデータ) (2023-06-05T22:20:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。