論文の概要: Assessing Reproducibility in Evolutionary Computation: A Case Study using Human- and LLM-based Assessment
- arxiv url: http://arxiv.org/abs/2602.07059v1
- Date: Thu, 05 Feb 2026 08:32:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.410684
- Title: Assessing Reproducibility in Evolutionary Computation: A Case Study using Human- and LLM-based Assessment
- Title(参考訳): 進化計算における再現性の評価--人間とLLMを用いたケーススタディ
- Authors: Francesca Da Ros, Tarik Začiragić, Aske Plaat, Thomas Bäck, Niki van Stein,
- Abstract要約: 本稿では,10年間にわたる進化計算会議(Evolutionary Computation Conference)のY Combinatorial Optimization and Metaheuristics Trackで発表された論文の実践について検討する。
構造化チェックリストを導入し、選択したコーパスの体系的手動評価を通じて適用する。
さらに,紙テキストや関連コードからの信号を自動的に評価するシステムであるRECAP(REproducibility Checklist Automation Pipeline)を提案する。
- 参考スコア(独自算出の注目度): 2.0365636651755263
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reproducibility is an important requirement in evolutionary computation, where results largely depend on computational experiments. In practice, reproducibility relies on how algorithms, experimental protocols, and artifacts are documented and shared. Despite growing awareness, there is still limited empirical evidence on the actual reproducibility levels of published work in the field. In this paper, we study the reproducibility practices in papers published in the Evolutionary Combinatorial Optimization and Metaheuristics track of the Genetic and Evolutionary Computation Conference over a ten-year period. We introduce a structured reproducibility checklist and apply it through a systematic manual assessment of the selected corpus. In addition, we propose RECAP (REproducibility Checklist Automation Pipeline), an LLM-based system that automatically evaluates reproducibility signals from paper text and associated code repositories. Our analysis shows that papers achieve an average completeness score of 0.62, and that 36.90% of them provide additional material beyond the manuscript itself. We demonstrate that automated assessment is feasible: RECAP achieves substantial agreement with human evaluators (Cohen's k of 0.67). Together, these results highlight persistent gaps in reproducibility reporting and suggest that automated tools can effectively support large-scale, systematic monitoring of reproducibility practices.
- Abstract(参考訳): 再現性は進化計算において重要な要件であり、その結果は計算実験に大きく依存する。
実際には、再現性はアルゴリズム、実験プロトコル、アーティファクトの文書化と共有の方法に依存している。
認知度は高まるが、この分野における出版作品の再現性に関する実証的証拠は依然として限られている。
本稿では,10年間にわたる遺伝子・進化計算会議における進化的組合せ最適化とメタヒューリスティックストラックに掲載されている論文の再現性について検討する。
構造化された再現性チェックリストを導入し、選択したコーパスの体系的手動評価を通じて適用する。
さらに,ペーパーテキストや関連コードリポジトリから再現性信号を自動的に評価するLLMベースのRECAP(reproducibility Checklist Automation Pipeline)を提案する。
分析の結果,論文の平均完全度スコアは0.62であり,その36.90%が原稿以外の資料を提供していることがわかった。
RECAPは人間の評価者(コーエンk0.67)とかなりの合意を達成します。
これらの結果は再現性レポートの持続的なギャップを浮き彫りにし、自動化ツールが再現性プラクティスの大規模かつ体系的なモニタリングを効果的にサポートすることを示唆している。
関連論文リスト
- Large Language Models for Software Engineering: A Reproducibility Crisis [4.730658148470817]
本稿では,大規模言語モデル(LLM)に基づくソフトウェア工学研究における実践の大規模かつ実証的研究について述べる。
2017年から2025年の間に発行された640の論文を、ソフトウェアエンジニアリング、機械学習、自然言語処理の会場で体系的に掘り下げて分析しました。
分析の結果、アーティファクトの可用性、環境仕様、バージョニングの厳格さ、ドキュメントの明確さの持続的なギャップが明らかになりました。
論文 参考訳(メタデータ) (2025-11-29T22:16:47Z) - AutoMalDesc: Large-Scale Script Analysis for Cyber Threat Research [81.04845910798387]
脅威検出のための自然言語の説明を生成することは、サイバーセキュリティ研究において未解決の問題である。
本稿では,大規模に独立して動作する自動静的解析要約フレームワークAutoMalDescを紹介する。
アノテーション付きシード(0.9K)データセットや方法論,評価フレームワークなど,100万以上のスクリプトサンプルの完全なデータセットを公開しています。
論文 参考訳(メタデータ) (2025-11-17T13:05:25Z) - NAIPv2: Debiased Pairwise Learning for Efficient Paper Quality Estimation [58.30936615525824]
本稿では,紙の品質評価のための非バイアスで効率的なフレームワークであるNAIPv2を提案する。
NAIPv2は、レビューアレーティングの不整合を低減するために、ドメイン年グループ内でペアワイズ学習を採用している。
これはペアワイズ比較に基づいてトレーニングされるが、デプロイ時に効率的なポイントワイズ予測を可能にする。
論文 参考訳(メタデータ) (2025-09-29T17:59:23Z) - CRACQ: A Multi-Dimensional Approach To Automated Document Assessment [0.0]
CRACQは、コヒーレンス、リゴール、適切性、完全性、品質といった、f i v e特有の特性で文書を評価するのに適した多次元評価フレームワークである。
言語的、意味的、構造的なシグナルを累積評価に統合し、全体的および特性レベルの分析を可能にする。
論文 参考訳(メタデータ) (2025-09-26T17:01:54Z) - Automatic Classification of User Requirements from Online Feedback -- A Replication Study [0.0]
我々は、ユーザレビューから要件分類のための異なるディープラーニングモデルを評価する、以前のNLP4RE研究(ベースライン)を再現する。
公開ソースコードを用いて元の結果を再現し,ベースライン研究の外部的妥当性を高めるのに役立てた。
その結果,ベースラインディープラーニングモデルであるBERTとELMoが外部データセットに優れた性能を示し,GPT-4oは従来のベースライン機械学習モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2025-07-29T06:52:27Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - On the Effectiveness of Automated Metrics for Text Generation Systems [4.661309379738428]
本稿では,不完全な自動計測や不十分な大きさのテストセットなど,不確実性の原因を取り入れた理論を提案する。
この理論には、テキスト生成システムの一連の性能を確実に区別するために必要なサンプル数を決定するなど、実用的な応用がある。
論文 参考訳(メタデータ) (2022-10-24T08:15:28Z) - Predicting the Reproducibility of Social and Behavioral Science Papers
Using Supervised Learning Models [21.69933721765681]
本論文では,学術研究から5種類の特徴を抽出し,公開研究クレームの評価を支援するフレームワークを提案する。
個々の特徴と人間評価の基底真理ラベルのセットを予測するための重要性のペアワイズ相関を分析します。
論文 参考訳(メタデータ) (2021-04-08T00:45:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。