論文の概要: Containing the Reproducibility Gap: Automated Repository-Level Containerization for Scholarly Jupyter Notebooks
- arxiv url: http://arxiv.org/abs/2604.01072v1
- Date: Wed, 01 Apr 2026 16:07:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.076649
- Title: Containing the Reproducibility Gap: Automated Repository-Level Containerization for Scholarly Jupyter Notebooks
- Title(参考訳): Reproducibility Gap:Scholarly Jupyterノートの自動レポジトリレベルコンテナ化
- Authors: Sheeba Samuel, Daniel Mietchen, Hemanta Lo, Martin Gaedke,
- Abstract要約: 環境の漂流、文書化されていない依存関係、暗黙的な実行仮定は、出版された研究の独立した再実行を妨げる。
学術ノートのリポジトリレベルの実行環境を再構築し,評価する,Web指向の自動化型エンジニアリングパイプラインを提案する。
システムは依存性推論、コンテナの自動生成、ノートブックのオリジナルの計算コンテキストを近似するために独立した実行を実行する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational reproducibility is fundamental to trustworthy science, yet remains difficult to achieve in practice across various research workflows, including Jupyter notebooks published alongside scholarly articles. Environment drift, undocumented dependencies and implicit execution assumptions frequently prevent independent re-execution of published research. Despite existing reproducibility guidelines, scalable and systematic infrastructure for automated assessment remains limited. We present an automated, web-oriented reproducibility engineering pipeline that reconstructs and evaluates repository-level execution environments for scholarly notebooks. The system performs dependency inference, automated container generation, and isolated execution to approximate the notebook's original computational context. We evaluate the approach on 443 notebooks from 116 GitHub repositories referenced by publications in PubMed Central. Execution outcomes are classified into four categories: resolved environment failures, persistent logic or data errors, reproducibility drift, and container-induced regressions. Our results show that containerization resolves 66.7% of prior dependency-related failures and substantially improves execution robustness. However, a significant reproducibility gap remains: 53.7% of notebooks exhibit low output fidelity, largely due to persistent runtime failures and stochastic non-determinism. These findings indicate that standardized containerization is essential for computational stability but insufficient for full bit-wise reproducibility. The framework offers a scalable solution for researchers, editors, and archivists seeking systematic, automated assessment of computational artifacts.
- Abstract(参考訳): 計算再現性は信頼できる科学の基本であるが、学術論文とともに出版されたJupyterノートなど、様々な研究ワークフローで実際に達成することは困難である。
環境ドリフト、文書化されていない依存関係、暗黙的な実行仮定は、しばしば公表された研究の独立した再実行を妨げる。
既存の再現性ガイドラインにもかかわらず、自動化評価のためのスケーラブルで体系的なインフラは依然として限られている。
本稿では,学術ノートのリポジトリレベルの実行環境を再構築し,評価するWeb指向の再現性エンジニアリングパイプラインを提案する。
このシステムは、ノートブックのオリジナルの計算コンテキストを近似するために、依存性推論、コンテナの自動生成、分離された実行を実行する。
PubMed Centralのパブリッシュによって参照された116のGitHubリポジトリから443のノートブックに対するアプローチを評価した。
実行結果は、解決された環境障害、永続的なロジックまたはデータエラー、再現性ドリフト、コンテナによる回帰の4つのカテゴリに分類される。
コンテナ化は,従来の依存性関連障害の66.7%を解消し,実行の堅牢性を大幅に向上することを示す。
53.7%のノートブックは、持続的な実行障害と確率論的非決定主義のために、出力忠実度が低い。
これらの結果は、標準化されたコンテナ化は計算安定性には不可欠であるが、完全なビットワイド再現性には不十分であることを示している。
このフレームワークは、研究者、編集者、考古学者に、計算成果物の体系的かつ自動化された評価を求めるスケーラブルなソリューションを提供する。
関連論文リスト
- Dynamic analysis enhances issue resolution [53.50448142467294]
DAIRA(Dynamic Analysis-enhanced Issue Resolution Agent)は、エージェントの推論サイクルに動的解析を組み込む自動修復フレームワークである。
テストトレース駆動の方法論によって駆動されるDAIRAは、軽量モニタを使用して重要なランタイムデータを抽出する。
Gemini 3 Flash Previewを使用すると、DAIRAは新たな最先端(SOTA)パフォーマンスを確立し、SWE-bench Verifiedデータセットで79.4%の解像度を達成する。
論文 参考訳(メタデータ) (2026-03-23T14:48:54Z) - Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications [51.56484100374058]
我々は,エビデンスに基づくリリース決定を伴う品質ゲートを導入する自動自己テストフレームワークを提案する。
内部展開型多エージェント対話型AIシステムの縦型ケーススタディにより,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-13T20:44:15Z) - PaperRepro: Automated Computational Reproducibility Assessment for Social Science Papers [33.12402746591649]
PaperReproは、自動評価のための新しい2段階のマルチエージェントアプローチである。
実行段階では、エージェントが複製パッケージを実行し、コードを編集して再生結果を明示的な成果物としてキャプチャする。
評価段階では、エージェントは明確な証拠を用いてエージェントを評価する。
論文 参考訳(メタデータ) (2026-02-10T09:04:59Z) - NL2Repo-Bench: Towards Long-Horizon Repository Generation Evaluation of Coding Agents [79.29376673236142]
既存のベンチマークは、完全なソフトウェアシステムを構築するのに必要な長期的能力の厳格な評価に失敗する。
符号化エージェントの長期リポジトリ生成能力を評価するために設計されたベンチマークであるNL2Repo Benchを提案する。
論文 参考訳(メタデータ) (2025-12-14T15:12:13Z) - RARE: Retrieval-Aware Robustness Evaluation for Retrieval-Augmented Generation Systems [33.389969814185214]
Retrieval-Augmented Generation (RAG)は、回答の正確性と事実性を高める。
既存の評価では、RAGシステムが現実世界のノイズ、内部と外部の取得したコンテキストの衝突、あるいは急速に変化する事実にどれくらいうまく対処しているかを検査することはめったにない。
本稿では,動的で時間に敏感なコーパス上でのストレステストクエリと文書摂動を共同で行う,統一されたフレームワークと大規模ベンチマークであるRetrieval-Aware Robustness Evaluation (RARE)を紹介する。
論文 参考訳(メタデータ) (2025-06-01T02:42:36Z) - Computational Reproducibility of R Code Supplements on OSF [0.0]
多くのコードサプリメントは、計算環境を再現するために必要なドキュメントを欠いている。
本研究では,StatCodeSearchデータセットを用いて296のRプロジェクトの計算結果を評価する。
プロジェクトソースコードから直接計算環境を再構築する自動パイプラインを開発した。
論文 参考訳(メタデータ) (2025-05-27T13:06:38Z) - AutoReproduce: Automatic AI Experiment Reproduction with Paper Lineage [62.049868205196425]
AutoReproduceは、研究論文に記載された実験をエンドツーエンドで自動再生できるフレームワークである。
結果は、AutoReproduceが平均的なパフォーマンスギャップを22.1%$で達成していることを示している。
論文 参考訳(メタデータ) (2025-05-27T03:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。