論文の概要: The Unreasonable Effectiveness of Open Science in AI: A Replication Study
- arxiv url: http://arxiv.org/abs/2412.17859v1
- Date: Fri, 20 Dec 2024 12:33:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:56:58.600531
- Title: The Unreasonable Effectiveness of Open Science in AI: A Replication Study
- Title(参考訳): AIにおけるオープンサイエンスの理不尽な有効性 : レプリケーションスタディ
- Authors: Odd Erik Gundersen, Odd Cappelen, Martin Mølnå, Nicklas Grimstad Nilsen,
- Abstract要約: 科学では危機が報告されているが、それがAI研究に与える影響は、まだ完全には理解されていない。
我々は,原材料に依存した高度に引用された30のAI研究を含む,体系的な複製研究を行った。
6項目が再現され、5項目が部分的に再現された。
- 参考スコア(独自算出の注目度): 1.991176263126831
- License:
- Abstract: A reproducibility crisis has been reported in science, but the extent to which it affects AI research is not yet fully understood. Therefore, we performed a systematic replication study including 30 highly cited AI studies relying on original materials when available. In the end, eight articles were rejected because they required access to data or hardware that was practically impossible to acquire as part of the project. Six articles were successfully reproduced, while five were partially reproduced. In total, 50% of the articles included was reproduced to some extent. The availability of code and data correlate strongly with reproducibility, as 86% of articles that shared code and data were fully or partly reproduced, while this was true for 33% of articles that shared only data. The quality of the data documentation correlates with successful replication. Poorly documented or miss-specified data will probably result in unsuccessful replication. Surprisingly, the quality of the code documentation does not correlate with successful replication. Whether the code is poorly documented, partially missing, or not versioned is not important for successful replication, as long as the code is shared. This study emphasizes the effectiveness of open science and the importance of properly documenting data work.
- Abstract(参考訳): 再現性の危機が科学で報告されているが、それがAI研究に影響を与える範囲はまだ完全には分かっていない。
そこで本研究では,原材料に依存した高度に引用された30のAI研究を含む,体系的な複製研究を行った。
結局、8つの記事が却下されたのは、プロジェクトの一部として入手が事実上不可能なデータやハードウェアへのアクセスが必要だったためである。
6項目が再現され、5項目が部分的に再現された。
総数の50%はある程度再生された。
コードとデータの可用性は再現性と強く相関しており、コードとデータを共有する記事の86%が完全にあるいは部分的に複製されているのに対して、データのみを共有する記事の33%はそうである。
データドキュメンテーションの品質は、レプリケーションの成功と相関する。
ドキュメントやミス指定の少ないデータは、おそらく複製に失敗するでしょう。
驚いたことに、コードドキュメンテーションの品質は、レプリケーションの成功と相関しない。
コードが文書化されていないか、部分的に欠けているか、あるいはバージョン管理されていないかは、コードが共有されている限り、レプリケーションを成功させるには重要ではない。
本研究は,オープンサイエンスの有効性とデータワークを適切に文書化することの重要性を強調する。
関連論文リスト
- O1 Replication Journey: A Strategic Progress Report -- Part 1 [52.062216849476776]
本稿では,O1 Replication Journeyに具体化された人工知能研究の先駆的アプローチを紹介する。
我々の方法論は、長期化したチームベースのプロジェクトの不規則性を含む、現代のAI研究における重要な課題に対処する。
本稿では,モデルにショートカットだけでなく,完全な探索プロセスの学習を促す旅行学習パラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-08T15:13:01Z) - CopyBench: Measuring Literal and Non-Literal Reproduction of Copyright-Protected Text in Language Model Generation [132.00910067533982]
LM世代におけるリテラルコピーと非リテラルコピーの両方を測定するために設計されたベンチマークであるCopyBenchを紹介する。
リテラル複写は比較的稀であるが、イベント複写と文字複写という2種類の非リテラル複写は、7Bパラメータのモデルでも発生する。
論文 参考訳(メタデータ) (2024-07-09T17:58:18Z) - Examining Ownership Models in Software Teams: A Systematic Literature Review and a Replication Study [2.0891120283967264]
2005年から2022年にかけて発行された79の関連論文を特定した。
我々は、タイプ、所有者、所有権度に基づく所有権のアーティファクトの分類を開発する。
論文 参考訳(メタデータ) (2024-05-24T16:03:22Z) - Automatically Finding and Categorizing Replication Studies [0.0]
多くの実験科学分野において、複製に失敗した論文は、複製研究の発見可能性の低さから引用され続けている。
論文の複製研究を自動的に行うシステムを構築する第一歩として、334の複製研究と344の複製研究が集められた。
論文 参考訳(メタデータ) (2023-11-25T15:27:10Z) - Replication: Contrastive Learning and Data Augmentation in Traffic
Classification Using a Flowpic Input Representation [47.95762911696397]
同じデータセット上で[16]を再現し、3つの追加の公開データセット上で最も健全なアスペクト(データ拡張の重要性)を複製します。
元の結果のほとんどを確認できたが、元のデータセットにデータシフトがあったため、調査されたシナリオの20%の精度低下が判明した。
論文 参考訳(メタデータ) (2023-09-18T12:55:09Z) - In-class Data Analysis Replications: Teaching Students while Testing Science [16.951059542542843]
本研究では,EPFLで教えられた応用データ分析コースのプロジェクトコンポーネントにデータ解析の複製を組み込んだ。
学生がデータ分析の複製を期待していることと、彼らが経験したこととの間には相違点がある。
我々は,学術コミュニティにおけるクラス内データ分析レプリケーションの有意義なメリットを同定する。
論文 参考訳(メタデータ) (2023-08-31T06:53:22Z) - A Study on Reproducibility and Replicability of Table Structure
Recognition Methods [3.8366337377024298]
テーブル構造認識(TSR)における16論文のコーパスと複製性について検討する。
研究対象は16論文中4論文のみである。
新しいデータセットを使って複製可能な紙は見当たらない。
論文 参考訳(メタデータ) (2023-04-20T16:30:58Z) - Black-box Dataset Ownership Verification via Backdoor Watermarking [67.69308278379957]
我々は、リリースデータセットの保護を、(目立たしい)サードパーティモデルのトレーニングに採用されているかどうかの検証として定式化する。
バックドアの透かしを通じて外部パターンを埋め込んでオーナシップの検証を行い,保護することを提案する。
具体的には、有毒なバックドア攻撃(例えばBadNets)をデータセットのウォーターマーキングに利用し、データセット検証のための仮説テストガイダンスメソッドを設計する。
論文 参考訳(メタデータ) (2022-08-04T05:32:20Z) - Long-term Reproducibility for Neural Architecture Search [4.301276597844756]
バグ修正やメンテナンスには学術的な「工道」は存在しない。
多くの場合、コードは利用できないか、もし利用可能であればバグを含んでいるか、不完全なか、あるいは時代遅れ/時代遅れのライブラリに依存している。
論文 参考訳(メタデータ) (2022-07-11T12:40:26Z) - Enhancing Scientific Papers Summarization with Citation Graph [78.65955304229863]
引用グラフを用いて科学論文の要約作業を再定義します。
我々は,141kの研究論文を異なる領域に格納した,新しい科学論文要約データセットセマンティックスタディネットワーク(ssn)を構築した。
我々のモデルは、事前訓練されたモデルと比較して競争性能を達成することができる。
論文 参考訳(メタデータ) (2021-04-07T11:13:35Z) - Can We Automate Scientific Reviewing? [89.50052670307434]
我々は、最先端自然言語処理(NLP)モデルを用いて、科学論文の第一パスピアレビューを生成する可能性について論じる。
我々は、機械学習領域で論文のデータセットを収集し、各レビューでカバーされているさまざまなコンテンツに注釈を付け、レビューを生成するために論文を取り込み、ターゲットの要約モデルを訓練する。
総合的な実験結果から、システム生成レビューは、人間によるレビューよりも、論文の多くの側面に触れる傾向にあることが示された。
論文 参考訳(メタデータ) (2021-01-30T07:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。