論文の概要: REFORMS: Reporting Standards for Machine Learning Based Science
- arxiv url: http://arxiv.org/abs/2308.07832v1
- Date: Tue, 15 Aug 2023 15:21:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 12:22:42.176260
- Title: REFORMS: Reporting Standards for Machine Learning Based Science
- Title(参考訳): REFORMS: 機械学習に基づく科学のレポート標準
- Authors: Sayash Kapoor, Emily Cantrell, Kenny Peng, Thanh Hien Pham,
Christopher A. Bail, Odd Erik Gundersen, Jake M. Hofman, Jessica Hullman,
Michael A. Lones, Momin M. Malik, Priyanka Nanayakkara, Russell A. Poldrack,
Inioluwa Deborah Raji, Michael Roberts, Matthew J. Salganik, Marta
Serra-Garcia, Brandon M. Stewart, Gilles Vandewiele, Arvind Narayanan
- Abstract要約: 我々はREFORMSチェックリスト(textbfRe$porting Standards $textbfM$achine Learning Based $textbfS$cience)を提示する。
32の質問と一組のガイドラインで構成され、コンピュータ科学、データサイエンス、数学、社会科学、生物医学の19人の研究者の合意に基づいている。
- 参考スコア(独自算出の注目度): 24.88056578495702
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning (ML) methods are proliferating in scientific research.
However, the adoption of these methods has been accompanied by failures of
validity, reproducibility, and generalizability. These failures can hinder
scientific progress, lead to false consensus around invalid claims, and
undermine the credibility of ML-based science. ML methods are often applied and
fail in similar ways across disciplines. Motivated by this observation, our
goal is to provide clear reporting standards for ML-based science. Drawing from
an extensive review of past literature, we present the REFORMS checklist
($\textbf{Re}$porting Standards $\textbf{For}$ $\textbf{M}$achine Learning
Based $\textbf{S}$cience). It consists of 32 questions and a paired set of
guidelines. REFORMS was developed based on a consensus of 19 researchers across
computer science, data science, mathematics, social sciences, and biomedical
sciences. REFORMS can serve as a resource for researchers when designing and
implementing a study, for referees when reviewing papers, and for journals when
enforcing standards for transparency and reproducibility.
- Abstract(参考訳): 機械学習(ml)の手法は科学研究で普及している。
しかし、これらの手法の採用には、妥当性、再現性、一般化性の失敗が伴う。
これらの失敗は科学的進歩を阻害し、不正な主張に関する誤った合意を導き、MLベースの科学の信頼性を損なう。
MLメソッドは、しばしば適用され、規律を越えて同様の方法で失敗する。
この観察に動機づけられた私たちの目標は、MLベースの科学の明確な報告標準を提供することです。
過去の文献の広範なレビューから引用して、REFORMSチェックリスト($\textbf{Re}$porting Standards $\textbf{For}$ $\textbf{M}$achine Learning Based $\textbf{S}$cience)を提示する。
32の質問と一組のガイドラインからなる。
REFORMSはコンピュータ科学、データサイエンス、数学、社会科学、生物医学の19人の研究者の合意に基づいて開発された。
研究を設計・実施する研究者、論文をレビューするレビュアー、透明性と再現性に関する基準を施行するジャーナルのリソースとして、改革は役に立ちます。
関連論文リスト
- Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。
計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文 参考訳(メタデータ) (2024-04-01T17:45:15Z) - Can Large Language Models Detect Misinformation in Scientific News
Reporting? [1.0344642971058586]
本稿では,科学的報告における誤情報の検出に大規模言語モデル(LLM)を用いることが可能であるかを検討する。
最初にラベル付きデータセットSciNewsを提示し、信頼できない情報源から抜粋された2.4万の科学ニュース記事を含む。
科学ニュース記事の科学的妥当性の次元を識別し、科学的誤報の自動検出にどのように組み込むかを検討する。
論文 参考訳(メタデータ) (2024-02-22T04:07:00Z) - Best Practices for Text Annotation with Large Language Models [11.421942894219901]
LLM(Large Language Models)は、新しいテキストアノテーションの時代を担っている。
本稿では, 信頼性, 再現性, 倫理的利用に関する包括的基準とベストプラクティスを提案する。
論文 参考訳(メタデータ) (2024-02-05T15:43:50Z) - SciGLM: Training Scientific Language Models with Self-Reflective
Instruction Annotation and Tuning [60.14510984576027]
SciGLMは、大学レベルの科学的推論を行うことができる科学言語モデルのスイートである。
本研究では, 自己回帰的指示アノテーションの枠組みを適用し, 難解な科学的問題に対する段階的推論を生成する。
言語モデルのChatGLMをSciInstructで微調整し、科学的および数学的推論能力を向上した。
論文 参考訳(メタデータ) (2024-01-15T20:22:21Z) - Alignment for Honesty [113.42626737461129]
我々は、正直に整合することの重要性を主張し、言語モデルが知識が欠如している場合に、積極的に質問に答えることを拒否します。
この課題は、メトリクス開発、ベンチマーク作成、トレーニングという観点で包括的なソリューションを必要とする。
正直さを強調する複数の効率的な微調整技術によってさらにインスタンス化されるフレキシブルなトレーニングフレームワークを導入する。
論文 参考訳(メタデータ) (2023-12-12T06:10:42Z) - Empirical evaluation of Uncertainty Quantification in
Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。
我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。
また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文 参考訳(メタデータ) (2023-11-15T20:42:11Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities
of Large Language Models [72.92461995173201]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - Use and Misuse of Machine Learning in Anthropology [0.9786690381850356]
生物学的・文化的な証拠に基づいて人類の進化を理解することを目指す古人類学の分野に焦点をあてる。
本研究の目的は,MLが古人類学に応用されている方法について,簡単な紹介を行うことである。
人類学文献の集積部において,ML手法の正しいプロトコルの一連の誤り,誤り,違反について論じる。
論文 参考訳(メタデータ) (2022-09-06T20:32:24Z) - Leakage and the Reproducibility Crisis in ML-based Science [5.116305213887073]
データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。
教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。
本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
論文 参考訳(メタデータ) (2022-07-14T16:44:59Z) - Fact or Fiction: Verifying Scientific Claims [53.29101835904273]
本稿では,研究文献から,REFUTESやREFUTESが与えられた科学的主張であることを示す証拠を含む抄録を抽出する新たな課題である,科学的クレーム検証を紹介する。
SciFactは、1.4Kの専門家による科学的主張と、ラベルや合理性に注釈を付けたエビデンスを含む抽象概念を組み合わせたデータセットである。
このシステムは,CORD-19コーパスの証拠を同定することにより,新型コロナウイルス関連クレームを検証可能であることを示す。
論文 参考訳(メタデータ) (2020-04-30T17:22:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。