Fugu-MT 論文翻訳(概要): REFORMS: Reporting Standards for Machine Learning Based Science

論文の概要: REFORMS: Reporting Standards for Machine Learning Based Science

arxiv url: http://arxiv.org/abs/2308.07832v1
Date: Tue, 15 Aug 2023 15:21:36 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-16 12:22:42.176260
Title: REFORMS: Reporting Standards for Machine Learning Based Science
Title（参考訳）: REFORMS: 機械学習に基づく科学のレポート標準
Authors: Sayash Kapoor, Emily Cantrell, Kenny Peng, Thanh Hien Pham, Christopher A. Bail, Odd Erik Gundersen, Jake M. Hofman, Jessica Hullman, Michael A. Lones, Momin M. Malik, Priyanka Nanayakkara, Russell A. Poldrack, Inioluwa Deborah Raji, Michael Roberts, Matthew J. Salganik, Marta Serra-Garcia, Brandon M. Stewart, Gilles Vandewiele, Arvind Narayanan
Abstract要約: 我々はREFORMSチェックリスト(textbfRe$porting Standards $textbfM$achine Learning Based $textbfS$cience)を提示する。 32の質問と一組のガイドラインで構成され、コンピュータ科学、データサイエンス、数学、社会科学、生物医学の19人の研究者の合意に基づいている。
参考スコア（独自算出の注目度）: 24.88056578495702
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Machine learning (ML) methods are proliferating in scientific research. However, the adoption of these methods has been accompanied by failures of validity, reproducibility, and generalizability. These failures can hinder scientific progress, lead to false consensus around invalid claims, and undermine the credibility of ML-based science. ML methods are often applied and fail in similar ways across disciplines. Motivated by this observation, our goal is to provide clear reporting standards for ML-based science. Drawing from an extensive review of past literature, we present the REFORMS checklist ($\textbf{Re}$porting Standards $\textbf{For}$ $\textbf{M}$achine Learning Based $\textbf{S}$cience). It consists of 32 questions and a paired set of guidelines. REFORMS was developed based on a consensus of 19 researchers across computer science, data science, mathematics, social sciences, and biomedical sciences. REFORMS can serve as a resource for researchers when designing and implementing a study, for referees when reviewing papers, and for journals when enforcing standards for transparency and reproducibility.
Abstract（参考訳）: 機械学習(ml)の手法は科学研究で普及している。しかし、これらの手法の採用には、妥当性、再現性、一般化性の失敗が伴う。これらの失敗は科学的進歩を阻害し、不正な主張に関する誤った合意を導き、MLベースの科学の信頼性を損なう。 MLメソッドは、しばしば適用され、規律を越えて同様の方法で失敗する。この観察に動機づけられた私たちの目標は、MLベースの科学の明確な報告標準を提供することです。過去の文献の広範なレビューから引用して、REFORMSチェックリスト($\textbf{Re}$porting Standards $\textbf{For}$ $\textbf{M}$achine Learning Based $\textbf{S}$cience)を提示する。 32の質問と一組のガイドラインからなる。 REFORMSはコンピュータ科学、データサイエンス、数学、社会科学、生物医学の19人の研究者の合意に基づいて開発された。研究を設計・実施する研究者、論文をレビューするレビュアー、透明性と再現性に関する基準を施行するジャーナルのリソースとして、改革は役に立ちます。

関連論文リスト

Scientific Paper Retrieval with LLM-Guided Semantic-Based Ranking [32.40639079110799]
SemRankは効率的かつ効率的な紙検索フレームワークである。クエリ理解と概念ベースのセマンティックインデックスを組み合わせる。実験の結果、SemRankは様々なベースレトリバーの性能を一貫して改善していることがわかった。
論文参考訳（メタデータ） (2025-05-27T22:49:18Z)
LLM-SRBench: A New Benchmark for Scientific Equation Discovery with Large Language Models [20.800445482814958]
LLM(Large Language Models)は、仮説生成に埋め込まれた科学的知識を活用する可能性に関心を寄せている。既存のベンチマークは、LLMによる暗記の影響を受けやすい一般的な方程式に依存しており、発見を反映しないインフレーションされたパフォーマンス指標に繋がる。本稿では,4つの領域にまたがる239の課題を伴う総合的なベンチマークであるLSM-SRBenchを紹介する。我々のベンチマークは、2つの主要なカテゴリで構成されている: LSR-Transformは、一般的な物理モデルからあまり一般的でない数学的表現に変換し、記憶された形式を超えた推論をテストする。
論文参考訳（メタデータ） (2025-04-14T17:00:13Z)
Can LLMs Generate Tabular Summaries of Science Papers? Rethinking the Evaluation Protocol [83.90769864167301]
文献レビュー表は、科学論文の集合を要約し比較するために欠かせないものである。学術論文の収集にあたり,ユーザの情報ニーズを最大限に満たす表を作成するタスクについて検討する。我々の貢献は、現実世界で遭遇する3つの重要な課題に焦点を当てている: (i)ユーザープロンプトは、しばしば未特定である; (ii)検索された候補論文は、しばしば無関係な内容を含む; (iii)タスク評価は、浅いテキスト類似性技術を超えて進むべきである。
論文参考訳（メタデータ） (2025-04-14T14:52:28Z)
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Are We There Yet? Revealing the Risks of Utilizing Large Language Models in Scholarly Peer Review [66.73247554182376]
大規模言語モデル(LLM)がピアレビューに統合された。未確認のLLMの採用は、ピアレビューシステムの完全性に重大なリスクをもたらす。 5%のレビューを操作すれば、論文の12%が上位30%のランキングでその地位を失う可能性がある。
論文参考訳（メタデータ） (2024-12-02T16:55:03Z)
Awes, Laws, and Flaws From Today's LLM Research [0.0]
良質な研究と見なされる基準に基づいて2000以上の研究作品を評価した。創発的な行動や倫理的否定の主張の減少など、さまざまな傾向が見られます。本論文は, 責任ある科学的手法の基礎に生きるために, より精査と厳密さの必要性を浮き彫りにするものである。
論文参考訳（メタデータ） (2024-08-27T21:19:37Z)
Recent Advances on Machine Learning for Computational Fluid Dynamics: A Survey [51.87875066383221]
本稿では、基本概念、従来の手法、ベンチマークデータセットを紹介し、CFDを改善する上で機械学習が果たす様々な役割について検討する。我々は,空気力学,燃焼,大気・海洋科学,生物流体,プラズマ,記号回帰,秩序の低減など,CFDにおけるMLの現実的な応用を強調した。シミュレーションの精度を向上し、計算時間を短縮し、流体力学のより複雑な解析を可能にすることにより、MLはCFD研究を大きく変革する可能性があるという結論を導いた。
論文参考訳（メタデータ） (2024-08-22T07:33:11Z)
Missci: Reconstructing Fallacies in Misrepresented Science [84.32990746227385]
ソーシャルネットワーク上の健康関連の誤報は、意思決定の貧弱さと現実世界の危険につながる可能性がある。ミスシは、誤った推論のための新しい議論理論モデルである。大規模言語モデルの批判的推論能力をテストするためのデータセットとしてMissciを提案する。
論文参考訳（メタデータ） (2024-06-05T12:11:10Z)
Mapping the Increasing Use of LLMs in Scientific Papers [99.67983375899719]
2020年1月から2024年2月にかけて、arXiv、bioRxiv、Natureのポートフォリオジャーナルで950,965の論文をまとめて、体系的で大規模な分析を行った。計算機科学の論文では, LLMの使用が着実に増加し, 最大, 最速の成長が観察された。
論文参考訳（メタデータ） (2024-04-01T17:45:15Z)
Can Large Language Models Detect Misinformation in Scientific News Reporting? [1.0344642971058586]
本稿では,科学的報告における誤情報の検出に大規模言語モデル(LLM)を用いることが可能であるかを検討する。最初にラベル付きデータセットSciNewsを提示し、信頼できない情報源から抜粋された2.4万の科学ニュース記事を含む。科学ニュース記事の科学的妥当性の次元を識別し、科学的誤報の自動検出にどのように組み込むかを検討する。
論文参考訳（メタデータ） (2024-02-22T04:07:00Z)
SciInstruct: a Self-Reflective Instruction Annotated Dataset for Training Scientific Language Models [57.96527452844273]
我々はSciInstructを紹介した。SciInstructは、大学レベルの科学的推論が可能な科学言語モデルを訓練するための科学指導スイートである。我々は、物理学、化学、数学、公式な証明を含む多種多様な高品質なデータセットをキュレートした。 SciInstructの有効性を検証するため、SciInstruct、すなわちChatGLM3(6Bと32B)、Llama3-8B-Instruct、Mistral-7B: MetaMathを用いて言語モデルを微調整した。
論文参考訳（メタデータ） (2024-01-15T20:22:21Z)
Empirical evaluation of Uncertainty Quantification in Retrieval-Augmented Language Models for Science [0.0]
本研究では,科学知識を事前学習・検索データとして組み込んだ場合,不確実性スコアがどう変化するかを検討する。我々は,検索データが予測生成に自信を持つ傾向にあるため,科学的知識に精通した既存のALMを観察する。また、ALMは予測を過信しており、正確な予測よりも不正確な予測を確実にしていることもわかりました。
論文参考訳（メタデータ） (2023-11-15T20:42:11Z)
Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)
Use and Misuse of Machine Learning in Anthropology [0.9786690381850356]
生物学的・文化的な証拠に基づいて人類の進化を理解することを目指す古人類学の分野に焦点をあてる。本研究の目的は,MLが古人類学に応用されている方法について,簡単な紹介を行うことである。人類学文献の集積部において,ML手法の正しいプロトコルの一連の誤り,誤り,違反について論じる。
論文参考訳（メタデータ） (2022-09-06T20:32:24Z)
Leakage and the Reproducibility Crisis in ML-based Science [5.116305213887073]
データ漏洩は確かに広範な問題であり、深刻な失敗につながっていることを示す。教科書の誤りからオープンな研究問題まで,8種類の漏洩の詳細な分類法を提示する。本稿では,MLモデルに基づく科学的主張を報告するためのモデル情報シートを提案する。
論文参考訳（メタデータ） (2022-07-14T16:44:59Z)
Fact or Fiction: Verifying Scientific Claims [53.29101835904273]
本稿では,研究文献から,REFUTESやREFUTESが与えられた科学的主張であることを示す証拠を含む抄録を抽出する新たな課題である,科学的クレーム検証を紹介する。 SciFactは、1.4Kの専門家による科学的主張と、ラベルや合理性に注釈を付けたエビデンスを含む抽象概念を組み合わせたデータセットである。このシステムは,CORD-19コーパスの証拠を同定することにより,新型コロナウイルス関連クレームを検証可能であることを示す。
論文参考訳（メタデータ） (2020-04-30T17:22:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。