論文の概要: Design Principles for Falsifiable, Replicable and Reproducible Empirical ML Research
- arxiv url: http://arxiv.org/abs/2405.18077v1
- Date: Tue, 28 May 2024 11:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-29 18:58:39.220508
- Title: Design Principles for Falsifiable, Replicable and Reproducible Empirical ML Research
- Title(参考訳): Falsible, Replicable and Reproducible Empirical ML Researchのための設計原理
- Authors: Daniel Vranješ, Oliver Niggemann,
- Abstract要約: 実証的研究は、機械学習領域において基本的な役割を担っている。
本稿では,実証研究の妥当性を維持するためのガイドラインを伴って,実証研究プロセスのモデルを提案する。
- 参考スコア(独自算出の注目度): 2.3265565167163906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Empirical research plays a fundamental role in the machine learning domain. At the heart of impactful empirical research lies the development of clear research hypotheses, which then shape the design of experiments. The execution of experiments must be carried out with precision to ensure reliable results, followed by statistical analysis to interpret these outcomes. This process is key to either supporting or refuting initial hypotheses. Despite its importance, there is a high variability in research practices across the machine learning community and no uniform understanding of quality criteria for empirical research. To address this gap, we propose a model for the empirical research process, accompanied by guidelines to uphold the validity of empirical research. By embracing these recommendations, greater consistency, enhanced reliability and increased impact can be achieved.
- Abstract(参考訳): 実証的研究は、機械学習領域において基本的な役割を担っている。
衝撃的な実験研究の中心には、明確な研究仮説が展開され、実験の設計が形成される。
実験の実行は、信頼性の高い結果を保証するために精度で実行されなければならない。
このプロセスは、初期仮説を支持したり否定したりするための鍵となる。
その重要性にもかかわらず、機械学習コミュニティにおける研究実践の多様性は高く、経験的研究における品質基準の統一的な理解は存在しない。
このギャップに対処するため,実証研究の妥当性を維持するためのガイドラインを伴って,実証研究プロセスのモデルを提案する。
これらのレコメンデーションを受け入れることで、一貫性の向上、信頼性の向上、影響の増大が可能になる。
関連論文リスト
- The Story is Not the Science: Execution-Grounded Evaluation of Mechanistic Interpretability Research [56.80927148740585]
我々は、動的に進化し、研究評価者としてAIエージェントを開発することで、スケーラビリティと厳密さの課題に対処する。
我々は,機械的解釈可能性の研究をテストベッドとして使用し,標準化された研究成果を構築し,MechEvalAgentを開発した。
我々の研究は、AIエージェントが研究評価を変革し、厳格な科学的実践の道を開く可能性を実証している。
論文 参考訳(メタデータ) (2026-02-05T19:00:02Z) - BABE: Biology Arena BEnchmark [51.53220868983288]
BABEは、生物学的AIシステムの実験的推論能力を評価するために設計されたベンチマークである。
われわれのベンチマークは、AIシステムが科学者を実践するのと同じように、いかにうまく判断できるかを評価するための堅牢なフレームワークを提供する。
論文 参考訳(メタデータ) (2026-02-05T16:39:20Z) - Best Practices for Machine Learning Experimentation in Scientific Applications [3.093890460224435]
本稿では,科学的応用における機械学習実験の実践的かつ構造化されたガイドを提案する。
データセット作成からモデル選択,評価に至るまで,ステップバイステップのワークフローを概説する。
本稿では、対数オーバーフィッティング比(LOR)や複合オーバーフィッティングスコア(COS)など、折り畳みのオーバーフィッティングと不安定性を考慮に入れたメトリクスを提案する。
論文 参考訳(メタデータ) (2025-11-26T13:02:31Z) - Position: Causal Machine Learning Requires Rigorous Synthetic Experiments for Broader Adoption [40.20066466333953]
因果機械学習は意思決定に革命をもたらす可能性がある。
現在の経験的評価では、因果機械学習手法の評価は許可されていない。
合成データを用いて厳密な経験分析を行うための一連の原理を提案する。
論文 参考訳(メタデータ) (2025-08-12T12:13:13Z) - MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [128.2992631982687]
本研究では,事前試験の結果に基づいて仮説を優先順位付けすることを目的とした,実験誘導ランキングの課題について紹介する。
本稿では,3つのドメインインフォームド仮定に基づいて,仮説性能を既知の基底的真理仮説に類似した関数としてモデル化するシミュレータを提案する。
実験結果を用いて,124の化学仮説のデータセットをキュレートし,シミュレーションの有効性を検証した。
論文 参考訳(メタデータ) (2025-05-23T13:24:50Z) - ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。
まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。
本稿では,実証的リスク最小化法(DEM)を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。
我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。
我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文 参考訳(メタデータ) (2024-11-10T16:40:27Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Hazards in Deep Learning Testing: Prevalence, Impact and Recommendations [17.824339932321788]
実験結果に有意な影響を及ぼす可能性のある10種類の経験的評価危険因子を同定した。
以上の結果から,10件のハザードが実験結果の無効化につながる可能性が示唆された。
危険を緩和する可能性を持つ10の優れた経験的実践のポイントセットを提案する。
論文 参考訳(メタデータ) (2023-09-11T11:05:34Z) - A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。
我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文 参考訳(メタデータ) (2023-07-04T02:53:11Z) - CausalBench: A Large-scale Benchmark for Network Inference from
Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。
CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文 参考訳(メタデータ) (2022-10-31T13:04:07Z) - Sources of Irreproducibility in Machine Learning: A Review [3.905855359082687]
実験設計の選択と結論に対する潜在的な影響を関連付ける理論的枠組みは存在しない。
本研究の目的は、応用データサイエンスの実践者や研究者が、どのような設計選択が誤った発見につながるかを理解するためのフレームワークを開発することである。
論文 参考訳(メタデータ) (2022-04-15T18:26:03Z) - Simulation as Experiment: An Empirical Critique of Simulation Research
on Recommender Systems [4.006331916849688]
我々は、レコメンダシステム(RS)の進化に関するシミュレーション研究は、概念的には経験的な実験的アプローチと似ていると論じる。
経験的な分野に共通する標準やプラクティスを採用することで、シミュレーション研究者はこれらの弱点の多くを軽減することができる。
論文 参考訳(メタデータ) (2021-07-29T21:05:01Z) - Robust multi-stage model-based design of optimal experiments for
nonlinear estimation [0.0]
本研究では,モデルに基づく実験の高次設計へのアプローチについて検討する。
マルチステージロバスト最適化に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-11-11T19:50:31Z) - A Survey on Causal Inference [64.45536158710014]
因果推論は統計学、コンピュータ科学、教育、公共政策、経済学など、多くの分野において重要な研究トピックである。
観測データに対する様々な因果効果推定法が誕生した。
論文 参考訳(メタデータ) (2020-02-05T21:35:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。