Fugu-MT 論文翻訳(概要): Design Principles for Falsifiable, Replicable and Reproducible Empirical ML Research

論文の概要: Design Principles for Falsifiable, Replicable and Reproducible Empirical ML Research

arxiv url: http://arxiv.org/abs/2405.18077v1
Date: Tue, 28 May 2024 11:37:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 18:58:39.220508
Title: Design Principles for Falsifiable, Replicable and Reproducible Empirical ML Research
Title（参考訳）: Falsible, Replicable and Reproducible Empirical ML Researchのための設計原理
Authors: Daniel Vranješ, Oliver Niggemann,
Abstract要約: 実証的研究は、機械学習領域において基本的な役割を担っている。本稿では,実証研究の妥当性を維持するためのガイドラインを伴って,実証研究プロセスのモデルを提案する。
参考スコア（独自算出の注目度）: 2.3265565167163906
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Empirical research plays a fundamental role in the machine learning domain. At the heart of impactful empirical research lies the development of clear research hypotheses, which then shape the design of experiments. The execution of experiments must be carried out with precision to ensure reliable results, followed by statistical analysis to interpret these outcomes. This process is key to either supporting or refuting initial hypotheses. Despite its importance, there is a high variability in research practices across the machine learning community and no uniform understanding of quality criteria for empirical research. To address this gap, we propose a model for the empirical research process, accompanied by guidelines to uphold the validity of empirical research. By embracing these recommendations, greater consistency, enhanced reliability and increased impact can be achieved.
Abstract（参考訳）: 実証的研究は、機械学習領域において基本的な役割を担っている。衝撃的な実験研究の中心には、明確な研究仮説が展開され、実験の設計が形成される。実験の実行は、信頼性の高い結果を保証するために精度で実行されなければならない。このプロセスは、初期仮説を支持したり否定したりするための鍵となる。その重要性にもかかわらず、機械学習コミュニティにおける研究実践の多様性は高く、経験的研究における品質基準の統一的な理解は存在しない。このギャップに対処するため,実証研究の妥当性を維持するためのガイドラインを伴って,実証研究プロセスのモデルを提案する。これらのレコメンデーションを受け入れることで、一貫性の向上、信頼性の向上、影響の増大が可能になる。

関連論文リスト

MOOSE-Chem3: Toward Experiment-Guided Hypothesis Ranking via Simulated Experimental Feedback [128.2992631982687]
本研究では,事前試験の結果に基づいて仮説を優先順位付けすることを目的とした,実験誘導ランキングの課題について紹介する。本稿では,3つのドメインインフォームド仮定に基づいて,仮説性能を既知の基底的真理仮説に類似した関数としてモデル化するシミュレータを提案する。実験結果を用いて,124の化学仮説のデータセットをキュレートし,シミュレーションの有効性を検証した。
論文参考訳（メタデータ） (2025-05-23T13:24:50Z)
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
Causal Lifting of Neural Representations: Zero-Shot Generalization for Causal Inferences [56.23412698865433]
本研究では,ラベル付き類似実験を微調整した予測モデルを用いて,ラベル付き実結果を用いた対象実験の因果推論に焦点をあてる。まず,経験的リスク最小化(ERM)による実結果推定は,対象個体群に対して有効な因果推論を導出できない可能性があることを示す。本稿では,実証的リスク最小化法(DEM)を提案する。
論文参考訳（メタデータ） (2025-02-10T10:52:17Z)
Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。因果関係はこれらの課題を体系的に解決するための理想的な枠組みを提供します
論文参考訳（メタデータ） (2025-02-07T17:01:37Z)
Causal Representation Learning from Multimodal Biological Observations [57.00712157758845]
我々は,マルチモーダルデータに対するフレキシブルな識別条件の開発を目指している。我々は、各潜伏成分の識別可能性を保証するとともに、サブスペース識別結果を事前の作業から拡張する。我々の重要な理論的要素は、異なるモーダル間の因果関係の構造的空間性である。
論文参考訳（メタデータ） (2024-11-10T16:40:27Z)
Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文参考訳（メタデータ） (2024-05-27T13:26:34Z)
LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文参考訳（メタデータ） (2024-05-16T03:04:10Z)
Hazards in Deep Learning Testing: Prevalence, Impact and Recommendations [17.824339932321788]
実験結果に有意な影響を及ぼす可能性のある10種類の経験的評価危険因子を同定した。以上の結果から,10件のハザードが実験結果の無効化につながる可能性が示唆された。危険を緩和する可能性を持つ10の優れた経験的実践のポイントセットを提案する。
論文参考訳（メタデータ） (2023-09-11T11:05:34Z)
A Double Machine Learning Approach to Combining Experimental and Observational Data [59.29868677652324]
実験と観測を組み合わせた二重機械学習手法を提案する。我々の枠組みは、より軽度の仮定の下で、外部の妥当性と無知の違反を検査する。
論文参考訳（メタデータ） (2023-07-04T02:53:11Z)
CausalBench: A Large-scale Benchmark for Network Inference from Single-cell Perturbation Data [61.088705993848606]
本稿では,実世界の介入データに対する因果推論手法を評価するベンチマークスイートCausalBenchを紹介する。 CaulBenchには、新しい分散ベースの介入メトリクスを含む、生物学的に動機付けられたパフォーマンスメトリクスが含まれている。
論文参考訳（メタデータ） (2022-10-31T13:04:07Z)
Sources of Irreproducibility in Machine Learning: A Review [3.905855359082687]
実験設計の選択と結論に対する潜在的な影響を関連付ける理論的枠組みは存在しない。本研究の目的は、応用データサイエンスの実践者や研究者が、どのような設計選択が誤った発見につながるかを理解するためのフレームワークを開発することである。
論文参考訳（メタデータ） (2022-04-15T18:26:03Z)
Simulation as Experiment: An Empirical Critique of Simulation Research on Recommender Systems [4.006331916849688]
我々は、レコメンダシステム(RS)の進化に関するシミュレーション研究は、概念的には経験的な実験的アプローチと似ていると論じる。経験的な分野に共通する標準やプラクティスを採用することで、シミュレーション研究者はこれらの弱点の多くを軽減することができる。
論文参考訳（メタデータ） (2021-07-29T21:05:01Z)
Robust multi-stage model-based design of optimal experiments for nonlinear estimation [0.0]
本研究では,モデルに基づく実験の高次設計へのアプローチについて検討する。マルチステージロバスト最適化に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2020-11-11T19:50:31Z)
A Survey on Causal Inference [64.45536158710014]
因果推論は統計学、コンピュータ科学、教育、公共政策、経済学など、多くの分野において重要な研究トピックである。観測データに対する様々な因果効果推定法が誕生した。
論文参考訳（メタデータ） (2020-02-05T21:35:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。