論文の概要: Julearn: an easy-to-use library for leakage-free evaluation and
inspection of ML models
- arxiv url: http://arxiv.org/abs/2310.12568v1
- Date: Thu, 19 Oct 2023 08:21:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 16:06:06.544462
- Title: Julearn: an easy-to-use library for leakage-free evaluation and
inspection of ML models
- Title(参考訳): Julearn:MLモデルのリークフリー評価と検査のための使いやすいライブラリ
- Authors: Sami Hamdan, Shammi More, Leonard Sasse, Vera Komeyer, Kaustubh R.
Patil and Federico Raimondo (for the Alzheimer's Disease Neuroimaging
Initiative)
- Abstract要約: 我々は、Julearnの設計の背景にある理論的根拠と、その中核となる特徴を提示し、以前に公表された研究プロジェクトの3つの例を示す。
Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、機械学習の世界への参入を単純化することを目指している。
- 参考スコア(独自算出の注目度): 0.23301643766310373
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The fast-paced development of machine learning (ML) methods coupled with its
increasing adoption in research poses challenges for researchers without
extensive training in ML. In neuroscience, for example, ML can help understand
brain-behavior relationships, diagnose diseases, and develop biomarkers using
various data sources like magnetic resonance imaging and
electroencephalography. The primary objective of ML is to build models that can
make accurate predictions on unseen data. Researchers aim to prove the
existence of such generalizable models by evaluating performance using
techniques such as cross-validation (CV), which uses systematic subsampling to
estimate the generalization performance. Choosing a CV scheme and evaluating an
ML pipeline can be challenging and, if used improperly, can lead to
overestimated results and incorrect interpretations.
We created julearn, an open-source Python library, that allow researchers to
design and evaluate complex ML pipelines without encountering in common
pitfalls. In this manuscript, we present the rationale behind julearn's design,
its core features, and showcase three examples of previously-published research
projects that can be easily implemented using this novel library. Julearn aims
to simplify the entry into the ML world by providing an easy-to-use environment
with built in guards against some of the most common ML pitfalls. With its
design, unique features and simple interface, it poses as a useful Python-based
library for research projects.
- Abstract(参考訳): 機械学習(ML)手法の急速な発展と、その研究への採用の増加は、研究者がMLで広範なトレーニングを受けていないことの難しさを浮き彫りにしている。
例えば神経科学では、MLは脳と行動の関係を理解し、病気を診断し、磁気共鳴画像や脳波などの様々なデータソースを用いてバイオマーカーを開発する。
mlの主な目的は、見えないデータで正確な予測ができるモデルを構築することである。
研究者らは,クロスバリデーション(CV)などの手法を用いて,一般化性能を推定する手法を用いて,そのような一般化可能なモデルの存在を証明することを目指している。
CVスキームの選択とMLパイプラインの評価は困難であり、不適切に使用すれば過度に見積もられた結果や誤った解釈につながる可能性がある。
JulearnはオープンソースのPythonライブラリで、研究者が共通の落とし穴に遭遇することなく、複雑なMLパイプラインを設計、評価できる。
本論文では, ジュラルンの設計の背景, その中核となる特徴と, 本新ライブラリを用いて容易に実装可能な3つの研究プロジェクト例を紹介する。
Julearnは、最も一般的なMLの落とし穴に対して、ガードを組み込んだ使いやすい環境を提供することで、MLの世界への参入を簡単にすることを目指している。
その設計、ユニークな機能、シンプルなインターフェースにより、研究プロジェクトに役立つPythonベースのライブラリとして機能する。
関連論文リスト
- MLXP: A Framework for Conducting Replicable Experiments in Python [63.37350735954699]
MLXPはPythonをベースとした,オープンソースの,シンプルで,軽量な実験管理ツールである。
実験プロセスを最小限のオーバーヘッドで合理化し、高いレベルの実践的オーバーヘッドを確保します。
論文 参考訳(メタデータ) (2024-02-21T14:22:20Z) - DataDreamer: A Tool for Synthetic Data Generation and Reproducible LLM Workflows [72.40917624485822]
我々は、研究者が強力な大規模言語モデルを実装することができるオープンソースのPythonライブラリであるDataDreamerを紹介した。
DataDreamerはまた、オープンサイエンスを促進するために提案するベストプラクティスに研究者が従うのを助ける。
論文 参考訳(メタデータ) (2024-02-16T00:10:26Z) - Language models are weak learners [71.33837923104808]
本研究では,プロンプトベースの大規模言語モデルは弱い学習者として効果的に動作可能であることを示す。
これらのモデルをブースティングアプローチに組み込むことで、モデル内の知識を活用して、従来のツリーベースのブースティングよりも優れています。
結果は、プロンプトベースのLLMが、少数の学習者だけでなく、より大きな機械学習パイプラインのコンポーネントとして機能する可能性を示している。
論文 参考訳(メタデータ) (2023-06-25T02:39:19Z) - Learn to Unlearn: A Survey on Machine Unlearning [29.077334665555316]
本稿では,最近の機械学習技術,検証機構,潜在的攻撃について概説する。
新たな課題と今後の研究方向性を強調します。
本稿では、プライバシ、エクイティ、レジリエンスをMLシステムに統合するための貴重なリソースの提供を目的としている。
論文 参考訳(メタデータ) (2023-05-12T14:28:02Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - The Integration of Machine Learning into Automated Test Generation: A
Systematic Mapping Study [15.016047591601094]
我々は、新しい研究、テストプラクティス、研究者の目標、適用されたML技術、評価、課題を特徴づける。
MLはシステム、GUI、ユニット、パフォーマンス、テストのための入力を生成したり、既存の生成メソッドのパフォーマンスを改善したりする。
論文 参考訳(メタデータ) (2022-06-21T09:26:25Z) - What Makes Good Contrastive Learning on Small-Scale Wearable-based
Tasks? [59.51457877578138]
本研究では,ウェアラブル型行動認識タスクにおけるコントラスト学習について検討する。
本稿では,PyTorchライブラリのtextttCL-HAR について述べる。
論文 参考訳(メタデータ) (2022-02-12T06:10:15Z) - pyBKT: An Accessible Python Library of Bayesian Knowledge Tracing Models [0.0]
本稿では,知識追跡のためのモデル拡張ライブラリpyBKTを紹介する。
このライブラリはデータ生成、フィッティング、予測、クロスバリデーションルーチンを提供する。
pybktはオープンソースであり、研究や実践のコミュニティに知識の追跡をよりアクセスしやすくするためのオープンライセンスである。
論文 参考訳(メタデータ) (2021-05-02T03:08:53Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z) - Machine Learning Pipelines: Provenance, Reproducibility and FAIR Data
Principles [0.0]
マシンラーニングパイプラインのエンドツーエンドをサポートするための、私たちの目標と最初のステップについて説明します。
ソースコードとデータセットの可用性を超えて、どの要因がML実験に影響を与えるかを検討する。
ML実験にFAIRデータプラクティスを適用する方法を提案する。
論文 参考訳(メタデータ) (2020-06-22T10:17:34Z) - Bayesian active learning for production, a systematic study and a
reusable library [85.32971950095742]
本稿では,現在のアクティブラーニング技術の主な欠点について分析する。
実世界のデータセットの最も一般的な課題が深層能動学習プロセスに与える影響について,系統的研究を行った。
部分的不確実性サンプリングやより大きいクエリサイズといった,アクティブな学習ループを高速化する2つの手法を導出する。
論文 参考訳(メタデータ) (2020-06-17T14:51:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。