論文の概要: STREAMLINE: A Simple, Transparent, End-To-End Automated Machine Learning
Pipeline Facilitating Data Analysis and Algorithm Comparison
- arxiv url: http://arxiv.org/abs/2206.12002v1
- Date: Thu, 23 Jun 2022 22:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-28 04:40:53.718123
- Title: STREAMLINE: A Simple, Transparent, End-To-End Automated Machine Learning
Pipeline Facilitating Data Analysis and Algorithm Comparison
- Title(参考訳): STREAMLINE: データ分析とアルゴリズムの比較を専門とする、シンプルで透明でエンドツーエンドの機械学習パイプライン
- Authors: Ryan J. Urbanowicz, Robert Zhang, Yuhan Cui, Pranshu Suri
- Abstract要約: STREAMLINEはシンプルで透明でエンドツーエンドのAutoMLパイプラインである。
データセット、MLアルゴリズム、その他のAutoMLツールのパフォーマンスを比較するように設計されている。
- 参考スコア(独自算出の注目度): 0.49034553215430216
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning (ML) offers powerful methods for detecting and modeling
associations often in data with large feature spaces and complex associations.
Many useful tools/packages (e.g. scikit-learn) have been developed to make the
various elements of data handling, processing, modeling, and interpretation
accessible. However, it is not trivial for most investigators to assemble these
elements into a rigorous, replicatable, unbiased, and effective data analysis
pipeline. Automated machine learning (AutoML) seeks to address these issues by
simplifying the process of ML analysis for all. Here, we introduce STREAMLINE,
a simple, transparent, end-to-end AutoML pipeline designed as a framework to
easily conduct rigorous ML modeling and analysis (limited initially to binary
classification). STREAMLINE is specifically designed to compare performance
between datasets, ML algorithms, and other AutoML tools. It is unique among
other autoML tools by offering a fully transparent and consistent baseline of
comparison using a carefully designed series of pipeline elements including:
(1) exploratory analysis, (2) basic data cleaning, (3) cross validation
partitioning, (4) data scaling and imputation, (5) filter-based feature
importance estimation, (6) collective feature selection, (7) ML modeling with
`Optuna' hyperparameter optimization across 15 established algorithms
(including less well-known Genetic Programming and rule-based ML), (8)
evaluation across 16 classification metrics, (9) model feature importance
estimation, (10) statistical significance comparisons, and (11) automatically
exporting all results, plots, a PDF summary report, and models that can be
easily applied to replication data.
- Abstract(参考訳): 機械学習(ML)は、大きな特徴空間と複雑な関連を持つデータにおいて、関連を検出し、モデル化するための強力な方法を提供する。
多くの便利なツール/パッケージ(例えばscikit-learn)が、データの処理、処理、モデリング、そして解釈の様々な要素をアクセスできるように開発されている。
しかし、ほとんどの研究者がこれらの要素を厳格で複製可能で、偏りがなく、効果的なデータ分析パイプラインに組み立てるのは簡単ではない。
Automated Machine Learning (AutoML)は、ML分析のプロセスをシンプルにすることで、これらの問題に対処しようとしている。
本稿では、厳密なMLモデリングと分析(当初はバイナリ分類に限られる)を容易に行うためのフレームワークとして設計された、シンプルで透明でエンドツーエンドのAutoMLパイプラインであるSTREAMLINEを紹介する。
STREAMLINEは、データセット、MLアルゴリズム、その他のAutoMLツールのパフォーマンスを比較するように設計されている。
It is unique among other autoML tools by offering a fully transparent and consistent baseline of comparison using a carefully designed series of pipeline elements including: (1) exploratory analysis, (2) basic data cleaning, (3) cross validation partitioning, (4) data scaling and imputation, (5) filter-based feature importance estimation, (6) collective feature selection, (7) ML modeling with `Optuna' hyperparameter optimization across 15 established algorithms (including less well-known Genetic Programming and rule-based ML), (8) evaluation across 16 classification metrics, (9) model feature importance estimation, (10) statistical significance comparisons, and (11) automatically exporting all results, plots, a PDF summary report, and models that can be easily applied to replication data.
関連論文リスト
- Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - AutoML-Agent: A Multi-Agent LLM Framework for Full-Pipeline AutoML [56.565200973244146]
自動機械学習(Automated Machine Learning, ML)は、開発パイプライン内のタスクを自動化することによって、AI開発を加速する。
近年の作業では,そのような負担を軽減するために,大規模言語モデル(LLM)の利用が始まっている。
本稿では,フルパイプのAutoMLに適した新しいマルチエージェントフレームワークであるAutoML-Agentを提案する。
論文 参考訳(メタデータ) (2024-10-03T20:01:09Z) - Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity [59.57065228857247]
Retrieval-augmented Large Language Models (LLMs) は、質問回答(QA)のようなタスクにおける応答精度を高めるための有望なアプローチとして登場した。
本稿では,クエリの複雑さに基づいて,LLMの最適戦略を動的に選択できる適応型QAフレームワークを提案する。
オープンドメインのQAデータセットを用いて、複数のクエリの複雑さを網羅し、QAシステムの全体的な効率性と精度を高めることを示す。
論文 参考訳(メタデータ) (2024-03-21T13:52:30Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z) - Large Language Models for Automated Data Science: Introducing CAAFE for
Context-Aware Automated Feature Engineering [52.09178018466104]
データセットのセマンティックな特徴を生成するために、コンテキスト認識自動特徴工学(CAAFE)を導入する。
方法論的には単純だが、CAAFEは14のデータセットのうち11のパフォーマンスを改善している。
我々は,AutoMLシステムの範囲をセマンティックなAutoMLに拡張できるコンテキスト認識ソリューションの重要性を強調した。
論文 参考訳(メタデータ) (2023-05-05T09:58:40Z) - AutoEn: An AutoML method based on ensembles of predefined Machine
Learning pipelines for supervised Traffic Forecasting [1.6242924916178283]
交通予測(TF)は、将来の交通状況を予測することで交通渋滞を緩和する能力により、関連性が高まっている。
TFは、モデル選択問題(MSP)として知られる機械学習パラダイムに大きな課題を提起する。
事前に定義されたMLパイプラインの集合からマルチクラス化アンサンブルを自動生成する,シンプルで効率的な手法であるAutoEnを紹介する。
論文 参考訳(メタデータ) (2023-03-19T18:37:18Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z) - Automatic Componentwise Boosting: An Interpretable AutoML System [1.1709030738577393]
本稿では,高度にスケーラブルなコンポーネントワイドブースティングアルゴリズムを用いて適用可能な,解釈可能な付加モデルを構築するAutoMLシステムを提案する。
我々のシステムは、部分的な効果やペアの相互作用を可視化するなど、簡単なモデル解釈のためのツールを提供する。
解釈可能なモデル空間に制限があるにもかかわらず、我々のシステムは、ほとんどのデータセットにおける予測性能の点で競争力がある。
論文 参考訳(メタデータ) (2021-09-12T18:34:33Z) - A Rigorous Machine Learning Analysis Pipeline for Biomedical Binary
Classification: Application in Pancreatic Cancer Nested Case-control Studies
with Implications for Bias Assessments [2.9726886415710276]
バイナリ分類にフォーカスした、厳格で厳格なML分析パイプラインをレイアウトし、組み立てました。
この'自動'だがカスタマイズ可能なパイプラインは、a)探索分析、b)データのクリーニングと変換、c)特徴選択、d)9つの確立されたMLアルゴリズムによるモデルトレーニングを含む。
本パイプラインは,癌に対する確立された,新たに同定されたリスクファクターの疫学的検討に適用し,MLアルゴリズムによって異なるバイアス源がどのように扱われるかを評価する。
論文 参考訳(メタデータ) (2020-08-28T19:58:05Z) - Evolution of Scikit-Learn Pipelines with Dynamic Structured Grammatical
Evolution [1.5224436211478214]
本稿では、動的構造文法進化(DSGE)をScikit-Learn分類パイプラインの進化に適応させる新しい文法ベースのフレームワークについて述べる。
実験結果は、AutoML-DSGEを他の文法ベースのAutoMLフレームワークであるResilient ClassificationPipeline Evolution (RECIPE)と比較することを含む。
論文 参考訳(メタデータ) (2020-04-01T09:31:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。