論文の概要: PIPES: A Meta-dataset of Machine Learning Pipelines
- arxiv url: http://arxiv.org/abs/2509.09512v1
- Date: Thu, 11 Sep 2025 14:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.429495
- Title: PIPES: A Meta-dataset of Machine Learning Pipelines
- Title(参考訳): PIPES: マシンラーニングパイプラインのメタデータ
- Authors: Cynthia Moreira Maia, Lucas B. V. de Amorim, George D. C. Cavalcanti, Rafael M. O. Cruz,
- Abstract要約: OpenMLは、機械学習実験の広範なコレクションを提供する。
データ前処理ステップ/ブロックを探索する場合、パイプラインの多様性に欠ける。
複数のパイプラインを含む実験の集合であるPIPESを提案する。
9,408のパイプラインを300のデータセットに適用した実験結果を格納する。
- 参考スコア(独自算出の注目度): 8.402064652465397
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Solutions to the Algorithm Selection Problem (ASP) in machine learning face the challenge of high computational costs associated with evaluating various algorithms' performances on a given dataset. To mitigate this cost, the meta-learning field can leverage previously executed experiments shared in online repositories such as OpenML. OpenML provides an extensive collection of machine learning experiments. However, an analysis of OpenML's records reveals limitations. It lacks diversity in pipelines, specifically when exploring data preprocessing steps/blocks, such as scaling or imputation, resulting in limited representation. Its experiments are often focused on a few popular techniques within each pipeline block, leading to an imbalanced sample. To overcome the observed limitations of OpenML, we propose PIPES, a collection of experiments involving multiple pipelines designed to represent all combinations of the selected sets of techniques, aiming at diversity and completeness. PIPES stores the results of experiments performed applying 9,408 pipelines to 300 datasets. It includes detailed information on the pipeline blocks, training and testing times, predictions, performances, and the eventual error messages. This comprehensive collection of results allows researchers to perform analyses across diverse and representative pipelines and datasets. PIPES also offers potential for expansion, as additional data and experiments can be incorporated to support the meta-learning community further. The data, code, supplementary material, and all experiments can be found at https://github.com/cynthiamaia/PIPES.git.
- Abstract(参考訳): 機械学習におけるアルゴリズム選択問題(ASP)に対する解決策は、与えられたデータセット上で様々なアルゴリズムのパフォーマンスを評価することに伴う高い計算コストの課題に直面している。
このコストを軽減するために、メタ学習フィールドは、OpenMLのようなオンラインリポジトリで共有される前に実行される実験を活用することができる。
OpenMLは、機械学習実験の広範なコレクションを提供する。
しかし、OpenMLのレコードの分析は制限を明らかにしている。
パイプラインの多様性は欠如しており、特にスケーリングやインプットなどのデータ前処理ステップ/ブロックを探索する場合は、表現が制限される。
その実験は、しばしばパイプラインブロック内のいくつかの一般的なテクニックに焦点を当てており、不均衡なサンプルにつながっている。
OpenMLの観測された限界を克服するために、多様性と完全性を目指して、選択したテクニックのすべての組み合わせを表現するために設計された複数のパイプラインを含む実験のコレクションであるPIPESを提案する。
PIPESは9,408のパイプラインを300のデータセットに適用した実験結果を格納する。
パイプラインブロック、トレーニングとテスト時間、予測、パフォーマンス、最終的なエラーメッセージに関する詳細な情報が含まれている。
この総合的な結果の収集により、研究者は多様なパイプラインやデータセットをまたいで分析を行うことができる。
PIPESはまた、メタラーニングコミュニティをさらに支援するために追加のデータと実験を組み込むことができるため、拡張の可能性も提供する。
データ、コード、補足材料、およびすべての実験はhttps://github.com/cynthiamaia/PIPES.gitで見ることができる。
関連論文リスト
- MathFlow: Enhancing the Perceptual Flow of MLLMs for Visual Mathematical Problems [25.039200070508603]
MLLM(Multimodal Large Language Models)は、視覚数学的な問題解決において、その可能性を十分に示していない。
問題解決時に使用される情報を4つのコンポーネントに分類するベンチマークであるFlowVerseを開発した。
我々は、知覚と推論を異なる段階に分離するモジュール型問題解決パイプラインであるMathFlowを紹介した。
論文 参考訳(メタデータ) (2025-03-19T11:46:19Z) - Instrumentation and Analysis of Native ML Pipelines via Logical Query Plans [3.2362171533623054]
私たちは、データサイエンティストが機械学習パイプラインを開発し、検証し、監視し、分析するのを支援するために、高度に自動化されたソフトウェアプラットフォームを構想しています。
一般的なライブラリに依存したMLパイプラインコードから"論理クエリプラン"を抽出する。
これらの計画に基づいて、パイプラインのセマンティクスとインスツルメンタを自動で推論し、MLパイプラインを書き換えて、データサイエンティストが手動でアノテートしたり、コードを書き換えたりすることなく、さまざまなユースケースを可能にします。
論文 参考訳(メタデータ) (2024-07-10T11:35:02Z) - DataComp: In search of the next generation of multimodal datasets [179.79323076587255]
DataCompは、Common Crawlの128億の画像テキストペアの候補プールを中心にしたデータセット実験用のテストベッドである。
我々のベンチマークは、複数の計算スケールから成っている。
特に、最良のベースラインであるDataComp-1Bは、ImageNetでCLIP ViT-L/14をスクラッチから79.2%のゼロショット精度でトレーニングすることが可能です。
論文 参考訳(メタデータ) (2023-04-27T11:37:18Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - BatchFormer: Learning to Explore Sample Relationships for Robust
Representation Learning [93.38239238988719]
本稿では,各ミニバッチからサンプル関係を学習可能なディープニューラルネットワークを提案する。
BatchFormerは各ミニバッチのバッチ次元に適用され、トレーニング中のサンプル関係を暗黙的に探索する。
我々は10以上のデータセットに対して広範な実験を行い、提案手法は異なるデータ不足アプリケーションにおいて大幅な改善を実現する。
論文 参考訳(メタデータ) (2022-03-03T05:31:33Z) - SapientML: Synthesizing Machine Learning Pipelines by Learning from
Human-Written Solutions [28.718446733713183]
既存のデータセットとその人手によるパイプラインのコーパスから学習できるAutoML SapientMLを提案する。
我々は、170のデータセットにまたがる1094のパイプラインのトレーニングコーパスを作成し、41のベンチマークデータセットでSapientMLを評価した。
我々の評価によると、SapientMLは27のベンチマークでベストまたは同等の精度で、第2のツールでは9のインスタンスでパイプラインを生成できない。
論文 参考訳(メタデータ) (2022-02-18T20:45:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。