論文の概要: Faster Convergence with Lexicase Selection in Tree-based Automated
Machine Learning
- arxiv url: http://arxiv.org/abs/2302.00731v1
- Date: Wed, 1 Feb 2023 19:52:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-03 16:16:14.673607
- Title: Faster Convergence with Lexicase Selection in Tree-based Automated
Machine Learning
- Title(参考訳): ツリーベース自動機械学習におけるレキシケース選択による収束の高速化
- Authors: Nicholas Matsumoto, Anil Kumar Saini, Pedro Ribeiro, Hyunjun Choi,
Alena Orlenko, Leo-Pekka Lyytik\"ainen, Jari O Laurikka, Terho Lehtim\"aki,
Sandra Batista, and Jason H. Moore
- Abstract要約: その結果,レキシケースの選択はTPOTのNSGA-IIに比べてはるかに早く収束することがわかった。
また、これらの選択手法を用いて、特定の実行時に探索されたパイプラインに関する情報を含むトレーデータ構造を用いて、探索空間の一部の探索を比較する。
- 参考スコア(独自算出の注目度): 3.0767310175446254
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In many evolutionary computation systems, parent selection methods can
affect, among other things, convergence to a solution. In this paper, we
present a study comparing the role of two commonly used parent selection
methods in evolving machine learning pipelines in an automated machine learning
system called Tree-based Pipeline Optimization Tool (TPOT). Specifically, we
demonstrate, using experiments on multiple datasets, that lexicase selection
leads to significantly faster convergence as compared to NSGA-II in TPOT. We
also compare the exploration of parts of the search space by these selection
methods using a trie data structure that contains information about the
pipelines explored in a particular run.
- Abstract(参考訳): 多くの進化的計算システムにおいて、親選択法は解への収束に影響を与えうる。
本稿では,Tree-based Pipeline Optimization Tool (TPOT)と呼ばれる自動機械学習システムにおいて,機械学習パイプラインの進化における2つの一般的な親選択手法の役割を比較する。
具体的には、複数のデータセットの実験を用いて、レキシケースの選択がTPOTのNSGA-IIと比較してはるかに高速な収束をもたらすことを示した。
また,探索されたパイプラインに関する情報を含むトリエデータ構造を用いて,これらの選択手法による検索空間の探索を比較する。
関連論文リスト
- Binary Code Similarity Detection via Graph Contrastive Learning on Intermediate Representations [52.34030226129628]
バイナリコード類似度検出(BCSD)は、脆弱性検出、マルウェア分析、コードの再利用識別など、多くの分野で重要な役割を果たしている。
本稿では,LLVM-IRと高レベルのセマンティック抽象化を利用して,コンパイル差を緩和するIRBinDiffを提案する。
IRBinDiffは1対1の比較と1対多の検索シナリオにおいて,他の主要なBCSD手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-24T09:09:20Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Deep Pipeline Embeddings for AutoML [11.168121941015015]
AutoMLは、最小限の人間の専門知識で機械学習システムを自動デプロイすることで、AIを民主化するための有望な方向である。
既存のパイプライン最適化テクニックでは、パイプラインステージ/コンポーネント間の深いインタラクションを探索できない。
本稿では,機械学習パイプラインのコンポーネント間のディープインタラクションをキャプチャするニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-05-23T12:40:38Z) - Incremental Search Space Construction for Machine Learning Pipeline
Synthesis [4.060731229044571]
automated machine learning(automl)は、マシンラーニング(ml)パイプラインの自動構築を目的とする。
パイプライン構築のためのメタ機能に基づくデータ中心アプローチを提案する。
確立されたAutoMLベンチマークで使用した28データセットに対して,アプローチの有効性と競争性を実証する。
論文 参考訳(メタデータ) (2021-01-26T17:17:49Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Trainable Optimal Transport Embedding for Feature Aggregation and its
Relationship to Attention [96.77554122595578]
固定サイズのパラメータ化表現を導入し、与えられた入力セットから、そのセットとトレーニング可能な参照の間の最適な輸送計画に従って要素を埋め込み、集約する。
我々のアプローチは大規模なデータセットにスケールし、参照のエンドツーエンドのトレーニングを可能にすると同時に、計算コストの少ない単純な教師なし学習メカニズムも提供する。
論文 参考訳(メタデータ) (2020-06-22T08:35:58Z) - Efficient AutoML Pipeline Search with Matrix and Tensor Factorization [41.194759736425176]
新しいパイプラインコンポーネントでは、選択肢の数が爆発的に増えます!
本研究では,この課題に対処するために,教師付き学習パイプラインを設計する自動システムであるAutoMLシステムを設計する。
これらのモデルでは,新しいデータセットに関する情報を効率よく収集する,グリージーな実験設計プロトコルを開発した。
論文 参考訳(メタデータ) (2020-06-07T18:08:48Z) - Testing the Robustness of AutoML Systems [5.942234058526296]
本稿では,3つのAutoMLシステム,TPOT,H2O,AutoKerasで生成された機械学習パイプラインの堅牢性について検討する。
特に、汚いデータによる精度への影響について検討し、汚いトレーニングデータの使用がより堅牢なソリューションの創出にどう役立つかを考察する。
論文 参考訳(メタデータ) (2020-05-06T08:20:03Z) - ARDA: Automatic Relational Data Augmentation for Machine Learning [23.570173866941612]
本稿では,データセットとデータレポジトリを入力とし,拡張データセットを出力するエンド・ツー・エンドシステムを提案する。
本システムは,(1)入力の様々な属性に基づいて,入力データとデータを検索し結合するフレームワークと,(2)入力データからノイズや不適切な特徴を抽出する効率的な特徴選択アルゴリズムの2つの特徴を有する。
論文 参考訳(メタデータ) (2020-03-21T21:55:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。