論文の概要: Lexidate: Model Evaluation and Selection with Lexicase
- arxiv url: http://arxiv.org/abs/2406.12006v1
- Date: Mon, 17 Jun 2024 18:18:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-20 00:16:57.265080
- Title: Lexidate: Model Evaluation and Selection with Lexicase
- Title(参考訳): Lexidate: モデル評価とLexicaseによる選択
- Authors: Jose Guadalupe Hernandez, Anil Kumar Saini, Jason H. Moore,
- Abstract要約: 本稿では,複数の独立予測値を用いたレキシケータに基づく検証手法であるレキシケータ(lexidate)を提案する。
1つの構成では, TPOT2から返される最終モデルの精度は10倍CVに比べ, 差は認められなかった。
- 参考スコア(独自算出の注目度): 1.9570926122713395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated machine learning streamlines the task of finding effective machine learning pipelines by automating model training, evaluation, and selection. Traditional evaluation strategies, like cross-validation (CV), generate one value that averages the accuracy of a pipeline's predictions. This single value, however, may not fully describe the generalizability of the pipeline. Here, we present Lexicase-based Validation (lexidate), a method that uses multiple, independent prediction values for selection. Lexidate splits training data into a learning set and a selection set. Pipelines are trained on the learning set and make predictions on the selection set. The predictions are graded for correctness and used by lexicase selection to identify parent pipelines. Compared to 10-fold CV, lexicase reduces the training time. We test the effectiveness of three lexidate configurations within the Tree-based Pipeline Optimization Tool 2 (TPOT2) package on six OpenML classification tasks. In one configuration, we detected no difference in the accuracy of the final model returned from TPOT2 on most tasks compared to 10-fold CV. All configurations studied here returned similar or less complex final pipelines compared to 10-fold CV.
- Abstract(参考訳): 機械学習の自動化は、モデルトレーニング、評価、選択を自動化することによって、効果的な機械学習パイプラインを見つけるタスクを合理化する。
クロスバリデーション(CV)のような従来の評価戦略は、パイプラインの予測の精度を平均する1つの値を生成する。
しかし、この単一の値はパイプラインの一般化可能性を完全に記述していないかもしれない。
本稿では,複数の独立予測値を用いたレキシケードに基づく検証手法(レキシケート)を提案する。
Lexidateはトレーニングデータを学習セットと選択セットに分割する。
パイプラインは学習セットでトレーニングされ、選択セットで予測される。
予測は正確性のために評価され、親パイプラインを識別するために語彙選択によって使用される。
10倍のCVと比較して、レキシケースはトレーニング時間を短縮する。
6つのOpenML分類タスクに対して,Tree-based Pipeline Optimization Tool 2 (TPOT2)パッケージ内の3つの語彙構成の有効性を検証した。
1つの構成では, TPOT2から返される最終モデルの精度は10倍CVに比べ, 差は認められなかった。
ここで研究されたすべての構成は、10倍のCVと比較すると、ほぼ同じまたはより複雑な最終パイプラインを返した。
関連論文リスト
- Automatic Pruning of Fine-tuning Datasets for Transformer-based Language Models [13.340191056212692]
微調整タスクのトレーニングセットを対象とした自動データセット解析手法を提案する。
提案手法は,データセットのプルーニングに使用する複数のサブセットを提供する。
5つの下流タスクと2つの言語モデルの実験は、平均して、優勝チケットのサブセットを微調整すると、モデルの評価性能が0.1%上昇することを示している。
論文 参考訳(メタデータ) (2024-07-11T22:46:18Z) - Your Vision-Language Model Itself Is a Strong Filter: Towards
High-Quality Instruction Tuning with Data Selection [59.11430077029321]
視覚言語モデル(VLM)のための新しいデータセット選択手法であるSelf-Filterを導入する。
第1段階では、VLMと共同で学習する訓練指導の難しさを評価するためのスコアリングネットワークを考案する。
第2段階では、トレーニングされたスコアネットを使用して、各命令の難易度を測定し、最も難しいサンプルを選択し、類似したサンプルをペナルティ化し、多様性を促進する。
論文 参考訳(メタデータ) (2024-02-19T20:08:48Z) - Towards Free Data Selection with General-Purpose Models [71.92151210413374]
望ましいデータ選択アルゴリズムは、限られたアノテーション予算の有用性を最大化するために、最も情報性の高いサンプルを効率的に選択することができる。
アクティブな学習手法で表現された現在のアプローチは、通常、時間を要するモデルのトレーニングとバッチデータ選択を繰り返し繰り返す、面倒なパイプラインに従う。
FreeSelは重いバッチ選択プロセスをバイパスし、効率を大幅に改善し、既存のアクティブラーニングメソッドよりも530倍高速である。
論文 参考訳(メタデータ) (2023-09-29T15:50:14Z) - Novel Batch Active Learning Approach and Its Application to Synthetic
Aperture Radar Datasets [7.381841249558068]
近年、合成開口レーダ(SAR)データarXiv:2204.00005のシーケンシャルな能動学習が実施されている。
そこで我々は,Dijkstraのコアセット生成用Annulus Core-Set(DAC)とバッチサンプリング用LocalMaxという,バッチアクティブラーニングのための新しい2部構成のアプローチを開発した。
DACとLocalMaxを組み合わせたバッチアクティブラーニングプロセスは、逐次アクティブラーニングとほぼ同じ精度で、バッチサイズに比例して効率的である。
論文 参考訳(メタデータ) (2023-07-19T23:25:21Z) - Test-Time Prompt Tuning for Zero-Shot Generalization in Vision-Language
Models [107.05966685291067]
テスト時間プロンプトチューニング (TPT) を提案し, 適応的なプロンプトを1つのテストサンプルで学習する。
TPTはCLIPのゼロショットトップ1の精度を平均3.6%改善する。
クロスデータセットの一般化を目に見えないカテゴリで評価する際、PTは追加のトレーニングデータを使用する最先端のアプローチと同等に機能する。
論文 参考訳(メタデータ) (2022-09-15T17:55:11Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - AutoWeka4MCPS-AVATAR: Accelerating Automated Machine Learning Pipeline
Composition and Optimisation [13.116806430326513]
本稿では,サロゲートモデル(AVATAR)を用いて,実行せずにMLパイプラインの有効性を評価する手法を提案する。
AVATARは、データセットの特徴に対するMLアルゴリズムの機能と効果を自動的に学習することで、知識ベースを生成する。
AVATARはその妥当性を評価するためにオリジナルのMLパイプラインを実行する代わりに、MLパイプラインコンポーネントの機能と効果によって構築されたサロゲートモデルを評価する。
論文 参考訳(メタデータ) (2020-11-21T14:05:49Z) - Fast, Accurate, and Simple Models for Tabular Data via Augmented
Distillation [97.42894942391575]
本研究では、FAST-DADを用いて、任意の複雑なアンサンブル予測を、高木、無作為林、深層ネットワークなどの個々のモデルに抽出する。
我々の個々の蒸留モデルは、H2O/AutoSklearnのようなAutoMLツールが生成するアンサンブル予測よりも10倍高速で精度が高い。
論文 参考訳(メタデータ) (2020-06-25T09:57:47Z) - Efficient AutoML Pipeline Search with Matrix and Tensor Factorization [41.194759736425176]
新しいパイプラインコンポーネントでは、選択肢の数が爆発的に増えます!
本研究では,この課題に対処するために,教師付き学習パイプラインを設計する自動システムであるAutoMLシステムを設計する。
これらのモデルでは,新しいデータセットに関する情報を効率よく収集する,グリージーな実験設計プロトコルを開発した。
論文 参考訳(メタデータ) (2020-06-07T18:08:48Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。