論文の概要: Feature Encodings for Gradient Boosting with Automunge
- arxiv url: http://arxiv.org/abs/2209.12309v1
- Date: Sun, 25 Sep 2022 19:41:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-27 17:00:10.868292
- Title: Feature Encodings for Gradient Boosting with Automunge
- Title(参考訳): Automungeによるグラディエントブースティングのための特徴符号化
- Authors: Nicholas J. Teague
- Abstract要約: データフレーム前処理のためのAutomungeライブラリは、カテゴリ機能のバイナライゼーションと数値のzスコア正規化をデフォルトで提供する。
平均して選択したデフォルトは、チューニング期間とモデルパフォーマンスの観点から、トップパフォーマーでした。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Selecting a default feature encoding strategy for gradient boosted learning
may consider metrics of training duration and achieved predictive performance
associated with the feature representations. The Automunge library for
dataframe preprocessing offers a default of binarization for categoric features
and z-score normalization for numeric. The presented study sought to validate
those defaults by way of benchmarking on a series of diverse data sets by
encoding variations with tuned gradient boosted learning. We found that on
average our chosen defaults were top performers both from a tuning duration and
a model performance standpoint. Another key finding was that one hot encoding
did not perform in a manner consistent with suitability to serve as a categoric
default in comparison to categoric binarization. We present here these and
further benchmarks.
- Abstract(参考訳): 勾配強化学習のためのデフォルトの特徴符号化戦略を選択することは、トレーニング期間のメトリクスを考慮し、特徴表現に関連する予測性能を達成できる。
データフレームプリプロセッシング用のautomungeライブラリは、カテゴリ特徴のbinarizationと数値のz-score正規化のデフォルトを提供する。
提案研究では,一連の多様なデータセットのベンチマークを用いて,調整された勾配向上学習のバリエーションを符号化することにより,それらのデフォルトを検証することを試みた。
平均すると、私たちの選択したデフォルトは、チューニング期間とモデルパフォーマンスの両面で、トップパフォーマーでした。
もう一つの重要な発見は、1つのホットエンコーディングがカテゴリの双対化と比較してカテゴリのデフォルトとして機能するのに適した方法で動作しなかったことである。
ここではこれらのベンチマークとさらなるベンチマークを示す。
関連論文リスト
- A Performance-Driven Benchmark for Feature Selection in Tabular Deep
Learning [131.2910403490434]
データサイエンティストは通常、データセットにできるだけ多くの機能を集め、既存の機能から新しい機能を設計する。
既存のタブ形式の特徴選択のためのベンチマークでは、古典的な下流モデル、おもちゃの合成データセット、あるいは下流のパフォーマンスに基づいて特徴セレクタを評価していない。
変換器を含む下流ニューラルネットワーク上で評価された課題のある特徴選択ベンチマークを構築した。
また,従来の特徴選択法よりも高い性能を有するニューラルネットワークのための,Lassoのインプット・グラディエント・ベース・アナログも提案する。
論文 参考訳(メタデータ) (2023-11-10T05:26:10Z) - ProTeCt: Prompt Tuning for Taxonomic Open Set Classification [59.59442518849203]
分類学的オープンセット(TOS)設定では、ほとんどショット適応法はうまくいきません。
本稿では,モデル予測の階層的一貫性を校正する即時チューニング手法を提案する。
次に,階層整合性のための新しいPrompt Tuning(ProTeCt)手法を提案し,ラベル集合の粒度を分類する。
論文 参考訳(メタデータ) (2023-06-04T02:55:25Z) - Benchmarking state-of-the-art gradient boosting algorithms for
classification [0.0]
この研究は、分類の文脈における勾配増強の利用について考察する。
オリジナルのGBMアルゴリズムや選択された最先端の勾配向上フレームワークを含む4つの一般的な実装を比較した。
有効性、信頼性、使いやすさの適切なバランスを示す勾配促進変種を示す試みが行われた。
論文 参考訳(メタデータ) (2023-05-26T17:06:15Z) - Exploring Category-correlated Feature for Few-shot Image Classification [27.13708881431794]
本稿では,従来の知識として,新しいクラスとベースクラスのカテゴリ相関を探索し,シンプルで効果的な特徴補正手法を提案する。
提案手法は, 広く使用されている3つのベンチマークにおいて, 一定の性能向上が得られる。
論文 参考訳(メタデータ) (2021-12-14T08:25:24Z) - Regularized target encoding outperforms traditional methods in
supervised machine learning with high cardinality features [1.1709030738577393]
分類変数の数値表現を導出する手法を検討する。
異なるエンコーディング戦略と5つの機械学習アルゴリズムを比較した。
ターゲットエンコーディングの正規化バージョンが一貫して最高の結果を提供した。
論文 参考訳(メタデータ) (2021-04-01T17:21:42Z) - Improving Calibration for Long-Tailed Recognition [68.32848696795519]
このようなシナリオにおけるキャリブレーションとパフォーマンスを改善する2つの方法を提案します。
異なるサンプルによるデータセットバイアスに対して,シフトバッチ正規化を提案する。
提案手法は,複数の長尾認識ベンチマークデータセットに新しいレコードをセットする。
論文 参考訳(メタデータ) (2021-04-01T13:55:21Z) - Pairwise Supervised Hashing with Bernoulli Variational Auto-Encoder and
Self-Control Gradient Estimator [62.26981903551382]
バイナリ潜在変数を持つ変分自動エンコーダ(VAE)は、文書検索の精度の観点から最先端のパフォーマンスを提供する。
本稿では、クラス内類似度とクラス間類似度に報いるために、個別潜伏型VAEを用いたペアワイズ損失関数を提案する。
この新しいセマンティックハッシュフレームワークは、最先端技術よりも優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2020-05-21T06:11:33Z) - Self-Supervised Tuning for Few-Shot Segmentation [82.32143982269892]
Few-shotのセグメンテーションは、アノテートされたサンプルがほとんどない各画像ピクセルにカテゴリラベルを割り当てることを目的としている。
既存のメタラーニング手法では, 画像から抽出した視覚的特徴を埋め込み空間に埋め込むと, カテゴリー別識別記述子の生成に失敗する傾向にある。
本稿では,複数のエピソードにまたがる潜在特徴の分布を,自己分割方式に基づいて動的に調整する適応型フレームワークチューニングを提案する。
論文 参考訳(メタデータ) (2020-04-12T03:53:53Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。