論文の概要: Scalable Feature Selection for (Multitask) Gradient Boosted Trees
- arxiv url: http://arxiv.org/abs/2109.01965v1
- Date: Sun, 5 Sep 2021 01:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:53:55.684012
- Title: Scalable Feature Selection for (Multitask) Gradient Boosted Trees
- Title(参考訳): Multitask (Multitask) Gradient Boosted Tree のスケーラブルな特徴選択
- Authors: Cuize Han, Nikhil Rao, Daria Sorokina, Karthik Subbian
- Abstract要約: 我々は、GBDT(Gradient Boosted Decision Trees)のためのスケーラブルな前方特徴選択変種を開発する。
実験により,提案手法は,既存のGBDT法と同等の性能で,トレーニング時間において大幅な高速化を実現することを示す。
また,提案手法をマルチタスク設定に拡張し,タスク間の共通機能の選択やタスク固有の機能の選択を可能にする。
- 参考スコア(独自算出の注目度): 10.48364482781362
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Gradient Boosted Decision Trees (GBDTs) are widely used for building ranking
and relevance models in search and recommendation. Considerations such as
latency and interpretability dictate the use of as few features as possible to
train these models. Feature selection in GBDT models typically involves
heuristically ranking the features by importance and selecting the top few, or
by performing a full backward feature elimination routine. On-the-fly feature
selection methods proposed previously scale suboptimally with the number of
features, which can be daunting in high dimensional settings. We develop a
scalable forward feature selection variant for GBDT, via a novel group testing
procedure that works well in high dimensions, and enjoys favorable theoretical
performance and computational guarantees. We show via extensive experiments on
both public and proprietary datasets that the proposed method offers
significant speedups in training time, while being as competitive as existing
GBDT methods in terms of model performance metrics. We also extend the method
to the multitask setting, allowing the practitioner to select common features
across tasks, as well as selecting task-specific features.
- Abstract(参考訳): gradient boosted decision tree (gbdts) は検索とレコメンデーションのランク付けと関連モデルの構築に広く使われている。
レイテンシや解釈可能性といった考慮事項は、これらのモデルをトレーニングするために可能な限り少数の機能を使用するように規定する。
gbdtモデルにおける特徴の選択は、通常、重要度によって特徴をヒューリスティックにランク付けし、上位数を選ぶか、完全な後方的特徴排除ルーチンを実行することによって行われる。
従来提案したオン・ザ・フライ特徴選択法は,高次元設定で顕著な特徴量に比例して拡張可能である。
GBDTのための拡張性のある前方特徴選択変種を,高次元で良好に動作し,理論性能と計算保証を良好に享受する新しいグループテスト手法により開発する。
提案手法は,パブリックデータセットとプロプライエタリデータセットの両方において,既存のgbdt法と同様,モデル性能指標の面での競争力が保たれながら,トレーニング時間の大幅な高速化が期待できることを示す。
また,マルチタスク設定にメソッドを拡張して,タスク間の共通機能の選択やタスク固有の機能の選択を可能にした。
関連論文リスト
- Diversified Batch Selection for Training Acceleration [68.67164304377732]
オンラインバッチ選択として知られる一般的な研究ラインでは、トレーニングプロセス中の情報サブセットの選択について検討している。
バニラ参照モデルフリーメソッドは、独立してデータをサンプリング的にスコア付けし、選択する。
DivBS(Diversified Batch Selection)を提案する。
論文 参考訳(メタデータ) (2024-06-07T12:12:20Z) - Feature Selection as Deep Sequential Generative Learning [50.00973409680637]
本研究では, 逐次再構成, 変分, 性能評価器の損失を伴って, 深部変分変圧器モデルを構築した。
提案モデルでは,特徴選択の知識を抽出し,連続的な埋め込み空間を学習し,特徴選択決定シーケンスをユーティリティスコアに関連付けられた埋め込みベクトルにマッピングする。
論文 参考訳(メタデータ) (2024-03-06T16:31:56Z) - Spurious Feature Eraser: Stabilizing Test-Time Adaptation for Vision-Language Foundation Model [86.9619638550683]
視覚言語基礎モデルは、画像とテキストのペアデータに拡張性があるため、多数の下流タスクで顕著な成功を収めている。
しかし、これらのモデルは、決定ショートカットの結果、きめ細かな画像分類などの下流タスクに適用した場合に重大な制限を呈する」。
論文 参考訳(メタデータ) (2024-03-01T09:01:53Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - i-Razor: A Differentiable Neural Input Razor for Feature Selection and
Dimension Search in DNN-Based Recommender Systems [8.992480061695138]
ノイズの特徴と不適切な埋め込み次元割り当てはレコメンダシステムの性能を低下させる可能性がある。
本稿では,特徴選択と次元探索を共同で最適化するニューラルインプット・レイザー (i-Razor) を提案する。
論文 参考訳(メタデータ) (2022-04-01T08:30:06Z) - Parallel feature selection based on the trace ratio criterion [4.30274561163157]
本研究は,PFSTを用いた並列特徴選択という,新しい並列特徴選択手法を提案する。
提案手法は,Fisher's Discriminant Analysisで用いられるクラス分離性の尺度であるトレース基準を用いて特徴的有用性を評価する。
実験により,本手法は,比較対象の他の手法による時間的差のごく一部で,少数の特徴セットを生成できることが確認された。
論文 参考訳(メタデータ) (2022-03-03T10:50:33Z) - Fast Feature Selection with Fairness Constraints [49.142308856826396]
モデル構築における最適特徴の選択に関する基礎的問題について検討する。
この問題は、greedyアルゴリズムの変種を使用しても、大規模なデータセットで計算的に困難である。
適応クエリモデルは,最近提案された非モジュラー関数に対する直交整合探索のより高速なパラダイムに拡張する。
提案アルゴリズムは、適応型クエリモデルにおいて指数関数的に高速な並列実行を実現する。
論文 参考訳(メタデータ) (2022-02-28T12:26:47Z) - Compactness Score: A Fast Filter Method for Unsupervised Feature
Selection [66.84571085643928]
本稿では,CSUFS (Compactness Score) と呼ばれる高速な教師なし特徴選択手法を提案する。
提案アルゴリズムは既存のアルゴリズムよりも正確で効率的である。
論文 参考訳(メタデータ) (2022-01-31T13:01:37Z) - Feature Selection for Huge Data via Minipatch Learning [0.0]
安定ミニパッチ選択(STAMPS)と適応STAMPSを提案する。
STAMPSは、データの観測と特徴の両方の小さな(適応性の高い)ランダムなサブセットに基づいて訓練された基本特徴セレクタの選択イベントのアンサンブルを構築するメタアルゴリズムである。
われわれのアプローチは一般的であり、様々な機能選択戦略や機械学習技術に応用できる。
論文 参考訳(メタデータ) (2020-10-16T17:41:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。