論文の概要: Pretrained deep models outperform GBDTs in Learning-To-Rank under label
scarcity
- arxiv url: http://arxiv.org/abs/2308.00177v1
- Date: Mon, 31 Jul 2023 22:19:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-02 16:11:26.307998
- Title: Pretrained deep models outperform GBDTs in Learning-To-Rank under label
scarcity
- Title(参考訳): ラベル不足下でのラーニング・トゥ・ランドにおけるGBDTよりも優れた事前学習深度モデル
- Authors: Charlie Hou, Kiran Koshy Thekumparampil, Michael Shavlovsky, Giulia
Fanti, Yesh Dattatreya, Sujay Sanghavi
- Abstract要約: 教師なし事前訓練はLearning-To-Rank問題には適用されていない。
ラベル付きデータがラベル付きデータに大きく劣る場合、GBDT(および他の非事前学習モデル)を精度良く上回る事前学習モデルを作成します。
- 参考スコア(独自算出の注目度): 16.881341859378875
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning (DL) models are state-of-the-art in text and image
domains, they have not yet consistently outperformed Gradient Boosted Decision
Trees (GBDTs) on tabular Learning-To-Rank (LTR) problems. Most of the recent
performance gains attained by DL models in text and image tasks have used
unsupervised pretraining, which exploits orders of magnitude more unlabeled
data than labeled data. To the best of our knowledge, unsupervised pretraining
has not been applied to the LTR problem, which often produces vast amounts of
unlabeled data. In this work, we study whether unsupervised pretraining can
improve LTR performance over GBDTs and other non-pretrained models. Using
simple design choices--including SimCLR-Rank, our ranking-specific modification
of SimCLR (an unsupervised pretraining method for images)--we produce
pretrained deep learning models that soundly outperform GBDTs (and other
non-pretrained models) in the case where labeled data is vastly outnumbered by
unlabeled data. We also show that pretrained models also often achieve
significantly better robustness than non-pretrained models (GBDTs or DL models)
in ranking outlier data.
- Abstract(参考訳): 深層学習(DL)モデルは、テキストや画像領域では最先端であるが、表層学習とランド(LTR)の問題に対して、まだGBDT(Gradient Boosted Decision Trees)を一貫して上回っているわけではない。
テキストや画像タスクでdlモデルによって達成された最近のパフォーマンス向上のほとんどは教師なし事前トレーニングを使用しており、ラベル付きデータよりもラベルなしデータの方が桁違いに多い。
我々の知る限りでは、大量のラベルなしデータを生成するLTR問題には教師なし事前学習は適用されていない。
本研究では,教師なし事前学習がGBDTや他の非事前学習モデルよりもLTR性能を向上させるかどうかを検討する。
simclr-rankを含む単純な設計選択を使って、simclr(画像の教師なし事前学習方法)のランキング固有の修正 -- ラベル付きデータがラベルなしデータで圧倒的に多い場合に、gbdt(および他の非訓練済みモデル)を上回るトレーニング済みのディープラーニングモデルを作成します。
また,事前学習モデルでは,非事前学習モデル (GBDTs や DL モデル) よりも,アウトレーラデータのランク付けにおいて,はるかに優れたロバスト性が得られることも示している。
関連論文リスト
- Learning with Less: Knowledge Distillation from Large Language Models via Unlabeled Data [54.934578742209716]
現実世界のNLPアプリケーションでは、Large Language Models (LLMs) は巨大なデータセットの広範なトレーニングのために、有望なソリューションを提供する。
LLKDは、教師と学生の両方の信号を組み込んだ適応的なサンプル選択法である。
総合的な実験により,LLKDは高いデータ効率で,様々なデータセットで優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-11-12T18:57:59Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - TabR: Tabular Deep Learning Meets Nearest Neighbors in 2023 [33.70333110327871]
TabR -- 基本的には、中央にカスタムk-Nearest-Neighborsのようなコンポーネントを備えたフィードフォワードネットワークを提供します。
数百万オブジェクトまでのデータセットを持つ公開ベンチマークセットでは、TabRが最高の平均パフォーマンスを示している。
はるかに高いパフォーマンスに加えて、TabRはシンプルで、はるかに効率的です。
論文 参考訳(メタデータ) (2023-07-26T17:58:07Z) - When Do Neural Nets Outperform Boosted Trees on Tabular Data? [65.30290020731825]
私たちは一歩後退して、'NN vs. GBDT'議論の重要性に疑問を投げかけます。
驚くほど多くのデータセットに対して、GBDTとNNのパフォーマンスの違いは無視できる。
我々は、データセットのどの特性がNNやGBDTを適切に動作させるために適しているかを決定するために、数十のメタ機能を分析します。
私たちの洞察は、実践者がデータセット上で最もうまく機能するテクニックを決定するためのガイドとして機能します。
論文 参考訳(メタデータ) (2023-05-04T17:04:41Z) - Is margin all you need? An extensive empirical study of active learning
on tabular data [66.18464006872345]
我々は,OpenML-CC18ベンチマークを用いて,69の実世界のデータセット上での各種能動学習アルゴリズムの性能を解析した。
意外なことに、古典的なマージンサンプリング技術は、現在の最先端技術を含む、他のすべてのものよりも優れている。
論文 参考訳(メタデータ) (2022-10-07T21:18:24Z) - Muddling Label Regularization: Deep Learning for Tabular Datasets [0.0]
標準FFNNをトレーニングするための新しいエンドツーエンドの差別化手法を提案する。
textttMLRは、古典的なNNとゴールドスタンダードより優れています。
textttMLRは、既製のDLソリューションとして使用したり、最も高度なMLパイプラインに統合することができる。
論文 参考訳(メタデータ) (2021-06-08T15:44:02Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z) - Meta-Learning for Neural Relation Classification with Distant
Supervision [38.755055486296435]
本稿では,参照データの指導の下で,雑音の多い学習データを重み付けするメタラーニング手法を提案する。
いくつかのデータセットの実験では、参照データがトレーニングデータの選択を効果的にガイドできることが示されている。
論文 参考訳(メタデータ) (2020-10-26T12:52:28Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。