論文の概要: ASTRA: Accurate and Scalable ANNS-based Training of Extreme Classifiers
- arxiv url: http://arxiv.org/abs/2409.20156v1
- Date: Mon, 30 Sep 2024 10:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 13:17:59.003771
- Title: ASTRA: Accurate and Scalable ANNS-based Training of Extreme Classifiers
- Title(参考訳): ASTRA: 極端分類器の高精度かつスケーラブルなANNSベーストレーニング
- Authors: Sonu Mehta, Jayashree Mohan, Nagarajan Natarajan, Ramachandran Ramjee, Manik Varma,
- Abstract要約: 高精度でスケーラブルなExtreme分類アルゴリズムASTRAを開発した。
ASTRAはSOTA精度を達成し、トレーニング時間を第2のベストに対して4倍から15倍に短縮する。
- 参考スコア(独自算出の注目度): 13.633871625193882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: `Extreme Classification'' (or XC) is the task of annotating data points (queries) with relevant labels (documents), from an extremely large set of $L$ possible labels, arising in search and recommendations. The most successful deep learning paradigm that has emerged over the last decade or so for XC is to embed the queries (and labels) using a deep encoder (e.g. DistilBERT), and use linear classifiers on top of the query embeddings. This architecture is of appeal because it enables millisecond-time inference using approximate nearest neighbor search (ANNS). The key question is how do we design training algorithms that are accurate as well as scale to $O(100M)$ labels on a limited number of GPUs. State-of-the-art XC techniques that demonstrate high accuracies (e.g., DEXML, Ren\'ee, DEXA) on standard datasets have per-epoch training time that scales as $O(L)$ or employ expensive negative sampling strategies, which are prohibitive in XC scenarios. In this work, we develop an accurate and scalable XC algorithm ASTRA with two key observations: (a) building ANNS index on the classifier vectors and retrieving hard negatives using the classifiers aligns the negative sampling strategy to the loss function optimized; (b) keeping the ANNS indices current as the classifiers change through the epochs is prohibitively expensive while using stale negatives (refreshed periodically) results in poor accuracy; to remedy this, we propose a negative sampling strategy that uses a mixture of importance sampling and uniform sampling. By extensive evaluation on standard XC as well as proprietary datasets with 120M labels, we demonstrate that ASTRA achieves SOTA precision, while reducing training time by 4x-15x relative to the second best.
- Abstract(参考訳): エクストリーム分類' (Extreme Classification', XC) は、検索やレコメンデーションで生じる非常に大きな$L$のラベルセットから、関連するラベル(ドキュメント)とデータポイント(クエリ)をアノテートするタスクである。
過去10年ほどでXCのために登場した最も成功したディープラーニングパラダイムは、ディープエンコーダ(例えば DistilBERT)を使用してクエリ(とラベル)を埋め込み、クエリの埋め込みの上に線形分類器を使用することである。
このアーキテクチャは、近距離探索(ANNS)を用いたミリ秒間推論を可能にするため、魅力的である。
鍵となる疑問は、限られた数のGPU上で、正確なトレーニングアルゴリズムをO(100M)$ラベルにスケールする方法です。
標準データセット上で高い精度(例えば、DEXML、Ren\'ee、DXA)を示す最先端のXC技術は、XCシナリオでは禁止される、$O(L)$または高価な負のサンプリング戦略を使用する、画期的なトレーニング時間を持つ。
本研究では,2つの重要な観測点を持つ高精度でスケーラブルなXCアルゴリズムASTRAを開発する。
(a)分類器ベクトル上にANNSインデックスを構築し、分類器を用いて強負を検索することにより、損失関数に最適化された負のサンプリング戦略を整合させる。
b) 分類器がエポックスを通して変化するにつれてANNSの指標を保ちながら, 安定な負の値(周期的に更新される)を用いることで, 精度が低下する一方で, 重要サンプリングと一様サンプリングの混合を用いた負のサンプリング戦略を提案する。
1億2000万のラベルを持つ標準XCとプロプライエタリなデータセットを広範囲に評価することにより、ASTRAがSOTA精度を実現し、トレーニング時間を第2のベストに比べて4倍から15倍短縮することを示した。
関連論文リスト
- Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - NGAME: Negative Mining-aware Mini-batching for Extreme Classification [31.00107203172698]
本稿では, NGAMEについて紹介する。NGAMEは軽量なミニバッチ生成技術で, 正に正確なバッチ内負のサンプルを提供する。
NGAMEは、極端な分類のための幅広いベンチマークデータセットの最先端の手法よりも最大16%精度が高いことが判明した。
論文 参考訳(メタデータ) (2022-07-10T12:32:12Z) - Dash: Semi-Supervised Learning with Dynamic Thresholding [72.74339790209531]
我々は、ラベルのない例を使ってモデルをトレーニングする半教師付き学習(SSL)アプローチを提案する。
提案手法であるDashは、ラベルなしデータ選択の観点から適応性を享受する。
論文 参考訳(メタデータ) (2021-09-01T23:52:29Z) - RETRIEVE: Coreset Selection for Efficient and Robust Semi-Supervised
Learning [9.155410614399159]
効率的で堅牢な半教師付き学習のためのコアセット選択フレームワークであるRETRIEVEを提案する。
我々は,RETRIEVEが従来のSSL設定で約3倍の高速化を実現し,最先端(SOTA)の堅牢なSSLアルゴリズムと比較して5倍の高速化を実現していることを示す。
論文 参考訳(メタデータ) (2021-06-14T21:18:47Z) - How to distribute data across tasks for meta-learning? [59.608652082495624]
タスクごとのデータポイントの最適な数は予算に依存しますが、それは大きな予算のためのユニークな一定の値に収束します。
この結果から,データ収集の簡便かつ効率的な手順が示唆された。
論文 参考訳(メタデータ) (2021-03-15T15:38:47Z) - Coping with Label Shift via Distributionally Robust Optimisation [72.80971421083937]
分散ロバスト最適化(DRO)に基づく目的最小化モデルを提案する。
そこで我々は,提案した目的を最適化するために,大規模問題に適した勾配降下近位ミラー上昇アルゴリズムを設計し,解析する。
論文 参考訳(メタデータ) (2020-10-23T08:33:04Z) - Pretrained Generalized Autoregressive Model with Adaptive Probabilistic
Label Clusters for Extreme Multi-label Text Classification [24.665469885904145]
本稿では,APLC-XLNetと呼ばれる新しいディープラーニング手法を提案する。
我々のアプローチは、最近リリースされた一般化自己回帰事前学習モデル(XLNet)を微調整し、入力テキストの密度の高い表現を学習する。
5つのベンチマークデータセットを用いて実験を行い、我々のアプローチが新たな最先端の結果を得たことを示す。
論文 参考訳(メタデータ) (2020-07-05T20:19:29Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Extreme Regression for Dynamic Search Advertising [13.091356349969407]
本稿では,eXtreme Regression (XR)と呼ばれる新しい学習パラダイムを紹介する。
XRは、Dynamic Search Advertising (DSA)を含む多くの大規模ランキングおよびレコメンデーションアプリケーションに対するエレガントなソリューションを提供することができる。
論文 参考訳(メタデータ) (2020-01-15T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。