論文の概要: End-to-End Learning to Index and Search in Large Output Spaces
- arxiv url: http://arxiv.org/abs/2210.08410v1
- Date: Sun, 16 Oct 2022 01:34:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 21:42:46.664296
- Title: End-to-End Learning to Index and Search in Large Output Spaces
- Title(参考訳): 大規模出力空間におけるインデックスと探索のためのエンドツーエンド学習
- Authors: Nilesh Gupta, Patrick H. Chen, Hsiang-Fu Yu, Cho-Jui Hsieh, Inderjit S
Dhillon
- Abstract要約: Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。
本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 95.16066833532396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme multi-label classification (XMC) is a popular framework for solving
many real-world problems that require accurate prediction from a very large
number of potential output choices. A popular approach for dealing with the
large label space is to arrange the labels into a shallow tree-based index and
then learn an ML model to efficiently search this index via beam search.
Existing methods initialize the tree index by clustering the label space into a
few mutually exclusive clusters based on pre-defined features and keep it fixed
throughout the training procedure. This approach results in a sub-optimal
indexing structure over the label space and limits the search performance to
the quality of choices made during the initialization of the index. In this
paper, we propose a novel method ELIAS which relaxes the tree-based index to a
specialized weighted graph-based index which is learned end-to-end with the
final task objective. More specifically, ELIAS models the discrete
cluster-to-label assignments in the existing tree-based index as soft learnable
parameters that are learned jointly with the rest of the ML model. ELIAS
achieves state-of-the-art performance on several large-scale extreme
classification benchmarks with millions of labels. In particular, ELIAS can be
up to 2.5% better at precision@1 and up to 4% better at recall@100 than
existing XMC methods. A PyTorch implementation of ELIAS along with other
resources is available at https://github.com/nilesh2797/ELIAS.
- Abstract(参考訳): Extreme Multi-label Classification (XMC) は、非常に多くの潜在的な出力選択から正確な予測を必要とする現実世界の多くの問題を解決するための一般的なフレームワークである。
大きなラベル空間を扱う一般的なアプローチは、ラベルを浅い木ベースのインデックスに配置し、mlモデルを学び、ビームサーチによって効率的にこのインデックスを検索する。
既存のメソッドは、事前に定義された機能に基づいてラベル空間をいくつかの排他的クラスタにクラスタ化してツリーインデックスを初期化し、トレーニング手順を通してそれを固定する。
この手法によりラベル空間上の準最適インデックス構造が得られ、インデックスの初期化時に行われた選択の質に探索性能が制限される。
本稿では,木に基づくインデックスを,最終課題の目的とともにエンドツーエンドに学習する専門的な重み付きグラフベースインデックスに緩和する新しい手法であるERIASを提案する。
より具体的には、ERIASは既存のツリーベースインデックスの離散クラスタ間割り当てを、MLモデルの他の部分と共同で学習されるソフトラージ可能なパラメータとしてモデル化する。
ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
特に、ERIASは精度@1で最大2.5%、リコール@100で最大4%改善できる。
ELIASのPyTorch実装と他のリソースはhttps://github.com/nilesh2797/ELIASで入手できる。
関連論文リスト
- LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Decision Making for Hierarchical Multi-label Classification with
Multidimensional Local Precision Rate [4.812468844362369]
我々は,各クラスの各対象に対して,多次元局所精度率 (mLPR) と呼ばれる新しい統計モデルを導入する。
我々は,mLPRの下位順序でクラス間でオブジェクトをソートするだけで,クラス階層を確実にすることができることを示す。
これに対し、階層を尊重しながら推定mLPRを用いてCATCHの実証バージョンを最大化する新しいアルゴリズムであるHierRankを導入する。
論文 参考訳(メタデータ) (2022-05-16T17:43:35Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z) - A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。
機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。
実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文 参考訳(メタデータ) (2022-04-21T11:24:55Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - Probabilistic Label Trees for Extreme Multi-label Classification [8.347190888362194]
極端なマルチラベル分類(XMLC)の問題は,木としてラベルを整理することで効率的に処理される。
PLTは多ラベル問題に対する階層的ソフトマックスの一般化として扱うことができる。
このモデルを導入し、トレーニングと推論手順とその計算コストについて論じる。
完全にオンラインのアルゴリズムと木構造を持つアルゴリズムとの間には,特定の等価性があることを実証する。
論文 参考訳(メタデータ) (2020-09-23T15:30:00Z) - The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。
i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。
また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文 参考訳(メタデータ) (2020-08-24T12:09:55Z) - Tree Index: A New Cluster Evaluation Technique [2.790947019327459]
ここでは、Tree Indexと呼ばれるクラスタ評価手法を紹介する。
私たちのツリーインデックスは、最小記述長の複雑さを伴わずに容易に学習できるクラスタ間のマージンを見つけています。
脳のデータセット上のクラスタリング結果(様々な技術によって達成される)において、Tree Indexは合理的なクラスタと非感受性なクラスタを区別する。
論文 参考訳(メタデータ) (2020-03-24T13:41:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。