Fugu-MT 論文翻訳(概要): End-to-End Learning to Index and Search in Large Output Spaces

論文の概要: End-to-End Learning to Index and Search in Large Output Spaces

arxiv url: http://arxiv.org/abs/2210.08410v1
Date: Sun, 16 Oct 2022 01:34:17 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-18 21:42:46.664296
Title: End-to-End Learning to Index and Search in Large Output Spaces
Title（参考訳）: 大規模出力空間におけるインデックスと探索のためのエンドツーエンド学習
Authors: Nilesh Gupta, Patrick H. Chen, Hsiang-Fu Yu, Cho-Jui Hsieh, Inderjit S Dhillon
Abstract要約: Extreme Multi-label Classification (XMC) は現実世界の問題を解決するための一般的なフレームワークである。本稿では,木系インデックスを特殊重み付きグラフベースインデックスに緩和する新しい手法を提案する。 ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。
参考スコア（独自算出の注目度）: 95.16066833532396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Extreme multi-label classification (XMC) is a popular framework for solving many real-world problems that require accurate prediction from a very large number of potential output choices. A popular approach for dealing with the large label space is to arrange the labels into a shallow tree-based index and then learn an ML model to efficiently search this index via beam search. Existing methods initialize the tree index by clustering the label space into a few mutually exclusive clusters based on pre-defined features and keep it fixed throughout the training procedure. This approach results in a sub-optimal indexing structure over the label space and limits the search performance to the quality of choices made during the initialization of the index. In this paper, we propose a novel method ELIAS which relaxes the tree-based index to a specialized weighted graph-based index which is learned end-to-end with the final task objective. More specifically, ELIAS models the discrete cluster-to-label assignments in the existing tree-based index as soft learnable parameters that are learned jointly with the rest of the ML model. ELIAS achieves state-of-the-art performance on several large-scale extreme classification benchmarks with millions of labels. In particular, ELIAS can be up to 2.5% better at precision@1 and up to 4% better at recall@100 than existing XMC methods. A PyTorch implementation of ELIAS along with other resources is available at https://github.com/nilesh2797/ELIAS.
Abstract（参考訳）: Extreme Multi-label Classification (XMC) は、非常に多くの潜在的な出力選択から正確な予測を必要とする現実世界の多くの問題を解決するための一般的なフレームワークである。大きなラベル空間を扱う一般的なアプローチは、ラベルを浅い木ベースのインデックスに配置し、mlモデルを学び、ビームサーチによって効率的にこのインデックスを検索する。既存のメソッドは、事前に定義された機能に基づいてラベル空間をいくつかの排他的クラスタにクラスタ化してツリーインデックスを初期化し、トレーニング手順を通してそれを固定する。この手法によりラベル空間上の準最適インデックス構造が得られ、インデックスの初期化時に行われた選択の質に探索性能が制限される。本稿では,木に基づくインデックスを,最終課題の目的とともにエンドツーエンドに学習する専門的な重み付きグラフベースインデックスに緩和する新しい手法であるERIASを提案する。より具体的には、ERIASは既存のツリーベースインデックスの離散クラスタ間割り当てを、MLモデルの他の部分と共同で学習されるソフトラージ可能なパラメータとしてモデル化する。 ELIASは、数百万のラベルを持つ大規模極端分類ベンチマークで最先端のパフォーマンスを達成する。特に、ERIASは精度@1で最大2.5%、リコール@100で最大4%改善できる。 ELIASのPyTorch実装と他のリソースはhttps://github.com/nilesh2797/ELIASで入手できる。

関連論文リスト

Rethinking ANN-based Retrieval: Multifaceted Learnable Index for Large-scale Recommendation System [46.70111672855811]
MultiFaceted Learnable Index (MFLI)は、マルチフェイスアイテムの埋め込みとインデックスを統一されたフレームワーク内で学習するスケーラブルでリアルタイムな検索パラダイムである。 MFLIは、エンゲージメントタスクのリコールを最大11.8%改善し、コールドコンテントデリバリを最大57.29%改善し、セマンティック関連性を従来の最先端手法と比較して13.5%改善した。
論文参考訳（メタデータ） (2026-02-18T01:31:29Z)
HAKES: Scalable Vector Database for Embedding Search Service [16.034584281180006]
我々は,並列な読み書きワークロード下で高いスループットと高いリコールを実現するベクトルデータベースを構築した。我々のインデックスは、高リコール領域と同時読み書きワークロード下でインデックスベースラインより優れています。 nameysはスケーラブルで、ベースラインよりも最大16タイムで高いスループットを実現します。
論文参考訳（メタデータ） (2025-05-18T19:26:29Z)
LLMIdxAdvis: Resource-Efficient Index Advisor Utilizing Large Language Model [24.579793425796193]
本研究では,大規模言語モデル(LLM)を用いた資源効率の指標アドバイザを提案する。 LLMは、インデックスレコメンデーションをシーケンス・ツー・シーケンスタスクとしてフレーム化し、ターゲットのワークロード、ストレージ制約、および対応するデータベース環境を入力として取り込む。 3つのOLAPと2つの実世界のベンチマークの実験によると、LLMIdxAdvisはランタイムを削減した競合インデックスレコメンデーションを提供する。
論文参考訳（メタデータ） (2025-03-10T22:01:24Z)
LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文参考訳（メタデータ） (2024-03-12T05:32:33Z)
Decision Making for Hierarchical Multi-label Classification with Multidimensional Local Precision Rate [4.812468844362369]
我々は,各クラスの各対象に対して,多次元局所精度率 (mLPR) と呼ばれる新しい統計モデルを導入する。我々は,mLPRの下位順序でクラス間でオブジェクトをソートするだけで,クラス階層を確実にすることができることを示す。これに対し、階層を尊重しながら推定mLPRを用いてCATCHの実証バージョンを最大化する新しいアルゴリズムであるHierRankを導入する。
論文参考訳（メタデータ） (2022-05-16T17:43:35Z)
Autoregressive Search Engines: Generating Substrings as Document Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文参考訳（メタデータ） (2022-04-22T10:45:01Z)
A Learned Index for Exact Similarity Search in Metric Spaces [25.330353637669386]
LIMSは、学習したインデックスを構築するために、データクラスタリングとピボットベースのデータ変換技術を使用することが提案されている。機械学習モデルはディスク上の各データレコードの位置を近似するために開発された。実世界のデータセットと合成データセットに関する大規模な実験は、従来の指標と比較してLIMSの優位性を示している。
論文参考訳（メタデータ） (2022-04-21T11:24:55Z)
Label Disentanglement in Partition-based Extreme Multilabel Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文参考訳（メタデータ） (2021-06-24T03:24:18Z)
IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文参考訳（メタデータ） (2021-03-17T23:13:25Z)
Probabilistic Label Trees for Extreme Multi-label Classification [8.347190888362194]
極端なマルチラベル分類(XMLC)の問題は,木としてラベルを整理することで効率的に処理される。 PLTは多ラベル問題に対する階層的ソフトマックスの一般化として扱うことができる。このモデルを導入し、トレーニングと推論手順とその計算コストについて論じる。完全にオンラインのアルゴリズムと木構造を持つアルゴリズムとの間には,特定の等価性があることを実証する。
論文参考訳（メタデータ） (2020-09-23T15:30:00Z)
The Case for Learned Spatial Indexes [62.88514422115702]
我々は、空間範囲の問合せに答えるために、最先端の学習した多次元インデックス構造(すなわちFlood)から提案した手法を用いる。 i) パーティション内の機械学習検索は、1次元でフィルタリングを使用する場合の2進探索よりも11.79%速く、39.51%高速であることを示す。また、2次元でフィルタする最も近い競合相手の1.23倍から1.83倍の速さで機械学習インデックスを精査する。
論文参考訳（メタデータ） (2020-08-24T12:09:55Z)
Tree Index: A New Cluster Evaluation Technique [2.790947019327459]
ここでは、Tree Indexと呼ばれるクラスタ評価手法を紹介する。私たちのツリーインデックスは、最小記述長の複雑さを伴わずに容易に学習できるクラスタ間のマージンを見つけています。脳のデータセット上のクラスタリング結果(様々な技術によって達成される)において、Tree Indexは合理的なクラスタと非感受性なクラスタを区別する。
論文参考訳（メタデータ） (2020-03-24T13:41:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。