論文の概要: Enabling Efficiency-Precision Trade-offs for Label Trees in Extreme
Classification
- arxiv url: http://arxiv.org/abs/2106.00730v1
- Date: Tue, 1 Jun 2021 19:02:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-03 14:21:43.368773
- Title: Enabling Efficiency-Precision Trade-offs for Label Trees in Extreme
Classification
- Title(参考訳): 極端分類におけるラベル木の効率-精度トレードオフ
- Authors: Tavor Z. Baharav, Daniel L. Jiang, Kedarnath Kolluri, Sujay Sanghavi,
Inderjit S. Dhillon
- Abstract要約: Extreme Multi-label Classification (XMC) は、非常に大きなラベルセットから関連するラベルのサブセットでデータポイントをタグ付けできるモデルを学ぶことを目的としている。
本稿では,両者の利点を交換する中間操作点を構築するための,効率的な情報理論に基づくアルゴリズムを提案する。
提案手法は,Parabelと同じ精度を維持しながら,予測レイテンシのプロキシを最大28%削減することができる。
- 参考スコア(独自算出の注目度): 43.840626501982314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Extreme multi-label classification (XMC) aims to learn a model that can tag
data points with a subset of relevant labels from an extremely large label set.
Real world e-commerce applications like personalized recommendations and
product advertising can be formulated as XMC problems, where the objective is
to predict for a user a small subset of items from a catalog of several million
products. For such applications, a common approach is to organize these labels
into a tree, enabling training and inference times that are logarithmic in the
number of labels. While training a model once a label tree is available is well
studied, designing the structure of the tree is a difficult task that is not
yet well understood, and can dramatically impact both model latency and
statistical performance. Existing approaches to tree construction fall at an
extreme point, either optimizing exclusively for statistical performance, or
for latency. We propose an efficient information theory inspired algorithm to
construct intermediary operating points that trade off between the benefits of
both. Our algorithm enables interpolation between these objectives, which was
not previously possible. We corroborate our theoretical analysis with numerical
results, showing that on the Wiki-500K benchmark dataset our method can reduce
a proxy for expected latency by up to 28% while maintaining the same accuracy
as Parabel. On several datasets derived from e-commerce customer logs, our
modified label tree is able to improve this expected latency metric by up to
20% while maintaining the same accuracy. Finally, we discuss challenges in
realizing these latency improvements in deployed models.
- Abstract(参考訳): Extreme Multi-label Classification (XMC) は、非常に大きなラベルセットから関連するラベルのサブセットでデータポイントをタグ付けできるモデルを学ぶことを目的としている。
パーソナライズされたレコメンデーションや製品広告のような現実世界のeコマースアプリケーションは、XMC問題として定式化することができる。
このようなアプリケーションでは、ラベルを木に整理し、ラベル数に対数的なトレーニングと推論時間を可能にするのが一般的なアプローチである。
ラベルツリーが利用可能になったらモデルをトレーニングすることはよく研究されていますが、ツリーの構造を設計することは、まだよく理解されていない難しい作業であり、モデルのレイテンシと統計パフォーマンスの両方に劇的に影響を与えます。
既存のツリー構築アプローチは、統計的なパフォーマンスにのみ最適化するか、レイテンシーに最適化される。
我々は,両者の利益をトレードオフする中間操作点を構築するための効率的な情報理論インスパイアアルゴリズムを提案する。
本アルゴリズムは,従来不可能であったこれらの目的間の補間を可能にする。
wiki-500kベンチマークデータセットでは、パラベルと同じ精度を維持しつつ、予測レイテンシのプロキシを最大28%削減できることを示した。
電子商取引の顧客ログから得られたいくつかのデータセットでは、修正されたラベルツリーが、同じ精度を維持しながら、この予測レイテンシメトリックを最大20%改善することができます。
最後に,デプロイモデルのレイテンシ向上を実現する上での課題について論じる。
関連論文リスト
- Learning with Noisy Labels: Interconnection of Two
Expectation-Maximizations [41.65589788264123]
労働集約型ラベリングは、ディープラーニングに基づくコンピュータビジョンアルゴリズムの開発においてボトルネックとなる。
雑音データ中の構造的多様体を見つけるタスクとして形式化された雑音ラベル(LNL)問題による学習に対処する。
本アルゴリズムは,複数の標準ベンチマークにおいて,様々な種類のラベルノイズの下でかなりのマージンを有する最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T07:22:30Z) - Improving Text Matching in E-Commerce Search with A Rationalizable,
Intervenable and Fast Entity-Based Relevance Model [78.80174696043021]
エンティティベース関連モデル(EBRM)と呼ばれる新しいモデルを提案する。
この分解により、高精度にクロスエンコーダQE関連モジュールを使用できる。
また、ユーザログから自動生成されたQEデータによるQEモジュールの事前トレーニングにより、全体的なパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-07-01T15:44:53Z) - LESS: Label-Efficient Semantic Segmentation for LiDAR Point Clouds [62.49198183539889]
我々は,LiDAR点雲を用いた屋外シーンのためのラベル効率のよいセマンティックセマンティックセマンティクスパイプラインを提案する。
本手法は,半弱教師付き学習を用いて,効率的なラベリング手法を設計する。
提案手法は,100%ラベル付き完全教師付き手法と比較して,さらに競争力が高い。
論文 参考訳(メタデータ) (2022-10-14T19:13:36Z) - Effective Token Graph Modeling using a Novel Labeling Strategy for
Structured Sentiment Analysis [39.770652220521384]
構造化感情分析の最先端モデルでは、タスクを依存性解析の問題として捉えている。
スパン予測とスパン関係予測のラベル比は不均衡である。
依存グラフの2つのノードは複数の弧を持つことができないため、重複した感情は認識できない。
論文 参考訳(メタデータ) (2022-03-21T08:23:03Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - Robust Optimal Classification Trees under Noisy Labels [1.5039745292757671]
本稿では,学習サンプルにノイズラベルが存在することを考慮し,最適な分類木を構築するための新しい手法を提案する。
本手法は,(1)SVMのパラダイムを適用したクラス間の分離マージンを最大化するために,分類木の分割ルールを設計し,(2)ラベルノイズを検知しようとする木の構築中に,トレーニングサンプルのラベルを変更することを許している。
論文 参考訳(メタデータ) (2020-12-15T19:12:29Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Probabilistic Label Trees for Extreme Multi-label Classification [8.347190888362194]
極端なマルチラベル分類(XMLC)の問題は,木としてラベルを整理することで効率的に処理される。
PLTは多ラベル問題に対する階層的ソフトマックスの一般化として扱うことができる。
このモデルを導入し、トレーニングと推論手順とその計算コストについて論じる。
完全にオンラインのアルゴリズムと木構造を持つアルゴリズムとの間には,特定の等価性があることを実証する。
論文 参考訳(メタデータ) (2020-09-23T15:30:00Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z) - GraftNet: An Engineering Implementation of CNN for Fine-grained
Multi-label Task [17.885793498743723]
GraftNetは木のようなカスタマイズ可能なネットワークで、トランクにはジェネリックな特徴抽出のための動的グラフが事前訓練されている。
本研究では,人間の属性認識タスクにおいて,細粒度多ラベル分類の優れた性能を示す。
論文 参考訳(メタデータ) (2020-04-27T11:08:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。