論文の概要: PINA: Leveraging Side Information in eXtreme Multi-label Classification
via Predicted Instance Neighborhood Aggregation
- arxiv url: http://arxiv.org/abs/2305.12349v1
- Date: Sun, 21 May 2023 05:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:13:28.161225
- Title: PINA: Leveraging Side Information in eXtreme Multi-label Classification
via Predicted Instance Neighborhood Aggregation
- Title(参考訳): PINA: eXtreme Multi-label 分類におけるサイド情報の活用
- Authors: Eli Chien, Jiong Zhang, Cho-Jui Hsieh, Jyun-Yu Jiang, Wei-Cheng Chang,
Olgica Milenkovic, Hsiang-Fu Yu
- Abstract要約: eXtreme Multi-label Classification(XMC)問題は、非常に大きなラベル空間から関連するラベルを見つけることを目指している。
一般XMC問題に対するデータ強化手法であるPINA(Predicted Instance Neighborhood Aggregation)を提案する。
ラベルと入力インスタンスを機能のないインジケータと独立したエントリとして扱う既存のほとんどのXMCフレームワークとは異なり、PINAはラベルメタデータとトレーニングインスタンス間の相関関係から情報を抽出する。
- 参考スコア(独自算出の注目度): 105.52660004082766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The eXtreme Multi-label Classification~(XMC) problem seeks to find relevant
labels from an exceptionally large label space. Most of the existing XMC
learners focus on the extraction of semantic features from input query text.
However, conventional XMC studies usually neglect the side information of
instances and labels, which can be of use in many real-world applications such
as recommendation systems and e-commerce product search. We propose Predicted
Instance Neighborhood Aggregation (PINA), a data enhancement method for the
general XMC problem that leverages beneficial side information. Unlike most
existing XMC frameworks that treat labels and input instances as featureless
indicators and independent entries, PINA extracts information from the label
metadata and the correlations among training instances. Extensive experimental
results demonstrate the consistent gain of PINA on various XMC tasks compared
to the state-of-the-art methods: PINA offers a gain in accuracy compared to
standard XR-Transformers on five public benchmark datasets. Moreover, PINA
achieves a $\sim 5\%$ gain in accuracy on the largest dataset
LF-AmazonTitles-1.3M. Our implementation is publicly available.
- Abstract(参考訳): eXtreme Multi-label Classification~(XMC)問題は、非常に大きなラベル空間から関連するラベルを見つけようとする。
既存のXMC学習者は、入力クエリテキストから意味的特徴を抽出することに集中している。
しかしながら、従来のXMC研究は、通常、レコメンデーションシステムやeコマース製品検索といった現実世界の多くのアプリケーションで使われるインスタンスやラベルの側面情報を無視する。
本稿では,有益な側情報を利用する一般XMC問題に対するデータ強化手法である予測インスタンス近傍集約(PINA)を提案する。
ラベルと入力インスタンスを機能のないインジケータと独立したエントリとして扱う既存のほとんどのXMCフレームワークとは異なり、PINAはラベルメタデータとトレーニングインスタンス間の相関関係から情報を抽出する。
PINAは5つの公開ベンチマークデータセットの標準XR変換器と比較して精度が向上する。
さらに、PINAは、最大のデータセットLF-AmazonTitles-1.3Mの精度で$\sim 5\%$ゲインを達成する。
私たちの実装は公開されています。
関連論文リスト
- Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:18:43Z) - Ground Truth Inference for Weakly Supervised Entity Matching [76.6732856489872]
弱監督タスクのための単純だが強力なラベル付けモデルを提案する。
次に、エンティティマッチングのタスクに特化してラベルモデルを調整します。
その結果,従来の手法よりもF1スコアが9%高い結果が得られた。
論文 参考訳(メタデータ) (2022-11-13T17:57:07Z) - Uncertainty in Extreme Multi-label Classification [81.14232824864787]
eXtreme Multi-label Classification (XMC)は、Webスケールの機械学習アプリケーションにおいて、ビッグデータの時代において不可欠なタスクである。
本稿では,確率的アンサンブルに基づく木系XMCモデルの一般的な不確実性定量化手法について検討する。
特に,XMCにおけるラベルレベルおよびインスタンスレベルの不確実性を解析し,ビームサーチに基づく一般的な近似フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T20:54:33Z) - Extreme Zero-Shot Learning for Extreme Text Classification [80.95271050744624]
極端ゼロショットXMC (EZ-XMC) とフーショットXMC (FS-XMC) について検討した。
自己教師付きコントラスト損失のあるトランスフォーマーベースのエンコーダの事前訓練を提案する。
我々は,多スケール適応クラスタリング,ラベル正規化,擬陽性ペアによる自己学習などの手法を用いて,生テキストを徹底的に活用する事前学習手法MACLRを開発した。
論文 参考訳(メタデータ) (2021-12-16T06:06:42Z) - ECLARE: Extreme Classification with Label Graph Correlations [13.429436351837653]
本稿では,ラベルテキストだけでなくラベル相関も組み込んだスケーラブルなディープラーニングアーキテクチャECLAREを提案し,数ミリ秒以内の正確なリアルタイム予測を実現する。
ECLAREは、Bing検索エンジンからソースされた関連製品レコメンデーションタスク用のプロプライエタリデータセットと同様に、公開可能なベンチマークデータセットの両方で2~14%精度の予測を提供する。
論文 参考訳(メタデータ) (2021-07-31T15:13:13Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - Extreme Multi-label Classification from Aggregated Labels [27.330826185375415]
XMC(Extreme Multi-label classification)は、非常に大きなラベルのラベルから入力の関連ラベルを見つける問題である。
我々は,グループラベルから個々のサンプルラベルをインプットする,新しいスケーラブルなアルゴリズムを開発した。
これは既存のXMC法と組み合わせて集計ラベル問題を解くことができる。
論文 参考訳(メタデータ) (2020-04-01T02:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。