論文の概要: PINA: Leveraging Side Information in eXtreme Multi-label Classification
via Predicted Instance Neighborhood Aggregation
- arxiv url: http://arxiv.org/abs/2305.12349v1
- Date: Sun, 21 May 2023 05:00:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 21:13:28.161225
- Title: PINA: Leveraging Side Information in eXtreme Multi-label Classification
via Predicted Instance Neighborhood Aggregation
- Title(参考訳): PINA: eXtreme Multi-label 分類におけるサイド情報の活用
- Authors: Eli Chien, Jiong Zhang, Cho-Jui Hsieh, Jyun-Yu Jiang, Wei-Cheng Chang,
Olgica Milenkovic, Hsiang-Fu Yu
- Abstract要約: eXtreme Multi-label Classification(XMC)問題は、非常に大きなラベル空間から関連するラベルを見つけることを目指している。
一般XMC問題に対するデータ強化手法であるPINA(Predicted Instance Neighborhood Aggregation)を提案する。
ラベルと入力インスタンスを機能のないインジケータと独立したエントリとして扱う既存のほとんどのXMCフレームワークとは異なり、PINAはラベルメタデータとトレーニングインスタンス間の相関関係から情報を抽出する。
- 参考スコア(独自算出の注目度): 105.52660004082766
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The eXtreme Multi-label Classification~(XMC) problem seeks to find relevant
labels from an exceptionally large label space. Most of the existing XMC
learners focus on the extraction of semantic features from input query text.
However, conventional XMC studies usually neglect the side information of
instances and labels, which can be of use in many real-world applications such
as recommendation systems and e-commerce product search. We propose Predicted
Instance Neighborhood Aggregation (PINA), a data enhancement method for the
general XMC problem that leverages beneficial side information. Unlike most
existing XMC frameworks that treat labels and input instances as featureless
indicators and independent entries, PINA extracts information from the label
metadata and the correlations among training instances. Extensive experimental
results demonstrate the consistent gain of PINA on various XMC tasks compared
to the state-of-the-art methods: PINA offers a gain in accuracy compared to
standard XR-Transformers on five public benchmark datasets. Moreover, PINA
achieves a $\sim 5\%$ gain in accuracy on the largest dataset
LF-AmazonTitles-1.3M. Our implementation is publicly available.
- Abstract(参考訳): eXtreme Multi-label Classification~(XMC)問題は、非常に大きなラベル空間から関連するラベルを見つけようとする。
既存のXMC学習者は、入力クエリテキストから意味的特徴を抽出することに集中している。
しかしながら、従来のXMC研究は、通常、レコメンデーションシステムやeコマース製品検索といった現実世界の多くのアプリケーションで使われるインスタンスやラベルの側面情報を無視する。
本稿では,有益な側情報を利用する一般XMC問題に対するデータ強化手法である予測インスタンス近傍集約(PINA)を提案する。
ラベルと入力インスタンスを機能のないインジケータと独立したエントリとして扱う既存のほとんどのXMCフレームワークとは異なり、PINAはラベルメタデータとトレーニングインスタンス間の相関関係から情報を抽出する。
PINAは5つの公開ベンチマークデータセットの標準XR変換器と比較して精度が向上する。
さらに、PINAは、最大のデータセットLF-AmazonTitles-1.3Mの精度で$\sim 5\%$ゲインを達成する。
私たちの実装は公開されています。
関連論文リスト
- Towards a Classification of Open-Source ML Models and Datasets for Software Engineering [52.257764273141184]
オープンソースの事前訓練モデル(PTM)とデータセットは、さまざまな機械学習(ML)タスクに広範なリソースを提供する。
これらのリソースには、ソフトウェア工学(SE)のニーズに合わせた分類がない。
我々は、人気のあるオープンソースのMLリポジトリであるHugging Face (HF)上で、SE指向の分類をPTMとデータセットに適用し、時間とともにPTMの進化を分析する。
論文 参考訳(メタデータ) (2024-11-14T18:52:05Z) - Prototypical Extreme Multi-label Classification with a Dynamic Margin Loss [6.244642999033755]
XMC (Extreme Multi-label Classification) メソッドは、非常に大きなラベル空間において、与えられたクエリの関連ラベルを予測する。
XMCにおける最近の研究は、テキスト記述を最も近いラベルの復元に適した埋め込み空間に投影するディープエンコーダを用いてこの問題に対処している。
本稿では,新しいプロトタイプ・コントラスト学習技術を用いて,ブルートフォース手法を超越した効率と性能を再現するXMC手法PRIMEを提案する。
論文 参考訳(メタデータ) (2024-10-27T10:24:23Z) - Learning label-label correlations in Extreme Multi-label Classification via Label Features [44.00852282861121]
Extreme Multi-label Text Classification (XMC)は、数百万のラベル選択から最も関連性の高いラベルのサブセットで入力を割り当てることができる分類器を学習する。
ラベル機能付き短文XMCは、検索広告におけるクエリ・ツー・アド・フレーズマッチング、タイトルベースの製品推薦、関連する検索の予測など、多くの分野に応用されている。
本稿では,ラベル共起グラフを用いてラベル特徴を付加データポイントとして活用し,トレーニング分布を補完する新しい手法であるガンダルフを提案する。
論文 参考訳(メタデータ) (2024-05-03T21:18:43Z) - Uncertainty in Extreme Multi-label Classification [81.14232824864787]
eXtreme Multi-label Classification (XMC)は、Webスケールの機械学習アプリケーションにおいて、ビッグデータの時代において不可欠なタスクである。
本稿では,確率的アンサンブルに基づく木系XMCモデルの一般的な不確実性定量化手法について検討する。
特に,XMCにおけるラベルレベルおよびインスタンスレベルの不確実性を解析し,ビームサーチに基づく一般的な近似フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-18T20:54:33Z) - Extreme Zero-Shot Learning for Extreme Text Classification [80.95271050744624]
極端ゼロショットXMC (EZ-XMC) とフーショットXMC (FS-XMC) について検討した。
自己教師付きコントラスト損失のあるトランスフォーマーベースのエンコーダの事前訓練を提案する。
我々は,多スケール適応クラスタリング,ラベル正規化,擬陽性ペアによる自己学習などの手法を用いて,生テキストを徹底的に活用する事前学習手法MACLRを開発した。
論文 参考訳(メタデータ) (2021-12-16T06:06:42Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - Extreme Multi-label Classification from Aggregated Labels [27.330826185375415]
XMC(Extreme Multi-label classification)は、非常に大きなラベルのラベルから入力の関連ラベルを見つける問題である。
我々は,グループラベルから個々のサンプルラベルをインプットする,新しいスケーラブルなアルゴリズムを開発した。
これは既存のXMC法と組み合わせて集計ラベル問題を解くことができる。
論文 参考訳(メタデータ) (2020-04-01T02:13:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。