論文の概要: Cluster-Guided Label Generation in Extreme Multi-Label Classification
- arxiv url: http://arxiv.org/abs/2302.09150v1
- Date: Fri, 17 Feb 2023 21:20:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 20:17:20.998848
- Title: Cluster-Guided Label Generation in Extreme Multi-Label Classification
- Title(参考訳): 極端多重ラベル分類におけるクラスタ誘導ラベル生成
- Authors: Taehee Jung, Joo-Kyung Kim, Sungjin Lee, and Dongyeop Kang
- Abstract要約: 我々はXMCを生成タスク(XLGen)としてキャストし、事前訓練されたテキスト-テキストモデルの恩恵を受ける。
本稿では,ラベルクラスタ情報を用いたラベル生成を階層的に低レベルラベルを生成するためのガイドとして提案する。
クラスタ誘導によるXLGenは、テールラベルの分類と生成ベースラインを著しく上回る。
- 参考スコア(独自算出の注目度): 20.242405689985667
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For extreme multi-label classification (XMC), existing classification-based
models poorly perform for tail labels and often ignore the semantic relations
among labels, like treating "Wikipedia" and "Wiki" as independent and separate
labels. In this paper, we cast XMC as a generation task (XLGen), where we
benefit from pre-trained text-to-text models. However, generating labels from
the extremely large label space is challenging without any constraints or
guidance. We, therefore, propose to guide label generation using label cluster
information to hierarchically generate lower-level labels. We also find that
frequency-based label ordering and using decoding ensemble methods are critical
factors for the improvements in XLGen. XLGen with cluster guidance
significantly outperforms the classification and generation baselines on tail
labels, and also generally improves the overall performance in four popular XMC
benchmarks. In human evaluation, we also find XLGen generates unseen but
plausible labels. Our code is now available at
https://github.com/alexa/xlgen-eacl-2023.
- Abstract(参考訳): 極端なマルチラベル分類(XMC)では、既存の分類ベースのモデルはテールラベルでは不十分であり、「Wikipedia」や「Wiki」を独立したラベルとして扱うなど、ラベル間の意味的関係を無視することが多い。
本稿では,XMCを生成タスク(XLGen)としてキャストし,事前学習したテキスト・テキスト・モデルの恩恵を受ける。
しかし、非常に大きなラベル空間からラベルを生成することは、制約やガイダンスなしに難しい。
そこで我々は,ラベルクラスタ情報を用いたラベル生成を階層的に低レベルラベルを生成するために提案する。
また,XLGenの改良には,周波数に基づくラベルオーダリングやデコードアンサンブル法が重要であることも確認した。
クラスタガイダンスを持つXLGenは、テールラベルの分類と生成ベースラインを著しく上回り、一般的な4つのXMCベンチマークの全体的なパフォーマンスも向上する。
人間による評価では、XLGenは目に見えないが可視なラベルを生成する。
私たちのコードはhttps://github.com/alexa/xlgen-eacl-2023で利用可能です。
関連論文リスト
- Active Generalized Category Discovery [60.69060965936214]
GCD(Generalized Category Discovery)は、新しいクラスと古いクラスの未ラベルのサンプルをクラスタ化するための取り組みである。
我々は,能動的学習の精神を取り入れて,能動的一般化カテゴリー発見(AGCD)という新たな設定を提案する。
提案手法は, 汎用および微粒なデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-07T07:12:24Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Review of Extreme Multilabel Classification [1.888738346075831]
極端なマルチラベル分類(英: Extreme multilabel classification、XML)は、機械学習における活発な関心領域である。
コミュニティは、頭や尾のラベルの予測を正しく識別するために有用なメトリクスセットを考案した。
論文 参考訳(メタデータ) (2023-02-12T18:29:20Z) - Pairwise Instance Relation Augmentation for Long-tailed Multi-label Text
Classification [38.66674700075432]
Pairwise Instance Relation Augmentation Network (PIRAN) を提案する。
PIRANはSOTA法を一貫して上回り、テールラベルの性能を劇的に向上させる。
論文 参考訳(メタデータ) (2022-11-19T12:45:54Z) - Multi-label Classification with High-rank and High-order Label
Correlations [62.39748565407201]
従来の手法では, ラベル行列を低ランク行列係数化した潜在ラベル空間に変換することにより, 高階ラベル相関を捕えることができた。
本稿では,高次ラベル相関を明示的に記述する簡易かつ効果的な手法を提案し,同時にラベル行列の高次値を維持する。
12個のベンチマークデータセットの比較研究により,マルチラベル分類における提案アルゴリズムの有効性が検証された。
論文 参考訳(メタデータ) (2022-07-09T05:15:31Z) - Open Vocabulary Extreme Classification Using Generative Models [24.17018785195843]
極端なマルチラベル分類(XMC)タスクは、非常に大きなラベルセットからラベルのサブセットでコンテンツをタグ付けすることを目的としている。
本稿では, ラベルの集合をフラットシーケンスとして生成し, 予測されたラベル順序に依存しない新たな損失を用いて訓練する GROOV を提案する。
提案手法の有効性を実証し,GROOVが与えられた語彙の外で有意なラベルを予測できるようなXMCデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2022-05-12T00:33:49Z) - Label Disentanglement in Partition-based Extreme Multilabel
Classification [111.25321342479491]
分割型XMCにおけるラベル割り当て問題を最適化問題として定式化できることを示す。
提案手法はマルチモーダルラベルのアンタングル化に成功し、4つのXMCベンチマークでSOTA(State-of-the-art)結果が得られた。
論文 参考訳(メタデータ) (2021-06-24T03:24:18Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - LightXML: Transformer with Dynamic Negative Sampling for
High-Performance Extreme Multi-label Text Classification [27.80266694835677]
Extreme Multi-label text Classification (XMC) は、大きなラベルセットから最も関連性の高いラベルを見つけるタスクである。
エンドツーエンドのトレーニングと動的負ラベルサンプリングを採用したLightXMLを提案する。
実験では、LightXMLは5つの極端なマルチラベルデータセットで最先端のメソッドより優れています。
論文 参考訳(メタデータ) (2021-01-09T07:04:18Z) - GNN-XML: Graph Neural Networks for Extreme Multi-label Text
Classification [23.79498916023468]
extreme multi-label text classification (xmtc) は、非常に大きなラベルセットから最も関連するラベルのサブセットでテキストインスタンスをタグ付けすることを目的としている。
GNN-XMLはXMTC問題に適したスケーラブルなグラフニューラルネットワークフレームワークである。
論文 参考訳(メタデータ) (2020-12-10T18:18:34Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。