論文の概要: Pairwise Instance Relation Augmentation for Long-tailed Multi-label Text
Classification
- arxiv url: http://arxiv.org/abs/2211.10685v1
- Date: Sat, 19 Nov 2022 12:45:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 19:30:07.828615
- Title: Pairwise Instance Relation Augmentation for Long-tailed Multi-label Text
Classification
- Title(参考訳): ロングテールマルチラベルテキスト分類のためのペアワイズインスタンス関係拡張
- Authors: Lin Xiao, Pengyu Xu, Liping Jing and Xiangliang Zhang
- Abstract要約: Pairwise Instance Relation Augmentation Network (PIRAN) を提案する。
PIRANはSOTA法を一貫して上回り、テールラベルの性能を劇的に向上させる。
- 参考スコア(独自算出の注目度): 38.66674700075432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label text classification (MLTC) is one of the key tasks in natural
language processing. It aims to assign multiple target labels to one document.
Due to the uneven popularity of labels, the number of documents per label
follows a long-tailed distribution in most cases. It is much more challenging
to learn classifiers for data-scarce tail labels than for data-rich head
labels. The main reason is that head labels usually have sufficient
information, e.g., a large intra-class diversity, while tail labels do not. In
response, we propose a Pairwise Instance Relation Augmentation Network (PIRAN)
to augment tailed-label documents for balancing tail labels and head labels.
PIRAN consists of a relation collector and an instance generator. The former
aims to extract the document pairwise relations from head labels. Taking these
relations as perturbations, the latter tries to generate new document instances
in high-level feature space around the limited given tailed-label instances.
Meanwhile, two regularizers (diversity and consistency) are designed to
constrain the generation process. The consistency-regularizer encourages the
variance of tail labels to be close to head labels and further balances the
whole datasets. And diversity-regularizer makes sure the generated instances
have diversity and avoids generating redundant instances. Extensive
experimental results on three benchmark datasets demonstrate that PIRAN
consistently outperforms the SOTA methods, and dramatically improves the
performance of tail labels.
- Abstract(参考訳): マルチラベルテキスト分類(MLTC)は自然言語処理における重要なタスクの1つである。
複数のターゲットラベルを1つのドキュメントに割り当てることを目的としている。
ラベルが不均一に人気があるため、ラベルごとのドキュメントの数は、ほとんどの場合、長い尾の配布に続く。
データリッチなヘッドラベルよりも、データスカースなテールラベルの分類器を学ぶことがずっと難しい。
主な理由は、通常、ヘッドラベルには十分な情報があり、例えば、大きなクラス内多様性があるが、テールラベルは持っていない。
そこで本研究では,尾ラベルと頭部ラベルのバランスをとるために,尾ラベル文書を補完するペアワイズインスタンス関係拡張ネットワーク(piran)を提案する。
PIRANはリレーショナルコレクタとインスタンスジェネレータで構成される。
前者は、ヘッドラベルから文書対関係を抽出することを目的としている。
これらの関係を摂動として、後者は制限付きラベルインスタンスの周りの高レベルな機能空間で新しいドキュメントインスタンスの生成を試みる。
一方、2つの正規化器(多様性と一貫性)は生成プロセスを制限するように設計されている。
一貫性レギュラライザは、テールラベルのばらつきをヘッドラベルに近づけ、データセット全体のバランスをさらに向上させる。
また、多様性調整器は生成されたインスタンスの多様性を保証し、冗長なインスタンスの生成を避ける。
3つのベンチマークデータセットの大規模な実験結果から、PIRANはSOTA法より一貫して優れ、テールラベルの性能が劇的に向上することが示された。
関連論文リスト
- Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Review of Extreme Multilabel Classification [1.888738346075831]
極端なマルチラベル分類(英: Extreme multilabel classification、XML)は、機械学習における活発な関心領域である。
コミュニティは、頭や尾のラベルの予測を正しく識別するために有用なメトリクスセットを考案した。
論文 参考訳(メタデータ) (2023-02-12T18:29:20Z) - Group is better than individual: Exploiting Label Topologies and Label
Relations for Joint Multiple Intent Detection and Slot Filling [39.76268402567324]
我々は2種類のトポロジーを含む異種ラベルグラフ(HLG)を構築した。
ラベル相関を利用してセマンティック・ラベルの相互作用を強化する。
また,ラベルに依存しないデコード機構を提案し,デコードのためのラベル相関をさらに活用する。
論文 参考訳(メタデータ) (2022-10-19T08:21:43Z) - Enhancing Label Correlation Feedback in Multi-Label Text Classification
via Multi-Task Learning [6.1538971100140145]
ラベル相関フィードバックを高めるために,マルチタスク学習を用いた新しい手法を提案する。
本稿では,ラベル相関学習を強化するための2つの補助ラベル共起予測タスクを提案する。
論文 参考訳(メタデータ) (2021-06-06T12:26:14Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Does Head Label Help for Long-Tailed Multi-Label Text Classification [45.762555329467446]
実際の応用では、ラベル周波数の分布は長い尾を持つことが多く、少数のラベルが大量の文書に関連付けられている。
データ豊富なヘッドラベルからデータ貧弱なテールラベルへメタ知識を転送するヘッドツーテールネットワーク(HTTN)を提案する。
論文 参考訳(メタデータ) (2021-01-24T12:31:39Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。