論文の概要: Retrieval-augmented Multi-label Text Classification
- arxiv url: http://arxiv.org/abs/2305.13058v1
- Date: Mon, 22 May 2023 14:16:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 15:36:39.942539
- Title: Retrieval-augmented Multi-label Text Classification
- Title(参考訳): 検索型マルチラベルテキスト分類
- Authors: Ilias Chalkidis and Yova Kementchedjhieva
- Abstract要約: マルチラベルテキスト分類は、大きなラベルセットの設定において難しい課題である。
Retrieval augmentationは、分類モデルのサンプル効率を改善することを目的としている。
本手法は,法および生物医学領域の4つのデータセットに対して評価する。
- 参考スコア(独自算出の注目度): 20.100081284294973
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-label text classification (MLC) is a challenging task in settings of
large label sets, where label support follows a Zipfian distribution. In this
paper, we address this problem through retrieval augmentation, aiming to
improve the sample efficiency of classification models. Our approach closely
follows the standard MLC architecture of a Transformer-based encoder paired
with a set of classification heads. In our case, however, the input document
representation is augmented through cross-attention to similar documents
retrieved from the training set and represented in a task-specific manner. We
evaluate this approach on four datasets from the legal and biomedical domains,
all of which feature highly skewed label distributions. Our experiments show
that retrieval augmentation substantially improves model performance on the
long tail of infrequent labels especially so for lower-resource training
scenarios and more challenging long-document data scenarios.
- Abstract(参考訳): マルチラベルテキスト分類(MLC、Multi-label text classification)は、大きなラベルセットの設定において難しいタスクである。
本稿では,分類モデルのサンプル効率を向上させるため,検索の強化を通じてこの問題に対処した。
本手法は,分類ヘッドの組と組んだトランスコーダの標準mlcアーキテクチャに密接に従っている。
しかし、この場合、入力文書表現は、トレーニングセットから取得した類似文書とクロスアテンションにより拡張され、タスク固有の方法で表現される。
我々はこのアプローチを,法律および生物医学領域の4つのデータセットで評価し,そのいずれも高度に歪んだラベル分布を特徴とする。
実験の結果,検索の強化は,低リソースのトレーニングシナリオや長期文書データシナリオにおいて,低頻度ラベルの長いテールにおけるモデル性能を大幅に向上させることがわかった。
関連論文リスト
- Improving Large-Scale k-Nearest Neighbor Text Categorization with Label
Autoencoders [0.0]
本稿では,大規模文書コレクションの自動セマンティックインデックス処理を扱うために,多ラベル遅延学習手法を提案する。
提案手法は従来のk-Nearest Neighborsアルゴリズムの進化である。
我々は,MEDLINEバイオメディカル文書コレクションの大部分において提案提案を評価した。
論文 参考訳(メタデータ) (2024-02-03T00:11:29Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Long-tailed Extreme Multi-label Text Classification with Generated
Pseudo Label Descriptions [28.416742933744942]
本稿では,新しい手法を提案することで,テールラベル予測の課題に対処する。
これは、厳しいデータ不足条件下で情報ラベル記述を生成するための訓練されたbacker-of-words(BoW)分類器の有効性を組み合わせたものである。
提案手法はXMTCベンチマークデータセット上での最先端性能を実現し,これまでで最高の手法であるテールラベル予測を著しく上回っている。
論文 参考訳(メタデータ) (2022-04-02T23:42:32Z) - Exploiting Local and Global Features in Transformer-based Extreme
Multi-label Text Classification [28.28186933768281]
本稿では,Transformerモデルが生成する局所的特徴とグローバル的特徴を組み合わせることで,分類器の予測能力を向上させる手法を提案する。
本実験は,提案モデルがベンチマークデータセットの最先端手法よりも優れているか,あるいは同等であることを示す。
論文 参考訳(メタデータ) (2022-04-02T19:55:23Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z) - PseudoSeg: Designing Pseudo Labels for Semantic Segmentation [78.35515004654553]
ラベルなしまたは弱いラベル付きデータを用いたトレーニングのための構造化された擬似ラベルを生成するための擬似ラベルの再設計を提案する。
提案手法の有効性を,低データと高データの両方において示す。
論文 参考訳(メタデータ) (2020-10-19T17:59:30Z) - Learning Image Labels On-the-fly for Training Robust Classification
Models [13.669654965671604]
ノイズの多いアノテーション(例えば、異なるアルゴリズムベースのラベル付け子から)を一緒に利用し、相互に分類タスクの学習に役立てることができるかを示す。
メタトレーニングベースのラベルサンプリングモジュールは、追加のバックプロパゲーションプロセスを通じてモデル学習の恩恵を受けるラベルに出席するように設計されている。
論文 参考訳(メタデータ) (2020-09-22T05:38:44Z) - UniT: Unified Knowledge Transfer for Any-shot Object Detection and
Segmentation [52.487469544343305]
オブジェクト検出とセグメンテーションの方法は、トレーニングのための大規模インスタンスレベルのアノテーションに依存します。
本稿では,直感的かつ統一的な半教師付きモデルを提案する。
論文 参考訳(メタデータ) (2020-06-12T22:45:47Z) - Global Multiclass Classification and Dataset Construction via
Heterogeneous Local Experts [37.27708297562079]
得られたデータセットの信頼性を確保しながら、ラベルの数を最小化する方法を示す。
MNISTとCIFAR-10データセットを用いた実験では、アグリゲーション方式の良好な精度が示されている。
論文 参考訳(メタデータ) (2020-05-21T18:07:42Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z) - Unsupervised Person Re-identification via Multi-label Classification [55.65870468861157]
本稿では,教師なしのReIDを多ラベル分類タスクとして定式化し,段階的に真のラベルを求める。
提案手法は,まず,各人物画像に単一クラスラベルを割り当てることから始まり,ラベル予測のために更新されたReIDモデルを活用することで,多ラベル分類へと進化する。
マルチラベル分類におけるReIDモデルのトレーニング効率を高めるために,メモリベースマルチラベル分類損失(MMCL)を提案する。
論文 参考訳(メタデータ) (2020-04-20T12:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。