論文の概要: Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification
- arxiv url: http://arxiv.org/abs/2309.13543v1
- Date: Sun, 24 Sep 2023 04:12:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 19:13:26.058818
- Title: Substituting Data Annotation with Balanced Updates and Collective Loss
in Multi-label Text Classification
- Title(参考訳): 複数ラベルテキスト分類における平衡更新と集合損失によるデータアノテーションの置換
- Authors: Muberra Ozmen, Joseph Cotnareanu, Mark Coates
- Abstract要約: MLTC(Multi-label text classification)は、あるテキストに複数のラベルを割り当てるタスクである。
本報告では,MLTCの問題点を,ラベル数に比例して,利用可能な監視信号の大きさが線形であるアノテーションフリーおよび希少アノテーション設定で検討する。
提案手法は,(1)事前学習した言語モデルを用いて,入力テキストを事前ラベル候補の集合にマッピングし,(2)ラベル記述による署名付きラベル依存グラフの計算,(3)ラベル依存グラフに沿ったメッセージパスによる事前ラベル候補の更新を行う。
- 参考スコア(独自算出の注目度): 19.592985329023733
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-label text classification (MLTC) is the task of assigning multiple
labels to a given text, and has a wide range of application domains. Most
existing approaches require an enormous amount of annotated data to learn a
classifier and/or a set of well-defined constraints on the label space
structure, such as hierarchical relations which may be complicated to provide
as the number of labels increases. In this paper, we study the MLTC problem in
annotation-free and scarce-annotation settings in which the magnitude of
available supervision signals is linear to the number of labels. Our method
follows three steps, (1) mapping input text into a set of preliminary label
likelihoods by natural language inference using a pre-trained language model,
(2) calculating a signed label dependency graph by label descriptions, and (3)
updating the preliminary label likelihoods with message passing along the label
dependency graph, driven with a collective loss function that injects the
information of expected label frequency and average multi-label cardinality of
predictions. The experiments show that the proposed framework achieves
effective performance under low supervision settings with almost imperceptible
computational and memory overheads added to the usage of pre-trained language
model outperforming its initial performance by 70\% in terms of example-based
F1 score.
- Abstract(参考訳): マルチラベルテキスト分類(MLTC)は、与えられたテキストに複数のラベルを割り当てるタスクであり、幅広いアプリケーションドメインを持つ。
既存のほとんどのアプローチでは、分類器を学ぶために膨大な量の注釈付きデータと、ラベルの数が増加するにつれて複雑になるような階層関係のようなラベル空間構造に関する明確に定義された制約を必要とする。
本稿では,利用可能な監視信号の大きさがラベル数に線形であるアノテーションフリーおよび希少アノテーション設定におけるmltc問題について検討する。
本手法は,(1)学習済み言語モデルを用いた自然言語推論による入力テキストの予備ラベル推定,(2)ラベル記述による符号付きラベル依存グラフの算出,(3)ラベル依存グラフに沿ったメッセージパスによる予備ラベル推定の更新,(3)期待ラベル頻度と予測の平均マルチラベル濃度の情報を注入する集合損失関数,の3つのステップを踏襲する。
実験の結果,本フレームワークは,事前学習した言語モデルの使用にほぼ不可避な計算量とメモリオーバーヘッドを付加した低管理環境下での効果的な性能を,実例に基づくf1スコアの70\%向上することを示した。
関連論文リスト
- Determined Multi-Label Learning via Similarity-Based Prompt [12.428779617221366]
マルチラベル分類では、各トレーニングインスタンスは複数のクラスラベルに同時に関連付けられている。
この問題を軽減するために,textitDetermined Multi-Label Learning (DMLL) と呼ばれる新しいラベル設定を提案する。
論文 参考訳(メタデータ) (2024-03-25T07:08:01Z) - Bridging the Gap between Model Explanations in Partially Annotated
Multi-label Classification [85.76130799062379]
偽陰性ラベルがモデルの説明にどのように影響するかを考察する。
本稿では,部分ラベルで学習したモデルの属性スコアを向上し,その説明をフルラベルで学習したモデルと類似させる。
論文 参考訳(メタデータ) (2023-04-04T14:00:59Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Learning with Noisy Labels by Targeted Relabeling [52.0329205268734]
クラウドソーシングプラットフォームは、ディープニューラルネットワークをトレーニングするためのデータセット収集によく使用される。
本稿では,少数のアノテーションを予約して,高い確率でラベル付け可能なエラーを明示的に緩和する手法を提案する。
論文 参考訳(メタデータ) (2021-10-15T20:37:29Z) - Weakly Supervised Classification Using Group-Level Labels [12.285265254225166]
本稿では,グループレベルのバイナリラベルを,インスタンスレベルのバイナリ分類モデルの訓練に弱い監督力として利用する手法を提案する。
グループレベルのラベルを個別のインスタンスに対してクラス条件ノイズ(CCN)ラベルとしてモデル化し,強ラベル付きインスタンスでトレーニングされたモデルの予測を正規化するためにノイズラベルを使用する。
論文 参考訳(メタデータ) (2021-08-16T20:01:45Z) - Enhancing Label Correlation Feedback in Multi-Label Text Classification
via Multi-Task Learning [6.1538971100140145]
ラベル相関フィードバックを高めるために,マルチタスク学習を用いた新しい手法を提案する。
本稿では,ラベル相関学習を強化するための2つの補助ラベル共起予測タスクを提案する。
論文 参考訳(メタデータ) (2021-06-06T12:26:14Z) - A Study on the Autoregressive and non-Autoregressive Multi-label
Learning [77.11075863067131]
本稿では,ラベルとラベルの依存関係を共同で抽出する自己アテンションに基づく変分エンコーダモデルを提案する。
したがって、ラベルラベルとラベル機能の両方の依存関係を保ちながら、すべてのラベルを並列に予測することができる。
論文 参考訳(メタデータ) (2020-12-03T05:41:44Z) - An Empirical Study on Large-Scale Multi-Label Text Classification
Including Few and Zero-Shot Labels [49.036212158261215]
大規模なMulti-label Text Classification (LMTC) は、幅広い自然言語処理 (NLP) アプリケーションを持つ。
Label-Wise Attention Networks (LWANs) を用いた最新のLMTCモデル
確率的ラベル木(PLT)に基づく階層的手法がLWANより優れていることを示す。
BERTとLWANを組み合わせた最先端手法を提案する。
論文 参考訳(メタデータ) (2020-10-04T18:55:47Z) - LEAN-LIFE: A Label-Efficient Annotation Framework Towards Learning from
Explanation [40.72453599376169]
LEAN-LIFEは、シーケンスラベリングと分類タスクのためのWebベースのラベル有効アノテーションフレームワークである。
我々のフレームワークは、この強化された監視技術を利用した最初のものであり、3つの重要なタスクに役立ちます。
論文 参考訳(メタデータ) (2020-04-16T07:38:07Z) - Multi-Label Text Classification using Attention-based Graph Neural
Network [0.0]
ラベル間の注意的依存構造を捉えるために,グラフアテンションネットワークに基づくモデルを提案する。
提案モデルでは, 従来の最先端モデルと比較して, 類似あるいは良好な性能が得られた。
論文 参考訳(メタデータ) (2020-03-22T17:12:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。