論文の概要: Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data
- arxiv url: http://arxiv.org/abs/2109.10856v1
- Date: Wed, 22 Sep 2021 17:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 14:43:14.339073
- Title: Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data
- Title(参考訳): Coarse2Fine: 粗粒度アノテーションデータによるきめ細かいテキスト分類
- Authors: Dheeraj Mekala, Varun Gangal, Jingbo Shang
- Abstract要約: 本稿では,粗い注釈付きデータに対して,きめ細かい分類を行うことを目的とした,粗い粒度分類と呼ばれる新しい問題を提案する。
新しいきめ細かい人間のアノテーションを求める代わりに、ラベル表面の名前のみを人間の手引きとして活用することにしました。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
- 参考スコア(独自算出の注目度): 22.81068960545234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing text classification methods mainly focus on a fixed label set,
whereas many real-world applications require extending to new fine-grained
classes as the number of samples per label increases. To accommodate such
requirements, we introduce a new problem called coarse-to-fine grained
classification, which aims to perform fine-grained classification on coarsely
annotated data. Instead of asking for new fine-grained human annotations, we
opt to leverage label surface names as the only human guidance and weave in
rich pre-trained generative language models into the iterative weak supervision
strategy. Specifically, we first propose a label-conditioned finetuning
formulation to attune these generators for our task. Furthermore, we devise a
regularization objective based on the coarse-fine label constraints derived
from our problem setting, giving us even further improvements over the prior
formulation. Our framework uses the fine-tuned generative models to sample
pseudo-training data for training the classifier, and bootstraps on real
unlabeled data for model refinement. Extensive experiments and case studies on
two real-world datasets demonstrate superior performance over SOTA zero-shot
classification baselines.
- Abstract(参考訳): 既存のテキスト分類手法は主に固定ラベルセットに焦点を当てているが、多くの実世界のアプリケーションはラベル毎のサンプル数が増加するにつれて、新しいきめ細かいクラスに拡張する必要がある。
このような要求を満たすために、粗粒度分類と呼ばれる、粗粒度データに対する微粒度分類を行う新しい問題を導入する。
新しいきめ細かな人間のアノテーションを求める代わりに、ラベル表面の名称を唯一の人間のガイダンスとして活用し、訓練済みの豊かな生成言語モデルを反復的な弱い監督戦略に織り込むことを選択しました。
具体的には,まずラベル条件付き微調整定式化を提案する。
さらに,問題設定から得られた粗いラベル制約に基づいて正規化目標を考案し,事前の定式化よりもさらに改善した。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
2つの実世界のデータセットに関する大規模な実験とケーススタディは、SOTAゼロショット分類ベースラインよりも優れた性能を示す。
関連論文リスト
- XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Cluster & Tune: Boost Cold Start Performance in Text Classification [21.957605438780224]
実世界のシナリオでは、ラベル付きデータが不足している場合、テキスト分類タスクはコールドスタートから始まることが多い。
中間的教師なし分類タスクを追加することにより,そのようなモデルの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-03-20T15:29:34Z) - Debiased Pseudo Labeling in Self-Training [77.83549261035277]
ディープニューラルネットワークは、大規模ラベル付きデータセットの助けを借りて、幅広いタスクで顕著なパフォーマンスを達成する。
ラベル付きデータの要求を軽減するため、ラベル付けされていないデータに擬似ラベルを付けることにより、学術と産業の両方で自己学習が広く使われている。
疑似ラベルの生成と利用を2つの独立した頭文字で分離するデバイアスドを提案する。
論文 参考訳(メタデータ) (2022-02-15T02:14:33Z) - Label Hallucination for Few-Shot Classification [40.43730385915566]
ほとんどショットの分類では、新しい未知のクラスを認識するために、大きな注釈付きベースデータセットから学んだ知識を適応する必要がある。
これら2つの戦略に代替的なアプローチを提案する。
提案手法は, 精度の高い4つの複数ショット分類ベンチマークにおいて, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:18:41Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z) - Weakly Supervised Classification Using Group-Level Labels [12.285265254225166]
本稿では,グループレベルのバイナリラベルを,インスタンスレベルのバイナリ分類モデルの訓練に弱い監督力として利用する手法を提案する。
グループレベルのラベルを個別のインスタンスに対してクラス条件ノイズ(CCN)ラベルとしてモデル化し,強ラベル付きインスタンスでトレーニングされたモデルの予測を正規化するためにノイズラベルを使用する。
論文 参考訳(メタデータ) (2021-08-16T20:01:45Z) - Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine
Pseudo-Labeling with Visual-Semantic Meta-Embedding [13.063136901934865]
少ないショットラーニングは、テスト時に少数のサンプルしか持たない、新しいカテゴリに迅速に適応することを目的としている。
本稿では,より困難なシナリオ,すなわちクロスグラニュラリティ・グラニュラリティ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラ
画像埋め込みの類似性に応じて,各粗いクラスを擬似微細クラスにグリーディクラスタリングすることで,詳細なデータ分布を近似する。
論文 参考訳(メタデータ) (2020-07-11T03:44:21Z) - Automatically Discovering and Learning New Visual Categories with
Ranking Statistics [145.89790963544314]
我々は,他のクラスをラベル付けした画像コレクションにおいて,新しいクラスを発見する問題に対処する。
汎用クラスタリングモデルを学び、後者を用いて、非競合データ中の新しいクラスを識別する。
我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を,有意なマージンで評価した。
論文 参考訳(メタデータ) (2020-02-13T18:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。