論文の概要: Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data
- arxiv url: http://arxiv.org/abs/2109.10856v1
- Date: Wed, 22 Sep 2021 17:29:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-23 14:43:14.339073
- Title: Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data
- Title(参考訳): Coarse2Fine: 粗粒度アノテーションデータによるきめ細かいテキスト分類
- Authors: Dheeraj Mekala, Varun Gangal, Jingbo Shang
- Abstract要約: 本稿では,粗い注釈付きデータに対して,きめ細かい分類を行うことを目的とした,粗い粒度分類と呼ばれる新しい問題を提案する。
新しいきめ細かい人間のアノテーションを求める代わりに、ラベル表面の名前のみを人間の手引きとして活用することにしました。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
- 参考スコア(独自算出の注目度): 22.81068960545234
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing text classification methods mainly focus on a fixed label set,
whereas many real-world applications require extending to new fine-grained
classes as the number of samples per label increases. To accommodate such
requirements, we introduce a new problem called coarse-to-fine grained
classification, which aims to perform fine-grained classification on coarsely
annotated data. Instead of asking for new fine-grained human annotations, we
opt to leverage label surface names as the only human guidance and weave in
rich pre-trained generative language models into the iterative weak supervision
strategy. Specifically, we first propose a label-conditioned finetuning
formulation to attune these generators for our task. Furthermore, we devise a
regularization objective based on the coarse-fine label constraints derived
from our problem setting, giving us even further improvements over the prior
formulation. Our framework uses the fine-tuned generative models to sample
pseudo-training data for training the classifier, and bootstraps on real
unlabeled data for model refinement. Extensive experiments and case studies on
two real-world datasets demonstrate superior performance over SOTA zero-shot
classification baselines.
- Abstract(参考訳): 既存のテキスト分類手法は主に固定ラベルセットに焦点を当てているが、多くの実世界のアプリケーションはラベル毎のサンプル数が増加するにつれて、新しいきめ細かいクラスに拡張する必要がある。
このような要求を満たすために、粗粒度分類と呼ばれる、粗粒度データに対する微粒度分類を行う新しい問題を導入する。
新しいきめ細かな人間のアノテーションを求める代わりに、ラベル表面の名称を唯一の人間のガイダンスとして活用し、訓練済みの豊かな生成言語モデルを反復的な弱い監督戦略に織り込むことを選択しました。
具体的には,まずラベル条件付き微調整定式化を提案する。
さらに,問題設定から得られた粗いラベル制約に基づいて正規化目標を考案し,事前の定式化よりもさらに改善した。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
2つの実世界のデータセットに関する大規模な実験とケーススタディは、SOTAゼロショット分類ベースラインよりも優れた性能を示す。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Liberating Seen Classes: Boosting Few-Shot and Zero-Shot Text Classification via Anchor Generation and Classification Reframing [38.84431954053434]
短いショットとゼロショットのテキスト分類は、ラベル付きサンプルやラベル付きサンプルが全くない新しいクラスからのサンプルを認識することを目的としている。
少数ショットとゼロショットのテキスト分類のためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2024-05-06T15:38:32Z) - Soft Curriculum for Learning Conditional GANs with Noisy-Labeled and
Uncurated Unlabeled Data [70.25049762295193]
本稿では,トレーニング中にノイズラベル付きおよび未処理データを受け入れる条件付き画像生成フレームワークを提案する。
本稿では,ラベルのないデータに新たなラベルを割り当てながら,逆行訓練にインスタンスワイドを割り当てるソフトカリキュラム学習を提案する。
実験により,本手法は,定量および定性性能の両面において,既存の半教師付き・ラベル付きロバストな手法より優れていることが示された。
論文 参考訳(メタデータ) (2023-07-17T08:31:59Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Cluster & Tune: Boost Cold Start Performance in Text Classification [21.957605438780224]
実世界のシナリオでは、ラベル付きデータが不足している場合、テキスト分類タスクはコールドスタートから始まることが多い。
中間的教師なし分類タスクを追加することにより,そのようなモデルの性能を向上させる手法を提案する。
論文 参考訳(メタデータ) (2022-03-20T15:29:34Z) - Label Hallucination for Few-Shot Classification [40.43730385915566]
ほとんどショットの分類では、新しい未知のクラスを認識するために、大きな注釈付きベースデータセットから学んだ知識を適応する必要がある。
これら2つの戦略に代替的なアプローチを提案する。
提案手法は, 精度の高い4つの複数ショット分類ベンチマークにおいて, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-12-06T20:18:41Z) - Bridging Non Co-occurrence with Unlabeled In-the-wild Data for
Incremental Object Detection [56.22467011292147]
物体検出における破滅的忘れを緩和するために,いくつかの漸進的学習法が提案されている。
有効性にもかかわらず、これらの手法は新規クラスのトレーニングデータにラベルのないベースクラスの共起を必要とする。
そこで本研究では,新たな授業の訓練において,欠落した基本クラスが原因で生じる非発生を補うために,未ラベルのインザ・ザ・ワイルドデータを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-28T10:57:25Z) - Towards Cross-Granularity Few-Shot Learning: Coarse-to-Fine
Pseudo-Labeling with Visual-Semantic Meta-Embedding [13.063136901934865]
少ないショットラーニングは、テスト時に少数のサンプルしか持たない、新しいカテゴリに迅速に適応することを目的としている。
本稿では,より困難なシナリオ,すなわちクロスグラニュラリティ・グラニュラリティ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラティヴ・グラニュラ
画像埋め込みの類似性に応じて,各粗いクラスを擬似微細クラスにグリーディクラスタリングすることで,詳細なデータ分布を近似する。
論文 参考訳(メタデータ) (2020-07-11T03:44:21Z) - Automatically Discovering and Learning New Visual Categories with
Ranking Statistics [145.89790963544314]
我々は,他のクラスをラベル付けした画像コレクションにおいて,新しいクラスを発見する問題に対処する。
汎用クラスタリングモデルを学び、後者を用いて、非競合データ中の新しいクラスを識別する。
我々は,標準分類ベンチマークに対するアプローチと,新しいカテゴリー発見法の性能を,有意なマージンで評価した。
論文 参考訳(メタデータ) (2020-02-13T18:53:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。