論文の概要: Weakly Supervised Prototype Topic Model with Discriminative Seed Words:
Modifying the Category Prior by Self-exploring Supervised Signals
- arxiv url: http://arxiv.org/abs/2112.03009v1
- Date: Sat, 20 Nov 2021 00:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-12 18:48:07.114015
- Title: Weakly Supervised Prototype Topic Model with Discriminative Seed Words:
Modifying the Category Prior by Self-exploring Supervised Signals
- Title(参考訳): 識別的種子単語を用いた弱教師付きプロトタイプトピックモデル:自己探索的監視信号によるカテゴリー変更
- Authors: Bing Wang, Yue Wang, Ximing Li, Jihong Ouyang
- Abstract要約: データレステキスト分類は、弱い教師付き学習の新しいパラダイムである。
本稿では,先行するカテゴリの新規な定式化を提案する。
WSPTM(Weakly Supervised Prototype Topic Model)を提案する。
- 参考スコア(独自算出の注目度): 19.706073428061107
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Dataless text classification, i.e., a new paradigm of weakly supervised
learning, refers to the task of learning with unlabeled documents and a few
predefined representative words of categories, known as seed words. The recent
generative dataless methods construct document-specific category priors by
using seed word occurrences only, however, such category priors often contain
very limited and even noisy supervised signals. To remedy this problem, in this
paper we propose a novel formulation of category prior. First, for each
document, we consider its label membership degree by not only counting seed
word occurrences, but also using a novel prototype scheme, which captures
pseudo-nearest neighboring categories. Second, for each label, we consider its
frequency prior knowledge of the corpus, which is also a discriminative
knowledge for classification. By incorporating the proposed category prior into
the previous generative dataless method, we suggest a novel generative dataless
method, namely Weakly Supervised Prototype Topic Model (WSPTM). The
experimental results on real-world datasets demonstrate that WSPTM outperforms
the existing baseline methods.
- Abstract(参考訳): データレステキスト分類(Dataless text classification)、すなわち、弱教師付き学習の新しいパラダイムは、ラベルのない文書と、シードワードとして知られるいくつかの事前に定義されたカテゴリの表現語で学習するタスクを指す。
近年のジェネレーショナルデータレス手法は,シードワードのみを用いて文書固有カテゴリプリアーを構築するが,そのようなカテゴリープリアーは,非常に限定的かつノイズの多い教師付き信号を含むことが多い。
この問題を解決するために,本稿では,先行するカテゴリの新規な定式化を提案する。
まず,各文書について,シードワードの出現をカウントするだけでなく,疑似ネアレスト近傍のカテゴリをキャプチャする新しいプロトタイプスキームを用いて,ラベルのメンバシップ度を検討する。
次に,各ラベルについて,コーパスの事前知識の頻度について検討する。
提案したカテゴリを以前の生成データレス手法に組み込むことで,新しい生成データレス手法,すなわちWeakly Supervised Prototype Topic Model (WSPTM)を提案する。
実世界のデータセットの実験結果は、WSPTMが既存のベースライン手法より優れていることを示している。
関連論文リスト
- RulePrompt: Weakly Supervised Text Classification with Prompting PLMs and Self-Iterative Logical Rules [30.239044569301534]
弱教師付きテキスト分類(WSTC)は、大量のテキストを分類できるため、注目を集めている。
本稿では,ルールマイニングモジュールとルール強化擬似ラベル生成モジュールからなるWSTCタスクに対して,ルールプロンプトというPLMベースのアプローチを提案する。
提案手法は解釈可能なカテゴリー規則を導出し,難解なカテゴリを曖昧にすることの利点を証明した。
論文 参考訳(メタデータ) (2024-03-05T12:50:36Z) - A Novel Prompt-tuning Method: Incorporating Scenario-specific Concepts
into a Verbalizer [15.612761980503658]
シナリオ固有の概念を取り入れたラベルワード構築プロセスを提案する。
具体的には,タスク固有のシナリオから,ラベルワード候補としてリッチな概念を抽出する。
そこで我々は,各クラスのラベル単語の集合として候補を洗練するための新しいカスケードキャリブレーションモジュールを開発した。
論文 参考訳(メタデータ) (2024-01-10T15:02:35Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - Exploring Structured Semantic Prior for Multi Label Recognition with
Incomplete Labels [60.675714333081466]
不完全なラベルを持つマルチラベル認識(MLR)は非常に難しい。
最近の研究は、視覚言語モデルであるCLIPにおける画像とラベルの対応を探り、不十分なアノテーションを補うことを目指している。
我々は,MLRにおけるラベル管理の欠如を,構造化されたセマンティクスを導出することにより,不完全なラベルで修復することを提唱する。
論文 参考訳(メタデータ) (2023-03-23T12:39:20Z) - FastClass: A Time-Efficient Approach to Weakly-Supervised Text
Classification [14.918600168973564]
本稿では,効率的な弱教師付き分類手法であるFastClassを提案する。
センシティブテキスト表現を使用して、外部ラベルなしコーパスからクラス関連文書を検索する。
実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも優れており,訓練速度のオーダー・オブ・マグニチュードが高速であることが確認された。
論文 参考訳(メタデータ) (2022-12-11T13:43:22Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Automatically Discovering Novel Visual Categories with Self-supervised
Prototype Learning [68.63910949916209]
本稿では,大規模な画像収集において未知のカテゴリを識別することを目的とした,新しいカテゴリ発見(NCD)の課題に取り組む。
本稿では,プロトタイプ表現学習とプロトタイプ自己学習という,2つの主要な段階からなる適応型プロトタイプ学習手法を提案する。
本研究では,4つのベンチマークデータセットについて広範な実験を行い,提案手法の有効性とロバスト性を示す。
論文 参考訳(メタデータ) (2022-08-01T16:34:33Z) - Novel Class Discovery without Forgetting [72.52222295216062]
我々は NCDwF: Novel Class Discovery without Forgetting の新たな実用的問題設定を特定し,定式化する。
ラベルのないデータから新しいカテゴリのインスタンスを段階的に発見する機械学習モデルを提案する。
CIFAR-10, CIFAR-100, ImageNet-1000に基づく実験プロトコルを導入し, 知識保持と新しいクラス発見のトレードオフを測定する。
論文 参考訳(メタデータ) (2022-07-21T17:54:36Z) - Class-incremental Novel Class Discovery [76.35226130521758]
クラス増進型新規クラス発見(class-iNCD)の課題について検討する。
基本クラスに関する過去の情報を忘れないようにする,クラスiNCDのための新しい手法を提案する。
3つの共通ベンチマークで実施した実験により,本手法が最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-07-18T13:49:27Z) - Coarse2Fine: Fine-grained Text Classification on Coarsely-grained
Annotated Data [22.81068960545234]
本稿では,粗い注釈付きデータに対して,きめ細かい分類を行うことを目的とした,粗い粒度分類と呼ばれる新しい問題を提案する。
新しいきめ細かい人間のアノテーションを求める代わりに、ラベル表面の名前のみを人間の手引きとして活用することにしました。
我々のフレームワークは、微調整された生成モデルを用いて、擬似学習データをサンプリングし、分類器を訓練し、実際のラベルなしデータをブートストラップしてモデル修正を行う。
論文 参考訳(メタデータ) (2021-09-22T17:29:01Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。