論文の概要: Improving Probabilistic Models in Text Classification via Active
Learning
- arxiv url: http://arxiv.org/abs/2202.02629v1
- Date: Sat, 5 Feb 2022 20:09:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 17:30:49.745726
- Title: Improving Probabilistic Models in Text Classification via Active
Learning
- Title(参考訳): アクティブラーニングによるテキスト分類における確率モデルの改善
- Authors: Mitchell Bosley, Saki Kuzushima, Ted Enamorado, Yuki Shiraito
- Abstract要約: 本稿では,ラベル付きデータとラベルなしデータの両方からの情報と,アクティブな学習成分を結合したテキスト分類のための高速な新しいモデルを提案する。
本研究では,未ラベルデータの構造に関する情報を導入し,不確実な文書を反復的にラベル付けすることにより,性能を向上することを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When using text data, social scientists often classify documents in order to
use the resulting document labels as an outcome or predictor. Since it is
prohibitively costly to label a large number of documents manually, automated
text classification has become a standard tool. However, current approaches for
text classification do not take advantage of all the data at one's disposal. We
propose a fast new model for text classification that combines information from
both labeled and unlabeled data with an active learning component, where a
human iteratively labels documents that the algorithm is least certain about.
Using text data from Wikipedia discussion pages, BBC News articles, historical
US Supreme Court opinions, and human rights abuse allegations, we show that by
introducing information about the structure of unlabeled data and iteratively
labeling uncertain documents, our model improves performance relative to
classifiers that (a) only use information from labeled data and (b) randomly
decide which documents to label at the cost of manually labelling a small
number of documents.
- Abstract(参考訳): テキストデータを使用する場合、社会科学者はしばしば文書を分類し、その結果の文書ラベルを結果または予測子として使用する。
大量の文書を手動でラベル付けすることは、非常にコストがかかるため、自動テキスト分類が標準ツールとなっている。
しかし, テキスト分類における現在のアプローチは, 処理時のすべてのデータを活用するものではない。
本稿では,ラベル付きデータとラベルなしデータの両方からの情報をアクティブな学習コンポーネントと組み合わせた,テキスト分類のための高速な新しいモデルを提案する。
ウィキペディアの議論ページ、BBCニュース記事、米国最高裁判所の歴史的意見、人権侵害疑惑のテキストデータを用いて、未ラベルデータの構造に関する情報を導入し、不確実な文書を反復的にラベル付けすることで、我々のモデルは分類器と比較してパフォーマンスを向上させる。
(a)ラベル付きデータからの情報のみを使用する
b) 少数の文書を手動でラベル付けするコストで、どの文書をラベル付けするかをランダムに決定する。
関連論文リスト
- Open-world Multi-label Text Classification with Extremely Weak Supervision [30.85235057480158]
極弱監督(XWS)下でのオープンワールドマルチラベルテキスト分類について検討する。
まず、ユーザ記述を利用して、原文書のサブセットのキーフレーズに対して大きな言語モデル(LLM)をプロンプトし、クラスタリングによりラベル空間を構築する。
次に、ゼロショットのマルチラベル分類器を適用して、予測スコアが小さい文書を見つけることで、より長いテールラベルに対する主要なキーフレーズを再検討する。
X-MLClassは、様々なデータセットにおいて、地平線ラベルの空間カバレッジが顕著に増加している。
論文 参考訳(メタデータ) (2024-07-08T04:52:49Z) - The Benefits of Label-Description Training for Zero-Shot Text
Classification [35.27224341685012]
事前訓練された言語モデルはゼロショットテキスト分類を改善した。
最小限の努力でゼロショット精度をさらに向上する簡単な方法を提案する。
論文 参考訳(メタデータ) (2023-05-03T16:19:31Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - MotifClass: Weakly Supervised Text Classification with Higher-order
Metadata Information [47.44278057062421]
そこで本研究では,テキスト文書をカテゴリ表面名のみを持つ事前定義されたカテゴリの集合に分類することを目的とした,弱教師付きテキスト分類の問題について検討する。
具体的には、異種情報ネットワークを介して文書とメタデータの関係をモデル化する。
そこで我々は,カテゴリ名と指示モチーフインスタンスに基づいて,カテゴリ適応モチーフインスタンスを選択し,擬似ラベル付きトレーニングサンプルを検索し,生成する,MotifClassという新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-07T07:39:10Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。