論文の概要: Unsupervised Label Refinement Improves Dataless Text Classification
- arxiv url: http://arxiv.org/abs/2012.04194v1
- Date: Tue, 8 Dec 2020 03:37:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 10:30:34.648290
- Title: Unsupervised Label Refinement Improves Dataless Text Classification
- Title(参考訳): 教師なしラベルリファインメントによるデータレステキスト分類の改善
- Authors: Zewei Chu, Karl Stratos, Kevin Gimpel
- Abstract要約: データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
- 参考スコア(独自算出の注目度): 48.031421660674745
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataless text classification is capable of classifying documents into
previously unseen labels by assigning a score to any document paired with a
label description. While promising, it crucially relies on accurate
descriptions of the label set for each downstream task. This reliance causes
dataless classifiers to be highly sensitive to the choice of label descriptions
and hinders the broader application of dataless classification in practice. In
this paper, we ask the following question: how can we improve dataless text
classification using the inputs of the downstream task dataset? Our primary
solution is a clustering based approach. Given a dataless classifier, our
approach refines its set of predictions using k-means clustering. We
demonstrate the broad applicability of our approach by improving the
performance of two widely used classifier architectures, one that encodes
text-category pairs with two independent encoders and one with a single joint
encoder. Experiments show that our approach consistently improves dataless
classification across different datasets and makes the classifier more robust
to the choice of label descriptions.
- Abstract(参考訳): データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ではあるが、下流タスクごとにラベルセットの正確な記述に依存する。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
本稿では,ダウンストリームタスクデータセットの入力を用いて,データレステキスト分類をどのように改善できるのか,という質問を行う。
私たちの主なソリューションはクラスタリングベースのアプローチです。
データレス分類器を前提として,k-meansクラスタリングによる予測を改良する。
提案手法は,2つの独立したエンコーダと1つのジョイントエンコーダでテキスト分類ペアをエンコードする2つの広く使われている分類器アーキテクチャの性能を向上させることにより,幅広い適用性を示す。
実験により,本手法は,異なるデータセット間のデータレス分類を一貫して改善し,ラベル記述の選択に対して,分類器をより堅牢にすることを示す。
関連論文リスト
- Posterior Label Smoothing for Node Classification [2.737276507021477]
本稿では,トランスダクティブノード分類タスクに対して,単純かつ効果的なラベル平滑化を提案する。
本研究では, ソフトラベルを設計し, 周辺ラベル分布を通じて対象ノードの局所的コンテキストをカプセル化する。
以下の分析結果から,大域的なラベル統計を後続計算に組み込むことが,ラベル平滑化の成功の鍵であることが判明した。
論文 参考訳(メタデータ) (2024-06-01T11:59:49Z) - Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Label Semantic Aware Pre-training for Few-shot Text Classification [53.80908620663974]
テキスト分類システムの一般化とデータ効率を向上させるために,ラベルセマンティック・アウェア事前学習(LSAP)を提案する。
LSAPは、ラベル付き文の2次事前学習を行うことにより、ラベルセマンティクスを事前学習された生成モデル(T5)に組み込む。
論文 参考訳(メタデータ) (2022-04-14T17:33:34Z) - Improving Probabilistic Models in Text Classification via Active
Learning [0.0]
本稿では,ラベル付きデータとラベルなしデータの両方からの情報と,アクティブな学習成分を結合したテキスト分類のための高速な新しいモデルを提案する。
本研究では,未ラベルデータの構造に関する情報を導入し,不確実な文書を反復的にラベル付けすることにより,性能を向上することを示す。
論文 参考訳(メタデータ) (2022-02-05T20:09:26Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Information-theoretic Classification Accuracy: A Criterion that Guides
Data-driven Combination of Ambiguous Outcome Labels in Multi-class
Classification [3.9533511130413137]
曖昧さと主観性を示すアウトカムラベリングは、現実世界のデータセットでユビキタスである。
そこで我々は,情報理論の分類精度 (ITCA) を提案し,あいまいな結果ラベルをどう組み合わせるかを実践者に対して指導する。
医療予後,癌生存予測,ユーザ人口予測,細胞型分類など,様々な応用におけるITCAの有効性を実証する。
論文 参考訳(メタデータ) (2021-09-01T19:20:28Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - MATCH: Metadata-Aware Text Classification in A Large Hierarchy [60.59183151617578]
MATCHはメタデータと階層情報の両方を利用するエンドツーエンドのフレームワークである。
親による各子ラベルのパラメータと出力確率を正規化するさまざまな方法を提案します。
大規模なラベル階層を持つ2つの大規模なテキストデータセットの実験は、MATCHの有効性を示しています。
論文 参考訳(メタデータ) (2021-02-15T05:23:08Z) - Predictive K-means with local models [0.028675177318965035]
予測クラスタリングは、2つの世界のベストを獲得しようとします。
この手法を用いて2つの新しいアルゴリズムを提案し、予測性能に競争力があることを様々なデータセットで示す。
論文 参考訳(メタデータ) (2020-12-16T10:49:36Z) - Interaction Matching for Long-Tail Multi-Label Classification [57.262792333593644]
既存のマルチラベル分類モデルにおいて,制約に対処するためのエレガントで効果的なアプローチを提案する。
ソフトなn-gram相互作用マッチングを実行することで、ラベルと自然言語記述をマッチングする。
論文 参考訳(メタデータ) (2020-05-18T15:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。