論文の概要: Evaluating Unsupervised Text Classification: Zero-shot and
Similarity-based Approaches
- arxiv url: http://arxiv.org/abs/2211.16285v1
- Date: Tue, 29 Nov 2022 15:14:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-30 14:41:56.606855
- Title: Evaluating Unsupervised Text Classification: Zero-shot and
Similarity-based Approaches
- Title(参考訳): 教師なしテキスト分類の評価:ゼロショットと類似性に基づくアプローチ
- Authors: Tim Schopf, Daniel Braun, Florian Matthes
- Abstract要約: 類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。
ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。
本稿では, 類似度に基づくゼロショットとゼロショットのアプローチを, 未確認クラスのテキスト分類のために体系的に評価する。
- 参考スコア(独自算出の注目度): 0.6767885381740952
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification of unseen classes is a challenging Natural Language
Processing task and is mainly attempted using two different types of
approaches. Similarity-based approaches attempt to classify instances based on
similarities between text document representations and class description
representations. Zero-shot text classification approaches aim to generalize
knowledge gained from a training task by assigning appropriate labels of
unknown classes to text documents. Although existing studies have already
investigated individual approaches to these categories, the experiments in
literature do not provide a consistent comparison. This paper addresses this
gap by conducting a systematic evaluation of different similarity-based and
zero-shot approaches for text classification of unseen classes. Different
state-of-the-art approaches are benchmarked on four text classification
datasets, including a new dataset from the medical domain. Additionally, novel
SimCSE and SBERT-based baselines are proposed, as other baselines used in
existing work yield weak classification results and are easily outperformed.
Finally, the novel similarity-based Lbl2TransformerVec approach is presented,
which outperforms previous state-of-the-art approaches in unsupervised text
classification. Our experiments show that similarity-based approaches
significantly outperform zero-shot approaches in most cases. Additionally,
using SimCSE or SBERT embeddings instead of simpler text representations
increases similarity-based classification results even further.
- Abstract(参考訳): unseenクラスのテキスト分類は難しい自然言語処理タスクであり、主に2つの異なるアプローチを用いて試みられている。
類似性に基づくアプローチは、テキスト文書表現とクラス記述表現の類似性に基づいてインスタンスを分類しようとする。
ゼロショットテキスト分類手法は、未知クラスの適切なラベルをテキスト文書に割り当てることで、トレーニングタスクから得られる知識を一般化することを目的としている。
既存の研究はこれらのカテゴリーに対する個々のアプローチを既に研究しているが、文献における実験は一貫した比較を提供していない。
本稿では,このギャップに対処するため,異なる類似性に基づくアプローチとゼロショットアプローチの系統的評価を行った。
医学領域の新しいデータセットを含む、さまざまな最先端のアプローチが4つのテキスト分類データセットでベンチマークされている。
さらに、既存の作業で使用される他のベースラインが弱い分類結果をもたらし、容易に上回るため、新しいsimcseとsbertベースのベースラインが提案されている。
最後に、新しい類似性に基づくLbl2TransformerVecアプローチが提示され、教師なしテキスト分類における従来の最先端アプローチよりも優れている。
実験の結果, 類似性に基づくアプローチは, たいていの場合, ゼロショットアプローチを大きく上回っていることがわかった。
さらに、単純なテキスト表現の代わりにSimCSEやSBERTの埋め込みを使用すると、類似性に基づく分類結果はさらに増加する。
関連論文リスト
- Contextuality Helps Representation Learning for Generalized Category Discovery [5.885208652383516]
本稿では、文脈性の概念を活用することにより、一般化カテゴリー発見(GCD)への新たなアプローチを提案する。
我々のモデルでは,コントラスト学習に最も近いコンテキストが使用されるインスタンスレベルと,コントラスト学習を利用するクラスタレベルという,2つのコンテキストレベルを統合している。
文脈情報の統合は、特徴学習を効果的に改善し、その結果、すべてのカテゴリの分類精度が向上する。
論文 参考訳(メタデータ) (2024-07-29T07:30:41Z) - Detecting Statements in Text: A Domain-Agnostic Few-Shot Solution [1.3654846342364308]
最先端のアプローチは通常、作成にコストがかかる大規模な注釈付きデータセット上の微調整モデルを含む。
本稿では,クレームに基づくテキスト分類タスクの共通パラダイムとして,定性的で多目的な少ショット学習手法の提案とリリースを行う。
本手法は,気候変動対策,トピック/スタンス分類,うつ病関連症状検出の3つの課題の文脈で説明する。
論文 参考訳(メタデータ) (2024-05-09T12:03:38Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - LIME: Weakly-Supervised Text Classification Without Seeds [1.2691047660244335]
弱教師付きテキスト分類では、ラベル名のみが監督の源として機能する。
弱教師付きテキスト分類のためのフレームワーク LIME を提案する。
弱教師付き分類とテキスト・エンターメントを組み合わせることで、両者の欠点を軽減できることが判明した。
論文 参考訳(メタデータ) (2022-10-13T04:28:28Z) - Class-incremental Novel Class Discovery [76.35226130521758]
クラス増進型新規クラス発見(class-iNCD)の課題について検討する。
基本クラスに関する過去の情報を忘れないようにする,クラスiNCDのための新しい手法を提案する。
3つの共通ベンチマークで実施した実験により,本手法が最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-07-18T13:49:27Z) - Many-Class Text Classification with Matching [65.74328417321738]
textbfText textbfClassification をテキストとラベル間のtextbfMatching 問題として定式化し,TCM というシンプルなフレームワークを提案する。
従来のテキスト分類手法と比較して、TCMは分類ラベルのきめ細かい意味情報を活用している。
論文 参考訳(メタデータ) (2022-05-23T15:51:19Z) - Are We Really Making Much Progress in Text Classification? A Comparative
Review [2.579878570919875]
本研究では,単一ラベルと複数ラベルのテキスト分類のための手法をレビューし,比較する。
その結果、最近提案されたグラフベースおよび階層ベースの手法は、事前学習された言語モデルよりも優れていることが判明した。
論文 参考訳(メタデータ) (2022-04-08T09:28:20Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - Category Contrast for Unsupervised Domain Adaptation in Visual Tasks [92.9990560760593]
本稿では,視覚的 UDA タスクのインスタンス識別に先立って,セマンティックな事前情報を導入した新しいカテゴリコントラスト手法(CaCo)を提案する。
CaCoは既存のUDAメソッドを補完し、半教師付き学習や教師なしモデル適応などの他の学習設定に一般化可能である。
論文 参考訳(メタデータ) (2021-06-05T12:51:35Z) - Binary Classification from Multiple Unlabeled Datasets via Surrogate Set
Classification [94.55805516167369]
我々は m 個の U 集合を $mge2$ で二進分類する新しい手法を提案する。
我々のキーとなる考え方は、サロゲート集合分類(SSC)と呼ばれる補助的分類タスクを考えることである。
論文 参考訳(メタデータ) (2021-02-01T07:36:38Z) - Cooperative Bi-path Metric for Few-shot Learning [50.98891758059389]
数発の分類問題の調査に2つの貢献をしている。
本稿では,従来の教師あり学習法において,ベースクラスで訓練されたシンプルで効果的なベースラインについて報告する。
本稿では, 基礎クラスと新しいクラス間の相関を利用して, 精度の向上を図る, 分類のための協調的二経路計量を提案する。
論文 参考訳(メタデータ) (2020-08-10T11:28:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。