論文の概要: DocSCAN: Unsupervised Text Classification via Learning from Neighbors
- arxiv url: http://arxiv.org/abs/2105.04024v2
- Date: Tue, 11 May 2021 12:32:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-12 11:40:56.323037
- Title: DocSCAN: Unsupervised Text Classification via Learning from Neighbors
- Title(参考訳): DocSCAN:隣人からの学習による教師なしテキスト分類
- Authors: Dominik Stammbach, Elliott Ash
- Abstract要約: Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
- 参考スコア(独自算出の注目度): 2.2082422928825145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce DocSCAN, a completely unsupervised text classification approach
using Semantic Clustering by Adopting Nearest-Neighbors (SCAN). For each
document, we obtain semantically informative vectors from a large pre-trained
language model. Similar documents have proximate vectors, so neighbors in the
representation space tend to share topic labels. Our learnable clustering
approach uses pairs of neighboring datapoints as a weak learning signal. The
proposed approach learns to assign classes to the whole dataset without
provided ground-truth labels. On five topic classification benchmarks, we
improve on various unsupervised baselines by a large margin. In datasets with
relatively few and balanced outcome classes, DocSCAN approaches the performance
of supervised classification. The method fails for other types of
classification, such as sentiment analysis, pointing to important conceptual
and practical differences between classifying images and texts.
- Abstract(参考訳): 本稿では, 近近隣者(SCAN)によるセマンティッククラスタリングを用いた, 完全に教師なしのテキスト分類手法であるDocSCANを紹介する。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案手法では,基底構造ラベルを付与することなく,クラスをデータセット全体に割り当てることを学ぶ。
5つのトピック分類ベンチマークにおいて、教師なしベースラインを大きなマージンで改善する。
比較的少数でバランスの取れた結果クラスを持つデータセットでは、DocSCANは教師付き分類のパフォーマンスにアプローチする。
この方法は、感情分析のような他のタイプの分類では失敗し、画像とテキストを分類する重要な概念的および実践的な違いを示している。
関連論文リスト
- Lidar Panoptic Segmentation in an Open World [50.094491113541046]
ライダーパノプティクス(LPS)は自動運転車の安全な配備に不可欠である。
LPSは、セマンティッククラスの事前に定義された語彙であるライダーポイントを認識し、セグメント化することを目的としている。
階層的な方法で入力クラウドのクラスタリングとオーバーセグメンテーションを提案し,次にバイナリポイントセグメント分類を行う。
論文 参考訳(メタデータ) (2024-09-22T00:10:20Z) - Leveraging Semantic Segmentation Masks with Embeddings for Fine-Grained Form Classification [0.0]
史料の効率的な分類は系譜学、法学、歴史学などの分野において重要である。
本稿では、ResNet、マスク付き画像変換器(Di)、埋め込みセグメンテーションなどのディープラーニングモデルを統合した表現型学習戦略を提案する。
論文 参考訳(メタデータ) (2024-05-23T04:28:50Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Out-of-Category Document Identification Using Target-Category Names as
Weak Supervision [64.671654559798]
Out-of-category Detection は、文書が不適格(またはターゲット)カテゴリと意味的関連性に応じて区別することを目的としている。
対象のカテゴリの1つに属する文書の信頼性を効果的に測定する,カテゴリ外検出フレームワークを提案する。
論文 参考訳(メタデータ) (2021-11-24T21:01:25Z) - LeQua@CLEF2022: Learning to Quantify [76.22817970624875]
LeQua 2022は、テキストデータセットで'を定量化する方法を評価するための新しい実験室である。
本研究の目的は、バイナリ設定とシングルラベルのマルチクラス設定の両方において、学習方法の比較評価のための設定を提供することである。
論文 参考訳(メタデータ) (2021-11-22T14:54:20Z) - Generalized Funnelling: Ensemble Learning and Heterogeneous Document
Embeddings for Cross-Lingual Text Classification [78.83284164605473]
emphFunnelling (Fun)は、最近提案された言語間テキスト分類手法である。
Emph Generalized Funnelling (gFun) はFunの一般化である。
gFunは、Funや最先端のベースラインよりも大幅に改善されていることを示す。
論文 参考訳(メタデータ) (2021-09-17T23:33:04Z) - Unsupervised Label Refinement Improves Dataless Text Classification [48.031421660674745]
データレステキスト分類は、ラベル記述と組み合わせた文書にスコアを割り当てることで、文書を未確認のラベルに分類することができる。
有望ながら、それは重要なダウンストリームタスクごとにラベルセットの正確な説明に依存します。
この依存により、データレス分類器はラベル記述の選択に非常に敏感になり、実際にはデータレス分類の幅広い適用を妨げる。
論文 参考訳(メタデータ) (2020-12-08T03:37:50Z) - X-Class: Text Classification with Extremely Weak Supervision [39.25777650619999]
本稿では,極めて弱い監督下でのテキスト分類について検討する。
適応表現を実現するための新しいフレームワーク X-Class を提案する。
X-Classは7つのベンチマークデータセットで、シード駆動の弱教師付きメソッドに匹敵し、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-10-24T06:09:51Z) - Text Classification Using Label Names Only: A Language Model
Self-Training Approach [80.63885282358204]
現在のテキスト分類法は、訓練データとして多くの人ラベルの文書を必要とするのが一般的である。
本モデルでは,トピック分類や感情分類を含む4つのベンチマークデータセットにおいて,約90%の精度が得られた。
論文 参考訳(メタデータ) (2020-10-14T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。