論文の概要: Are Classes Clusters?
- arxiv url: http://arxiv.org/abs/2104.07840v1
- Date: Fri, 16 Apr 2021 01:16:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-20 05:02:10.561032
- Title: Are Classes Clusters?
- Title(参考訳): クラスはクラスタか?
- Authors: Kees Varekamp
- Abstract要約: 本論文では4つの文埋め込みモデル(Universal Sentence, Sentence-BERT, LASER, DeCLUTR)について考察する。
実装の背後にあるアイデアの簡単な概要を提供する。
2つのテキスト分類データセット(amazon reviewsとnews category)のトピッククラスが、対応する文埋め込み空間にどの程度よくマッピングされているかを調べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentence embedding models aim to provide general purpose embeddings for
sentences. Most of the models studied in this paper claim to perform well on
STS tasks - but they do not report on their suitability for clustering. This
paper looks at four recent sentence embedding models (Universal Sentence
Encoder (Cer et al., 2018), Sentence-BERT (Reimers and Gurevych, 2019), LASER
(Artetxe and Schwenk, 2019), and DeCLUTR (Giorgi et al., 2020)). It gives a
brief overview of the ideas behind their implementations. It then investigates
how well topic classes in two text classification datasets (Amazon Reviews (Ni
et al., 2019) and News Category Dataset (Misra, 2018)) map to clusters in their
corresponding sentence embedding space. While the performance of the resulting
classification model is far from perfect, it is better than random. This is
interesting because the classification model has been constructed in an
unsupervised way. The topic classes in these real life topic classification
datasets can be partly reconstructed by clustering the corresponding sentence
embeddings.
- Abstract(参考訳): 文埋め込みモデルは文に汎用的な埋め込みを提供することを目的としている。
この論文で研究されたモデルのほとんどはSTSタスクでうまく機能すると主張しているが、クラスタリングの適性については報告していない。
本稿では,最近の4つの文埋め込みモデル(Universal Sentence Encoder (Cer et al., 2018), Sentence-BERT (Reimers and Gurevych, 2019), LASER (Artetxe and Schwenk, 2019), DeCLUTR (Giorgi et al., 2020)について述べる。
実装の背後にあるアイデアの簡単な概要を提供する。
次に、2つのテキスト分類データセット(Amazon Reviews(Ni et al., 2019)とNews Category Dataset(Misra, 2018))のトピッククラスが、対応する文の埋め込みスペース内のクラスタにどのようにマップされているかを調査する。
結果の分類モデルの性能は完璧には程遠いが、ランダムよりも優れている。
分類モデルは教師なしの方法で構築されているため、これは興味深い。
これらの実際のトピック分類データセットのトピッククラスは、対応する文埋め込みをクラスタリングすることで部分的に再構築することができる。
関連論文リスト
- Text Classification in the LLM Era - Where do we stand? [2.7624021966289605]
大規模言語モデルはNLPに革命をもたらし、いくつかのタスクで劇的なパフォーマンス向上を示した。
テキスト分類におけるそのような言語モデルの役割と,他の手法との比較について検討した。
論文 参考訳(メタデータ) (2025-02-17T14:25:54Z) - African or European Swallow? Benchmarking Large Vision-Language Models for Fine-Grained Object Classification [53.89380284760555]
textttFOCI (textbfFine-fine textbfObject textbfClasstextbfIfication) は、きめ細かいオブジェクト分類のための難しい多重選択ベンチマークである。
textttFOCIxspaceは、ImageNet-21kから4つのドメイン固有のサブセットで5つの一般的な分類データセットを補完する。
論文 参考訳(メタデータ) (2024-06-20T16:59:39Z) - Neural Collapse Inspired Feature-Classifier Alignment for Few-Shot Class
Incremental Learning [120.53458753007851]
FSCIL(Few-shot class-incremental Learning)は、新しいセッションにおいて、新しいクラスごとにいくつかのトレーニングサンプルしかアクセスできないため、難しい問題である。
我々は最近発見された神経崩壊現象にインスパイアされたFSCILのこの不整合ジレンマに対処する。
我々は、FSCILのための神経崩壊誘発フレームワークを提案する。MiniImageNet、CUB-200、CIFAR-100データセットの実験により、提案したフレームワークが最先端のパフォーマンスより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-06T18:39:40Z) - Comparison Study Between Token Classification and Sequence
Classification In Text Classification [0.45687771576879593]
自然言語処理タスクには教師なしの機械学習技術が適用されており、GLUEなどのベンチマークを上回る成功を収めている。
言語モデルの構築はひとつの言語でよい結果に近づき、分類、要約、生成などの複数のNLPタスクにボックスモデルから適用することができる。
論文 参考訳(メタデータ) (2022-11-25T05:14:58Z) - Class-incremental Novel Class Discovery [76.35226130521758]
クラス増進型新規クラス発見(class-iNCD)の課題について検討する。
基本クラスに関する過去の情報を忘れないようにする,クラスiNCDのための新しい手法を提案する。
3つの共通ベンチマークで実施した実験により,本手法が最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-07-18T13:49:27Z) - Self-Supervised Class Incremental Learning [51.62542103481908]
既存のクラスインクリメンタルラーニング(CIL)手法は、データラベルに敏感な教師付き分類フレームワークに基づいている。
新しいクラスデータに基づいて更新する場合、それらは破滅的な忘れがちである。
本稿では,SSCILにおける自己指導型表現学習のパフォーマンスを初めて考察する。
論文 参考訳(メタデータ) (2021-11-18T06:58:19Z) - X-Class: Text Classification with Extremely Weak Supervision [39.25777650619999]
本稿では,極めて弱い監督下でのテキスト分類について検討する。
適応表現を実現するための新しいフレームワーク X-Class を提案する。
X-Classは7つのベンチマークデータセットで、シード駆動の弱教師付きメソッドに匹敵し、パフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-10-24T06:09:51Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Learning Adaptive Embedding Considering Incremental Class [55.21855842960139]
CIL(Class-Incremental Learning)は,未知のクラスを逐次生成するストリーミングデータを用いて,信頼性の高いモデルをトレーニングすることを目的としている。
従来のクローズドセット学習とは異なり、CILには2つの大きな課題がある。
新たなクラスが検出された後、以前のデータ全体を使用して再トレーニングすることなく、モデルを更新する必要がある。
論文 参考訳(メタデータ) (2020-08-31T04:11:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。