論文の概要、ライセンス

# (参考訳) 変換器による短文クラスタリング [全文訳有]

Short Text Clustering with Transformers ( http://arxiv.org/abs/2102.00541v1 )

ライセンス: CC BY 4.0
Leonid Pugachev, Mikhail Burtsev(参考訳) 最近の短いテキストクラスタリングのタスクのテクニックは、転置学習コンポーネントとして単語埋め込みに依存することが多い。 本稿では,トランスフォーマーからの文ベクトル表現と異なるクラスタリング手法を併用して,タスクに対処できることを示す。 さらに、反復分類によるクラスタリングの強化アルゴリズムは、事前訓練されたトランスフォーマー言語モデルを含む異なる分類器による初期クラスタリング性能をさらに向上させることができることを示した。

Recent techniques for the task of short text clustering often rely on word embeddings as a transfer learning component. This paper shows that sentence vector representations from Transformers in conjunction with different clustering methods can be successfully applied to address the task. Furthermore, we demonstrate that the algorithm of enhancement of clustering via iterative classification can further improve initial clustering performance with different classifiers, including those based on pre-trained Transformer language models.
公開日: Sun, 31 Jan 2021 21:31:11 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Short Text Clustering with Transformers 変換器による短文クラスタリング 0.75
Leonid Pugachev Moscow Institute of Leonid Pugachevモスクワ研究所 0.80
Physics and Technology Mikhail Burtsev 物理と技術 ミハイル・ブルツェフ 0.60
Moscow Institute of Physics and Technology モスクワ研究所 物理と技術 0.76
leonid.pugachev@phys tech.edu leonid.pugachev@phys tech.edu 0.59
1 2 0 2 n a J 1 2 0 2 n a J 0.85
1 3 ] L C . 1 3 ] L C。 0.78
s c [ 1 v 1 4 5 0 0 sc [ 1 v 1 4 5 0 0 0.68
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract Recent techniques for the task of short text clustering often rely on word embeddings as a transfer learning component. 概要 最近の短いテキストクラスタリングのタスクのテクニックは、転置学習コンポーネントとして単語埋め込みに依存することが多い。 0.58
This paper shows that sentence vector representations from Transformers in conjunction with different clustering methods can be successfully applied to address the task. 本稿では,トランスフォーマーからの文ベクトル表現と異なるクラスタリング手法を併用して,タスクに対処できることを示す。 0.75
Furthermore, we demonstrate that the algorithm of enhancement of clustering via iterative classification can further improve initial clustering performance with different classifiers, including those based on pre-trained Transformer language models. さらに、反復分類によるクラスタリングの強化アルゴリズムは、事前訓練されたトランスフォーマー言語モデルを含む異なる分類器による初期クラスタリング性能をさらに向上させることができることを示した。 0.82
The main contributions of the work are as follows. この作品の主な貢献は次のとおりである。 0.71
First, we demonstrate that sentence level transfer learning for clustering which has not been a common technique so far gives good results. まず,これまで一般的ではなかったクラスタリングのための文レベルの転送学習が良い結果をもたらすことを示す。 0.77
Second, fine-tuning of deep models for clustering is hindered because of the lack of labeled data and we propose to use the ECIC algorithm with deep models which has not been done before to tackle this problem. 第2に、ラベル付きデータの欠如によりクラスタリングのためのディープモデルの微調整が妨げられ、この問題にこれまで取り組んでいなかったディープモデルを用いたECICアルゴリズムを提案する。 0.78
Third, we analyzed different combinations of components as constitutional parts of the algorithm, tested different schemes to handle weights during fine-tuning over iterations and developed a new stopping criterion for the algorithm. 第3に,成分の組み合わせをアルゴリズムの構成部分として分析し,繰り返しの微調整時に重みを扱うための異なるスキームをテストし,新たな停止基準を開発した。 0.82
1 Introduction 2 Related work はじめに 2関連作品 0.64
There are currently a lot of techniques developed for short text clustering (STC), including topic models and neural networks. 現在、トピックモデルやニューラルネットワークなど、短いテキストクラスタリング(STC)のために開発されたテクニックが数多くある。 0.78
The most recent and successful approaches leverage transfer learning through the use of pre-trained word embeddings. 最新の、そして成功したアプローチは、事前訓練された単語埋め込みを使用して転送学習を利用する。 0.58
In this work, we show that high quality for STC on the range of datasets can be achieved with modern sentence level transfer learning techniques as well. 本研究では,現代の文レベル転送学習技術を用いて,データセット範囲におけるSTCの高品質を実現できることを示した。 0.82
We use deep sentence representations obtained using the Universal Sentence Encoder (USE) (Cer et al., 2018; Yang et al., 2019). 我々は,Universal Sentence Encoder (USE) (Cer et al., 2018; Yang et al., 2019) を用いて得られた深部文表現を用いる。 0.89
Training of deep architectures can be effective for particular clustering tasks as well. 深いアーキテクチャのトレーニングは、特定のクラスタリングタスクにも有効です。 0.64
However, application of deep models to clustering directly is difficult since we do not have labels a priori. しかしながら,ラベルを事前に持っていないため,クラスタ化への深層モデルの適用は困難である。 0.71
We show that fine-tuning of classifiers such as BERT (Devlin et al., 2018) and RoBERTa (Liu et al., 2019) for clustering can be done with the Enhancement of Clustering by Iterative Classification (ECIC) algorithm (Rakib et al., 2020). クラスタリングのためのBERT(Devlin et al., 2018)やRoBERTa(Liu et al., 2019)のような分類器の微調整は、反復分類によるクラスタリング(ECIC)アルゴリズムの強化(Rakib et al., 2020)によって行うことができることを示す。 0.85
Thus, we develop a combined approach to STC, which benefits from the usage of deep sentence representations obtained using USE and finetuning of Transformer models. そこで本研究では, USEを用いた深文表現の利用とトランスフォーマーモデルの微調整の恩恵を受ける, STC への統合アプローチを開発した。 0.72
One major direction in STC is based on Dirichlet multinomial mixture topic models (Yin and Wang, 2014; Jipeng et al., 2019) including GSDPMM (Yin and Wang, 2016). STCの主要な方向性の1つは、GSDPMM(Yin and Wang, 2016)を含むディリクレ多項混合トピックモデル(Yin and Wang, 2014; Jipeng et al., 2019)に基づいています。 0.79
Some variants of these models incorporate word embeddings (Nguyen et al., 2015; Li et al., 2017; Jipeng et al., 2019). これらのモデルのいくつかのバリエーションは、単語埋め込み(Nguyen et al., 2015; Li et al., 2017; Jipeng et al., 2019)を組み込む。 0.83
These models assume that each document contains only one or a few topics. これらのモデルは、各ドキュメントに1つまたは数つのトピックしか含まないと仮定する。 0.59
The models have several advantages over conventional topic modeling such as latent Dirichlet allocation, when used for short texts. モデルは、短いテキストに使用する場合、潜伏ディリクレ割り当てなど、従来のトピックモデリングよりもいくつかの利点があります。 0.57
First, they better cope with the sparseness of short texts, which carry limited information about word co-occurrences. まず、単語の共起に関する限られた情報を運ぶ短いテキストのスパースさに対処する。 0.65
Second, these models can automatically infer the number of topics. 第二に、これらのモデルはトピックの数を自動的に推測できる。 0.60
Since only one topic is presented for each document, it is straightforward to use these topic models for clustering, assuming all documents with the same topic as belonging to the same cluster. 各ドキュメントに対して1つのトピックしか提示されないため、これらのトピックモデルをクラスタリングに使用し、同じトピックを持つすべてのドキュメントが同じクラスタに属すると仮定するのは簡単です。 0.74
Recent works have considered a neural approach for STC. 最近の研究では、stcのニューラルアプローチが検討されている。 0.46
In (Xu et al., 2015, 2017), authors propose to encode texts by pre-trained binary codes. 著者らは (Xu et al., 2015, 2017) において、事前訓練されたバイナリコードによるテキストのエンコードを提案している。 0.56
Embeddings of words are then fed in the convolutional neural network which is trained to fit the binary codes. 単語の埋め込みは、バイナリコードに適合するように訓練された畳み込みニューラルネットワークに供給される。 0.75
Finally, the obtained rep- 最後に得られた担当者 0.55
英語(論文から抽出)日本語訳スコア
resentations are used as features with k-means clustering algorithm. resentationはk-meansクラスタリングアルゴリズムの機能として使用される。 0.66
The work of (Hadifar et al., 2019) uses a somewhat similar strategy called Self-Taught Approach (STA). Hadifar et al., 2019)の作業は、Self-Taught Approach (STA)と呼ばれる幾分似た戦略を使用している。 0.73
An autoencoder is pre-trained to obtain low-dimensional features and then learn it together with clustering algorithm by iteratively updating the weights of the autoencoder and centroids of clusters. オートエンコーダは、低次元の特徴を得るために事前訓練され、オートエンコーダとクラスタのセントロイドの重みを反復的に更新することでクラスタリングアルゴリズムと共に学習する。
訳抜け防止モード: オートエンコーダは低次元特徴を得るために事前訓練される クラスタリングアルゴリズムを使って学習し オートエンコーダと クラスタのセントロイドの重みを 繰り返し更新する
0.75
Finally, they use the resulting features with k-means clustering algorithm. 最後に、k-meansクラスタリングアルゴリズムで得られた特徴を利用する。 0.67
Another idea is to use attentive representation learning with adversarial training for STC (Zhang et al., 2019). もう一つの考え方は、STC(Zhang et al., 2019)の対人訓練で注意表現学習を使用することである。 0.59
The work of (Rakib et al., 2020) sets the state-of-the-art results on the range of short text datasets using the ECIC algorithm which is simpler than in (Hadifar et al., 2019). The work of (Rakib et al., 2020) set the state-of-the-art results on the range of short text datasets using the ECIC algorithm which is simple than in (Hadifar et al., 2019)。 0.91
They use averaged word embeddings as features for short texts and clustering algorithms such as k-means, to get the initial label assignment. 平均的な単語埋め込みは、短いテキストやk-meansなどのクラスタリングアルゴリズムの機能として使用し、最初のラベル割り当てを取得します。 0.69
The clustering performance is then improved with iterative outlier detection and classification. クラスタリング性能は反復的な外れ値検出と分類によって改善される。 0.80
3 Model In our work, we made several important modifications to the ECIC algorithm(Rakib et al., 2020) to improve their results. 3モデル 本研究では,ECICアルゴリズム(Rakib et al., 2020)にいくつかの重要な改良を加え,その結果を改良した。 0.80
Namely, we included modern deep learning components such as USE, BERT and RoBERTa in the algorithm as well tested various methods to handle weights during fine-tuning over iterations such as resumption and re-initialization and developed a new stopping criterion for the algorithm. すなわち, USE, BERT, RoBERTaなどの最新のディープラーニングコンポーネントをアルゴリズムに含め, 再消費や再初期化といった繰り返しを微調整する際の重み処理の様々な手法を検証し, アルゴリズムの新しい停止基準を開発した。 0.83
The general outline of the algorithm is shown in Algorithm ??. アルゴリズムの一般的な概要は、アルゴリズム???で示されています。 0.68
At the initial stage, clustering is carried out using one of the widely used clustering methods (see below). 初期段階では、広く使われているクラスタリング方法の1つを使ってクラスタリングを行う(下記参照)。 0.74
An algorithm for outlier detection is then used to split the dataset into train and test parts. 次に、外れ値検出のためのアルゴリズムを使用して、データセットをトレインとテスト部分に分割する。 0.63
Additional samples can be moved from the train to the test set based on the P number sampled randomly in the range from P1 to P2. 追加のサンプルは、P1からP2の範囲でランダムにサンプリングされたP番号に基づいて、列車からテストセットに移動することができる。 0.66
The train part is used to train the classifier. 列車部分は分類器の訓練に使用される。 0.81
Outliers and some number of the additional samples are used as a test set and predictions for the test set are used to relabel the dataset. 外れ値といくつかの追加サンプルはテストセットとして使用され、テストセットの予測はデータセットのrelabelに使用されます。 0.81
Steps with outlier detection, classification, and relabeling are then repeated until the stopping criterion is reached or the maximum number of iterations is exceeded. その後、停止基準に達するか、最大イテレーション数を超えるまで、異常検出、分類、および再ラベルのステップを繰り返します。 0.74
As will be shown below, this iterative procedure leads to improved clustering results in many cases. 以下に示すように、この反復的な手順は、多くの場合、クラスタリング結果の改善につながる。 0.67
Averaged word embeddings were used as features in (Rakib et al., 2020; Xu et al., 2017). 平均単語埋め込みはRakib et al., 2020; Xu et al., 2017)の特徴として使われた。 0.80
One of the differences of our study is that we used 私たちの研究の相違の1つは 0.59
Algorithm 1: Enhancement of Clustering by the Iterative Classification アルゴリズム1:反復分類によるクラスタリングの高速化 0.78
Result: Enhancement of Clustering 結果:クラスタリングの強化 0.76
1 Dataset D with N texts and K clusters; 2 Apply initial clustering and labeling L; 3 Set the number of iterations T ; 4 while j ≤ T and the stopping criterion δ is 1 N テキストと K クラスタを持つデータセット D; 2 初期クラスタリングとラベル付け L; 3 繰り返し T; 4 の数を j ≤ T と停止基準 δ に設定する。 0.82
not reached do 5 6 7 到達しない 5 6 7 0.82
8 9 10 11 12 8 9 10 11 12 0.85
Sample P uniformly from [P1, P2]; Apply outlier detection for each cluster p1, p2]から一様にサンプルp;各クラスタに異常検出を適用する 0.79
from L to remove outliers from D; Dから外れ物を除去するためにLから。 0.57
if Number of texts in any cluster クラスタ内のテキストの数が 0.62
n ≥ P ∗ N/K then すると n ≥ P ∗ N/K 0.77
Remove texts randomly from that cluster until n ≥ P ∗ N/K; テキストをそのクラスタからn ≥ P ∗ N/Kまでランダムに削除する。 0.66
end Add the rest of D to the train set and add all removed samples to the test set; 終了 D の残りを列車セットに追加し、すべての除去されたサンプルをテストセットに追加する。 0.75
Train a classifier on the train set and 列車セットの分類器を訓練し、 0.72
update L based on predictions of the classifier on the test set; テストセットの分類器の予測に基づいてLを更新する。 0.75
Calculate the criterion δ and update j; 基準 δ を計算し、j を更新する 0.69
13 end USE representations1 (Cer et al., 2018; Yang et al., 2019) for short texts to plug them into one of the clustering algorithms: k-means, Hierarchical Agglomerative Clustering (HAC) or Spectral Clustering. 終わり13 USE representations1 (Cer et al., 2018; Yang et al., 2019) は、k-means, Hierarchical Agglomerative Clustering (HAC) や Spectral Clustering といったクラスタリングアルゴリズムに短いテキストを挿入する。 0.79
We used a full similarity matrix as well as k-NN and similarity distribution based sparsification of the similarity matrix (Rakib et al., 2018) with HAC. 完全類似度行列とk-NNと類似度分布に基づくHACとの類似度行列(Rakib et al., 2018)の疎化を用いた。 0.79
In both methods of sparsification, we set the number of non-zero elements in each row of the similarity matrix equal to the ratio of the number of samples in the dataset to the number of clusters. 両者のスパーシフィケーションでは、類似度行列の各行の非ゼロ要素の数を、データセット内のサンプル数とクラスタ数との比率に等しい値に設定する。 0.63
In addition, we tested all available linkage criteria for HAC. さらに,HACのすべてのリンク基準についても検討した。 0.62
We tried the Isolation Forest (IF) (Liu et al., 2008) and Local Outlier Factor (LOF) (Breunig et al., 2000) for outlier detection. Isolation Forest (IF) (Liu et al., 2008) と Local Outlier Factor (LOF) (Breunig et al., 2000) で異常検知を行った。 0.76
We used clustering and outlier detection algorithms implemented in the scikit-learn2 and scipy3 python libraries. scikit-learn2 および scipy3 python ライブラリで実装されたクラスタリングおよびアウトプライヤ検出アルゴリズムを使用した。 0.63
In contrast with (Rakib et al., 2020), we used Transformer models such as BERT (Devlin et al., 2018) and RoBERTa (Liu et al., 2019) for itera- Rakib et al., 2020) とは対照的に、私たちは itera に BERT (Devlin et al., 2018) や RoBERTa (Liu et al., 2019) などのトランスフォーマーモデルを使用しました。 0.81
1https://tfhub.dev/g oogle/collections/un iversal-sentence- 1https://tfhub.dev/g oogle/collections/un iversal-sentence- 0.26
encoder/1 2https://scikit-lear n.org/stable/index.h tml 3https://www.scipy.o rg/ encoder/1 2https://scikit-lear n.org/stable/index.h tml 3https://www.scipy.o rg/ 0.44
英語(論文から抽出)日本語訳スコア
tive fine-tuning and classification. In addition, we used Multinomial Logistic Regression (MLR) as in other works. 微調整と分類。 また、他の作品と同様にMLR(Multinomial Logistic Regression)を用いています。 0.66
We consider two different stopping criteria. 停止基準は2つあります。 0.55
The first stopping criterion (Rakib et al., 2020) is defined as follows δ = 1 i| < ǫ where ci and c′ i are sizes of clusters determined by the current labeling L and previous labeling L′, respectively, and i is a cluster number. 最初の停止基準 (Rakib et al., 2020) は δ = 1 i| < > と定義され、ci と c′ i はそれぞれ、現在のラベル付け L と以前のラベル付け L′ で決定されるクラスタのサイズであり、i はクラスタ数である。 0.81
The second criterion is reached immediately when δ has a minimum value. 第2の基準は δ が最小値を持つとすぐに到達する。 0.80
N Pi |ci − c′ N Pi |ci − c′ 0.88
4 Datasets Our study uses the same datasets as those in a number of previous studies (Xu et al., 2017; Hadifar et al., 2019; Rakib et al., 2020) on STC. 4つのデータセット 本研究は, STC 上の多くの研究 (Xu et al., 2017; Hadifar et al., 2019; Rakib et al., 2020) と同じデータセットを用いている。 0.66
The statistics on the datasets are presented in Table 1. データセットの統計は、表1で示されます。 0.84
The Search Snippets dataset is composed of Google search results. Search Snippetsデータセットは、Google検索結果で構成されている。 0.73
The texts in the Search Snippets dataset represent sets of key words, rather than being coherent texts. Search Snippetsデータセットのテキストは、一貫性のあるテキストではなく、キーワードのセットを表す。 0.73
The Biomedical corpus is a subset of one of the BioAsQ4 challenge datasets. Biomedical corpusは、BioAsQ4チャレンジデータセットのサブセットである。 0.70
The texts in this dataset are paper titles with many special terms from biology and medicine. このデータセットのテキストは、生物学と医学から多くの専門用語を持つ論文タイトルである。 0.70
The Stack Overflow is a subset of the challenge on Kaggle and contains texts with question titles. Stack OverflowはKaggleの課題の一部であり、質問タイトルのテキストを含んでいる。 0.74
AG News is a subset of the dataset that was used in (Zhang and LeCun, 2015), where 2000 samples from each of the four categories were taken randomly. AG Newsは(Zhang and LeCun, 2015)で使用されたデータセットのサブセットであり、4つのカテゴリそれぞれから2000のサンプルをランダムに取得した。 0.81
The Tweet, Google News TS, T and S sets are exactly those datasets which were used in (Yin and Wang, 2014). Tweet、Google News TS、T、Sのセットは、まさにそれで使われたデータセットである(Yin and Wang, 2014)。 0.81
Note that the former and the latter four datasets can be grouped by the number of clusters. 前者と後者の4つのデータセットは、クラスタ数でグループ化できることに注意してください。 0.71
The first group contains relatively low numbers of clusters, while the second has greater numbers of clusters. 第1群は比較的低い数のクラスタを含み、第2群はより大きな数のクラスタを有する。 0.80
5 Results To measure the performance of our algorithm, we used such metrics as accuracy and Normalized Mutual Information (NMI). 5結果 アルゴリズムの性能を測定するために、精度やNMI(Normalized Mutual Information)などの指標を使用しました。 0.79
The value of NMI does not depend on the absolute values of labels. NMIの値はラベルの絶対値に依存しません。 0.69
The accuracy is calculated using the Hungarian algorithm (Xu et al., 2017). 精度はハンガリーのアルゴリズムを用いて計算される(Xu et al., 2017)。 0.89
It allows one to rearrange absolute label values to maximize accuracy. 絶対ラベルの値を並べ替えて精度を最大化することができる。 0.71
Our experiments on initial clustering tested which of the USE versions and which clustering algorithm should be used to obtain the best quality in terms of both aforementioned metrics. 初期クラスタリングに関する私たちの実験では、USEバージョンとクラスタリングアルゴリズムのどれを、前述の両方のメトリクスの観点から最高の品質を得るために使用するかをテストしました。 0.67
As 4http://bioasq.org として 4http://bioasq.org 0.50
Dataset Stack Overflow AG News Biomedical corpus Search Snippets Tweet Google News TS Google News T Google News S Dataset Stack Overflow AG News Biomedical corpus Search Snippets Tweet Google News TS Google News T Google News S 0.85
K 20 4 20 8 89 152 152 152 K 20 4 20 8 89 152 152 152 0.85
N 20000 8000 20000 12340 2472 11109 11109 11109 N 20000 8000 20000 12340 2472 11109 11109 11109 0.85
M 8.2 22.5 12.9 17.0 8.4 28.0 6.2 21.8 M 8.2 22.5 12.9 17.0 8.4 28.0 6.2 21.8 0.45
Table 1: Statistics on the datasets used in the study. 表1: この研究で使用されるデータセットの統計。 0.85
K is the number of clusters, N is the number of samples, M is the average number of words in a document. Kはクラスタの数、Nはサンプルの数、Mは文書中の単語の平均数です。
訳抜け防止モード: K はクラスタの数、N はサンプルの数である。 M は文書中の単語の平均数である。
0.78
a result, the old version of USE (Cer et al., 2018) proved to be better (by a few percent) than the newer one (Yang et al., 2019) in terms of both metrics on all 8 datasets. その結果、旧バージョンのUSE(Cer et al., 2018)は、新しいUSE(Yang et al., 2019)よりも、すべての8つのデータセットのメトリクスの両面で(数パーセント)優れていることが判明した。 0.82
We tested k-means, HAC, and Spectral Clustering algorithms with these sentence embeddings. これらの文埋め込みを用いてk-means, HAC, Spectral Clusteringアルゴリズムをテストした。 0.67
Interestingly, we found that the best clustering method was k-means for the whole group of datasets with the smaller number of clusters (see Table 2). 興味深いことに、最も優れたクラスタリング手法はクラスタ数が少ないデータセット群全体のk-meansであることがわかった(表2参照)。 0.79
Since k-means is not a deterministic algorithm and its result depends on a particular initializatin, we averaged the results over 5 runs, each having 1000 initializations. k-平均は決定論的アルゴリズムではなく、その結果は特定のイニシャルイザチンに依存するため、それぞれ1000個の初期化を持つ5回以上の結果を平均した。 0.71
On the contrary, HAC proved to be the best clustering method for datasets with the greater number of clusters (see Table 3). 反対に、hacはクラスタ数の多いデータセットに対して最適なクラスタリング方法であることが証明された(表3)。 0.74
Note we does not provide variance for HAC since this algorithm is determenistic. このアルゴリズムは決定論的であるため、HACの分散は提供しない。 0.64
Overall, k-NN sparsification with the average linkage criterion gave the best results for the four datasets with the greater number of clusters. 全体として、平均リンク基準を持つk-NNのスパーシフィケーションは、クラスタ数が多い4つのデータセットにとって最良の結果となった。 0.58
This differs from the results of (Rakib et al., 2020), where a sparsification based on similarity distribution and the Ward linkage criterion are described as the most effective ones. これは(Rakib et al., 2020)の結果とは異なり、類似度分布と区連動基準に基づくスパーシフィケーションが最も効果的であると記述されている。 0.77
We obtained highly competitive results for two (Stack Overflow and AG News) of the four datasets from the first group of datasets. 最初のデータセット群から4つのデータセットのうち2つ(stack overflowとag news)で高い競合性を得た。 0.71
However, we did not get comparable results on the other two datasets (Search Snippets and Biomedical corpus), which can be easily explained. しかし、他の2つのデータセット(検索スニペットとバイオメディカルコーパス)では比較結果が得られず、簡単に説明できます。 0.76
The Search Snippets dataset texts are sets of key words, rather than being coherent texts. Search Snippetsデータセットテキストは、一貫性のあるテキストではなく、キーワードのセットです。 0.71
Since USE was trained on coherent texts, it cannot produce a good result. 使用はコヒーレントなテキストで訓練されたため、良い結果を生み出すことはできない。 0.65
The Biomedical dataset almost completely consists of special terms. バイオメディカルデータセットはほぼ完全に特別な用語で構成されている。 0.66
USE probably did not see many of these terms during training, which explains its poor performance on this dataset. USEはトレーニング中にこれらの用語の多くを見ていないため、このデータセットのパフォーマンスが悪いと説明しています。 0.60
We got the best results for all four datasets from the second group 第2グループから4つのデータセットで 最高の結果が得られました 0.74
英語(論文から抽出)日本語訳スコア
Method Metric Stack Overflow AG News Method Metric Stack Overflow AG News 0.85
ECIC STA Init. ECIC STA と。 0.75
clust. k-means Iter. くだらない k-means Iter 0.59
class. RoBERTa Iter. クラス。 RoBERTa Iter 0.64
class. Log. Reg. クラス。 ログ。 Reg 0.65
Acc. NMI Acc. Acc。 NMI Acc所属。 0.79
NMI Acc. NMI Acc所属。 0.77
NMI Acc. NMI Acc所属。 0.77
NMI Acc. NMI Acc所属。 0.77
NMI 78.73±0.17 73.44±0.35 59.8±1.9 54.8±1.0 81.84±0.01 80.80±0.01 84.72±0.20 80.63±0.97 83.31±0.05 80.68±0.01 NMI 78.73±0.17 73.44±0.35 59.8±1.9 54.8±1.0 81.84±0.01 80.80±0.01 84.72±0.20 80.63±0.97 83.31±0.05 80.68±0.01 0.52
84.52±0.50 59.07±0.8483.87±0.02 61.88±0.04 84.64±0.08 62.69±0.20 86.53±0.1 65.99±0.28 84.52±0.50 59.07±0.8483.87±0.02 61.88±0.04 84.64±0.08 62.69±0.20 86.53±0.1 65.99±0.28 0.17
Biomedical corpus Search Snippets 47.78±0.51 41.27±0.36 54.8±2.3 47.1±0.8 43.84±0.20 37.85±0.13 44.85±0.20 38.40±0.13 44.96±0.17 39.18±0.04 Snippets 47.78±0.51 41.27±0.36 54.8±2.3 47.1±0.8 43.84±0.20 37.85±0.13 44.85±0.20 38.40±0.13 44.96±0.17 39.18±0.04 0.23
87.67±0.63 71.93±1.04 77.1±1.1 56.7±1.0 74.76±0.13 54.25±0.16 74.97±0.15 55.17±0.26 75.87±0.15 57.36±0.08 87.67±0.63 71.93±1.04 77.1±1.1 56.7±1.0 74.76±0.13 54.25±0.16 74.97±0.15 55.17±0.26 75.87±0.15 57.36±0.08 0.18
Table 2: Comparison with published results of accuracy and NMI scores for datasets with the smaller number of clusters. 表2: クラスタ数の少ないデータセットの精度とNMIスコアの公開結果との比較。 0.72
in terms of NMI but not in terms of accuracy (see Table 3). nmiでは、正確さは考慮されていない(表3参照)。 0.73
To improve the results of initial clustering, we tested the iterative classification algorithm with MLR and with neural pre-trained classifiers, such as BERT and RoBERTa. 初期クラスタリングの結果を改善するため,MLRとBERTやRoBERTaなどのニューラル事前学習型分類器を用いて反復分類アルゴリズムを検証した。 0.86
For the neural classifier, the number of iterations T was set to be 10, the learning rate 3×10−5 and the number of epochs to train during each iteration 2. ニューラル・クラシファイアでは、イテレーションTの数を10、学習率を3×10−5、各イテレーション2でトレーニングするエポックの数に設定した。 0.66
The use of the warm start i.e. 暖かい開始の使用、すなわち。 0.64
training resumption after each iteration instead of re-initialization, and learning rate linear decaying schedule instead of the constant learning rate, did not show any considerable improvement. 再初期化ではなく,反復後のトレーニングの再開,学習率の線形減衰スケジュール,学習率の一定化は,大幅な改善は示さなかった。 0.80
RoBERTa gave approximately one half percent improvement over the BERT performance. RoBERTaはBERTのパフォーマンスを約半分改善しました。 0.59
We set T to be 50 for MLR, since the algorithm worked more stable and had potential to improve for the more iterations than for neural classifiers. アルゴリズムはより安定しており、ニューラル分類器よりも多くのイテレーションで改善する可能性があるため、我々はTをMLRで50と設定した。 0.70
For the first stopping criterion we tried ǫ equal to 0.03 and 0.05. 最初の停止基準として、0.03 と 0.05 を試した。 0.68
We found that the use of the second stopping criterion with neural classifiers gives better results than the first one. 第2の停止基準を神経分類器で用いると,第1の基準よりも優れた結果が得られることがわかった。 0.65
We did not use any criterion for MLR and collected the metrics at the end of 50 iterations, since both considered metrics grew monotonically for this classifier. MLRの基準は使用せず、50回のイテレーションの終わりにメトリクスを収集しました。
訳抜け防止モード: 私たちはMLRの基準を一切使わず、50イテレーションの最後にメトリクスを収集しました。 この分類器は どちらも 単調に成長した。
0.61
We set P1 to be 0.75 and P2 to be 0.95 for both types of classifiers. p1 を 0.75 に設定し、p2 を 0.95 に設定した。 0.71
We averaged our results over 3 runs in both cases. どちらのケースでも,結果の平均は3回以上でした。 0.53
We did not find any difference in the use of IF or LOF for outlier detection with all classifiers. IF や LOF を使用することで、すべての分類器の異常検出に違いは見つからなかった。 0.76
The iterative classification achieved the stateof-the-art results on the Stack Overflow and AG News datasets with both types of classifiers and improved the good initial clustering result further (see Table 2). 反復的な分類は、Stack OverflowとAG Newsのデータセットの両タイプの分類器による最先端の結果を達成し、優れた初期クラスタリング結果をさらに改善した(表2参照)。 0.75
The neural classifier showed a one percent better performance for the Stack Overflow in terms of accuracy than MLR. ニューラル分類器は、MLRよりも精度の観点からStack Overflowの1%優れたパフォーマンスを示した。 0.71
We did not get comparable results for the Biomedical and Search Snippets datasets, since the iterative classification algorithm can improve the initial clustering result by a limited number of percent and it was low efficient for these two datasets. 得られなかった 反復分類アルゴリズムは初期クラスタリング結果を限られた数で改善することができ、これらの2つのデータセットでは効率が低かったため、バイオメディカルおよびサーチスニペットデータセットに匹敵する結果が得られた。 0.67
We did not observe any improvement for the second group of datasets, since it is more difficult for the algorithm to converge to the correct solution during iterations in the case of greater number of clusters. クラスタ数が多い場合には、反復中にアルゴリズムが正しい解に収束することが難しくなるため、第2のデータセット群では改善は見られませんでした。 0.71
6 Conclusions The sentence embeddings based algorithm for enhanced clustering by iterative classification was applied to 8 datasets with short texts. 結論6 逐次分類によるクラスタリング強化のための文埋め込みに基づくアルゴリズムを8つの短文データセットに適用した。 0.73
The algorithm demonstrates state of the art results for the 6 out of 8 datasets. このアルゴリズムは、8つのデータセットのうち6つのアート結果の状態を実証する。 0.66
We argue that the lack of coherent and common texts causes an inferior performance of the algorithm for the two remaining datasets. 我々は、コヒーレントテキストと共通テキストの欠如により、残りの2つのデータセットに対するアルゴリズムの性能が劣ると主張している。 0.63
The quality of the whole algorithm strongly depends on the initial clustering quality. アルゴリズム全体の品質は、初期クラスタリングの品質に大きく依存します。 0.84
Initial clustering with USE representations has already allowed us to achieve a competitive performance for a number of datasets. USE表現を使った初期クラスタリングによって、すでに多くのデータセットの競合的なパフォーマンスを実現しています。 0.65
Therefore, due to transfer learning these representations can be readily applied to other datasets even without iterative classification. したがって、転送学習により、これらの表現は反復的な分類なしにも他のデータセットにも容易に適用できる。 0.63
References Markus M Breunig, Hans-Peter Kriegel, Raymond T Ng, and J¨org Sander. 参考文献 Markus M Breunig、Hans-Peter Kriegel、Raymond T Ng、J sorg Sander。 0.76
2000. Lof: identifying densitybased local outliers. 2000. Lof: 密度ベースのローカルアウトプライヤを特定する。 0.76
In Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pages 93–104. 2000年のACM SIGMOD国際会議のProceedings of the 2000 ACM SIGMOD International Conference on Management of Data, Page 93–104。 0.66
Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Con- Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St. John, Noah Con- 1.00
英語(論文から抽出)日本語訳スコア
Method ECIC Metric Tweet Acc. 方法 ECIC Metric Tweet Accの略。 0.76
NMI GSDPMM NMI Init. NMI GSDPMM NMI Init。 0.79
clust. Acc. くだらない Acc。 0.58
NMI HAC 91.52±0.99 86.87±0.13 87.5±0.5 78.20 91.28 NMI HAC 91.52±0.99 86.87±0.13 87.5±0.5 78.20 91.28 0.55
Google News TS Google News T Google News S 92.25±0.10 94.40±0.11 91.2±0.3 84.64 94.77 Google News TS Google News T Google News S 92.25±0.10 94.40±0.11 91.2±0.3 84.64 94.77 0.48
87.18±0.21 87.87±1.00 87.3±0.2 77.56 91.14 87.18±0.21 87.87±1.00 87.3±0.2 77.56 91.14 0.25
89.02±0.12 89.96±0.11 89.1±0.4 80.34 91.96 89.02±0.12 89.96±0.11 89.1±0.4 80.34 91.96 0.25
Table 3: Comparison with published results of accuracy and NMI scores for datasets with the larger number of clusters. 表3: クラスタ数の多いデータセットの精度とNMIスコアの公開結果との比較。 0.71
tion Systems, pages 105–117, Cham. tion Systems, page 105–117, Cham. 0.95
Springer International Publishing. Springer International Publishing(英語) 0.71
Jiaming Xu, Peng Wang, Guanhua Tian, Bo Xu, Jun Zhao, Fangyuan Wang, and Hongwei Hao. Jiaming Xu, Peng Wang, Guanhua Tian, Bo Xu, Jun Zhao, Fangyuan Wang, Hongwei Hao 0.70
2015. Short text clustering via convolutional neural networks. 2015. 畳み込みニューラルネットワークによる短いテキストクラスタリング。 0.81
In Proceedings of the 1st Workshop on Vector Space Modeling for Natural Language Processing, pages 62–69. The First Workshop on Vector Space Modeling for Natural Language Processing, Page 62-69 に参加して 0.80
Jiaming Xu, Bo Xu, Peng Wang, Suncong Zheng, Guanhua Tian, and Jun Zhao. Jiaming Xu, Bo Xu, Peng Wang, Suncong Zheng, Guanhua Tian, Jun Zhao。 0.73
2017. Self-taught convolutional neural networks for short text clustering. 2017. 短いテキストクラスタリングのための自己学習畳み込みニューラルネットワーク。 0.76
Neural Networks, 88:22–31. ニューラルネットワーク 88:22-31。 0.63
Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law, Noah Constant, Gustavo Hern´andez ´Abrego, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil. Yinfei Yang, Daniel Cer, Amin Ahmad, Mandy Guo, Jax Law, Noah Constant, Gustavo Hern ́andez ́Abrego, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, Ray Kurzweil 0.89
2019. Multilingual universal sentence encoder for semantic retrieval. 2019. 意味検索のための多言語ユニバーサル文エンコーダ 0.75
CoRR, abs/1907.04307. CoRR, abs/1907.04307。 0.57
Jianhua Yin and Jianyong Wang. Jianhua YinおよびJianyong Wang。 0.80
2014. A dirichlet multinomial mixture model-based approach for short text clustering. 2014. 短文クラスタリングのためのディリクレ多項混合モデルに基づくアプローチ。 0.82
In Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 233–242. 第20回ACM SIGKDD国際会議のProceedings of the 20th ACM SIGKDD International Conference on Knowledge Discovery and data mining, page 233–242。
訳抜け防止モード: 第20回ACM SIGKDD国際会議「知識発見とデータマイニング」の開催報告 233-242頁。
0.74
Jianhua Yin and Jianyong Wang. Jianhua YinおよびJianyong Wang。 0.80
2016. A model-based approach for text clustering with outlier detection. 2016. 異常検出を伴うテキストクラスタリングのためのモデルベースアプローチ 0.83
In 2016 IEEE 32nd International Conference on Data Engineering (ICDE), pages 625–636. 2016年、IEEE 32nd International Conference on Data Engineering (ICDE) 625-636頁。 0.85
IEEE. Wei Zhang, Chao Dong, Jianhua Yin, and Jianyong Wang. IEEE。 Wei Zhang、Chao Dong、Jianhua Yin、Jianyong Wang。 0.75
2019. Attentive representation learning with adversarial training for short text clustering. 2019. 短いテキストクラスタリングのための対比トレーニングによる注意深い表現学習。 0.77
arXiv preprint arXiv:1912.03720. arXiv preprint arXiv:1912.03720 0.71
Xiang Zhang and Yann LeCun. Xiang ZhangおよびYann LeCun。 0.78
2015. Text understanding from scratch. 2015. テキストをゼロから理解する。 0.73
arXiv preprint arXiv:1502.01710. arXiv preprint arXiv:1502.01710 0.72
stant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, Yun-Hsuan Sung, Brian Strope, and Ray Kurzweil. stant、Mario Guajardo-Cespedes、Steve Yuan、Chris Tar、Yun-Hsuan Sung、Brian Strope、Ray Kurzweil。 0.83
2018. Universal sentence encoder. 2018. 普遍文エンコーダ。 0.74
CoRR, abs/1803.11175. CoRR, abs/1803.11175。 0.59
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.78
2018. Bert: Pre-training of deep bidirectional transformers for language understanding. 2018. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.82
arXiv preprint arXiv:1810.04805. arXiv preprint arXiv:1810.04805 0.71
Amir Hadifar, Lucas Sterckx, Thomas Demeester, and Chris Develder. Amir Hadifar、Lucas Sterckx、Thomas Demeester、Chris Develder。 0.72
2019. A self-training approach for short text clustering. 2019. 短いテキストクラスタリングのためのセルフトレーニングアプローチ。 0.80
In Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), pages 194–199. In Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), page 194-199。 0.85
Qiang Jipeng, Qian Zhenyu, Li Yun, Yuan Yunhao, and Wu Xindong. Qiang Jipeng、Qian Zhenyu、Li Yun、Yuan Yunhao、Wu Xindong。 0.62
2019. Short text topic modeling techniques, applications, and performance: a survey. 2019. 短いテキストトピックモデリング技術、アプリケーション、およびパフォーマンス:調査。 0.75
arXiv preprint arXiv:1904.07695. arXiv preprint arXiv:1904.07695 0.72
Chenliang Li, Yu Duan, Haoran Wang, Zhiqian Zhang, Aixin Sun, and Zongyang Ma. Chenliang Li, Yu Duan, Haoran Wang, Zhiqian Zhang, Aixin Sun, Zongyang Ma 0.68
2017. Enhancing topic modeling for short texts with auxiliary word embeddings. 2017. 補助語埋め込みによる短いテキストのトピックモデリングの強化。 0.84
ACM Transactions on Information Systems (TOIS), 36(2):1–30. ACM Transactions on Information Systems (TOIS) 36(2):1–30。 0.89
Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou. Fei Tony Liu、Kai Ming Ting、Zhi-Hua Zhou。 0.79
2008. Isolation forest. 2008. 孤立林。 0.73
In 2008 Eighth IEEE International Conference on Data Mining, pages 413–422. 2008年、IEEE 8th International Conference on Data Mining, page 413–422。 0.75
IEEE. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. IEEE。 Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.81
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.72
Dat Quoc Nguyen, Richard Billingsley, Lan Du, and Mark Johnson. Dat Quoc Nguyen、Richard Billingsley、Lan Du、Mark Johnson。 0.71
2015. Improving topic models with latent feature word representations. 2015. 潜在特徴語表現によるトピックモデルの改善。 0.80
Transactions of the Association for Computational Linguistics, 3:299–313. Association for Computational Linguistics, 3:299–313。 0.78
Md Rashadul Hasan Rakib, Magdalena Jankowska, Norbert Zeh, and Evangelos Milios. Md Rashadul Hasan Rakib, Magdalena Jankowska, Norbert Zeh, Evangelos Milios 0.67
2018. Improving short text clustering by similarity matrix sparsification. 2018. 類似行列スパーシフィケーションによる短いテキストクラスタリングの改善。 0.83
In Proceedings of the ACM Symposium on Document Engineering 2018, pages 1–4. The Proceedings of the ACM Symposium on Document Engineering 2018, page 1-4。 0.84
Md Rashadul Hasan Rakib, Norbert Zeh, Magdalena Jankowska, and Evangelos Milios. Md Rashadul Hasan Rakib, Norbert Zeh, Magdalena Jankowska, Evangelos Milios 0.67
2020. Enhancement of short text clustering by iterative classification. 2020. 反復分類による短文クラスタリングの高速化 0.76
In Natural Language Processing and Informa- 自然言語処理とインフォーマ- 0.83
           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。