論文の概要: Event-Driven News Stream Clustering using Entity-Aware Contextual
Embeddings
- arxiv url: http://arxiv.org/abs/2101.11059v1
- Date: Tue, 26 Jan 2021 19:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-13 20:03:46.179117
- Title: Event-Driven News Stream Clustering using Entity-Aware Contextual
Embeddings
- Title(参考訳): Entity-Aware Contextual Embeddingsを用いたイベント駆動ニューズストリームクラスタリング
- Authors: Kailash Karthik Saravanakumar, Miguel Ballesteros, Muthu Kumar
Chandrasekaran, Kathleen McKeown
- Abstract要約: 本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。
我々のモデルはスパースと密集した文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約する。
事前学習したトランスフォーマモデルにおいて,適切な微調整目標と外部知識を用いることにより,文脈埋め込みの有効性が大幅に向上することを示す。
- 参考スコア(独自算出の注目度): 14.225334321146779
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a method for online news stream clustering that is a variant of
the non-parametric streaming K-means algorithm. Our model uses a combination of
sparse and dense document representations, aggregates document-cluster
similarity along these multiple representations and makes the clustering
decision using a neural classifier. The weighted document-cluster similarity
model is learned using a novel adaptation of the triplet loss into a linear
classification objective. We show that the use of a suitable fine-tuning
objective and external knowledge in pre-trained transformer models yields
significant improvements in the effectiveness of contextual embeddings for
clustering. Our model achieves a new state-of-the-art on a standard stream
clustering dataset of English documents.
- Abstract(参考訳): 本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。
我々のモデルはスパースと密度の高い文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約し、ニューラル分類器を用いてクラスタリングを決定する。
重み付き文書クラスタ類似度モデルは、線形分類目標への三重項損失の新しい適応を用いて学習される。
訓練済みトランスモデルに適切な微調整目標と外部知識を使用することにより、クラスタリングのためのコンテキスト埋め込みの有効性が大幅に改善されることが示された。
本モデルは,英語文書の標準ストリームクラスタリングデータセット上で,新たな最先端を実現する。
関連論文リスト
- Self Supervised Correlation-based Permutations for Multi-View Clustering [7.972599673048582]
汎用データのためのエンドツーエンドのディープラーニングベースのMVCフレームワークを提案する。
我々のアプローチは、新しい置換に基づく正準相関目標を用いて有意義な融合データ表現を学習することである。
10つのMVCベンチマークデータセットを用いて、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T08:08:30Z) - Unified Multi-View Orthonormal Non-Negative Graph Based Clustering
Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。
また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文 参考訳(メタデータ) (2022-11-03T08:18:27Z) - ClusterQ: Semantic Feature Distribution Alignment for Data-Free
Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。
意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。
また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文 参考訳(メタデータ) (2022-04-30T06:58:56Z) - Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。
最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文 参考訳(メタデータ) (2021-10-10T02:30:31Z) - A Framework for Joint Unsupervised Learning of Cluster-Aware Embedding
for Heterogeneous Networks [6.900303913555705]
Heterogeneous Information Network (HIN) は、HINの構造と意味を保存しているHINノードの低次元投影を指す。
本稿では,クラスタ埋め込みとクラスタ認識HIN埋め込みの併用学習を提案する。
論文 参考訳(メタデータ) (2021-08-09T11:36:36Z) - Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。
特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。
一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文 参考訳(メタデータ) (2021-04-03T15:32:49Z) - Meta-learning representations for clustering with infinite Gaussian
mixture models [39.56814839510978]
クラスタリング性能を向上させるためにニューラルネットワークを訓練するメタラーニング手法を提案する。
提案手法は,非ラベルデータとは異なるラベルデータを用いた知識メタ学習を用いて,未ラベルデータをクラスタ化することができる。
論文 参考訳(メタデータ) (2021-03-01T02:05:31Z) - Joint Optimization of an Autoencoder for Clustering and Embedding [22.16059261437617]
本稿では,自動エンコーダとクラスタリングを同時に学習する代替手法を提案する。
この単純なニューラルネットワークはクラスタリングモジュールと呼ばれ、ディープオートエンコーダに統合され、ディープクラスタリングモデルとなる。
論文 参考訳(メタデータ) (2020-12-07T14:38:10Z) - Mixing Consistent Deep Clustering [3.5786621294068373]
良い潜在表現は、2つの潜在表現の線形を復号する際に意味的に混合出力を生成する。
本稿では,表現をリアルに見せるための混合一貫性深層クラスタリング手法を提案する。
提案手法は,クラスタリング性能を向上させるために,既存のオートエンコーダに付加可能であることを示す。
論文 参考訳(メタデータ) (2020-11-03T19:47:06Z) - Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。
画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-06-25T07:36:47Z) - LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。
本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。
CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文 参考訳(メタデータ) (2020-06-17T17:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。