Fugu-MT 論文翻訳(概要): Event-Driven News Stream Clustering using Entity-Aware Contextual Embeddings

論文の概要: Event-Driven News Stream Clustering using Entity-Aware Contextual Embeddings

arxiv url: http://arxiv.org/abs/2101.11059v1
Date: Tue, 26 Jan 2021 19:58:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-13 20:03:46.179117
Title: Event-Driven News Stream Clustering using Entity-Aware Contextual Embeddings
Title（参考訳）: Entity-Aware Contextual Embeddingsを用いたイベント駆動ニューズストリームクラスタリング
Authors: Kailash Karthik Saravanakumar, Miguel Ballesteros, Muthu Kumar Chandrasekaran, Kathleen McKeown
Abstract要約: 本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。我々のモデルはスパースと密集した文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約する。事前学習したトランスフォーマモデルにおいて,適切な微調整目標と外部知識を用いることにより,文脈埋め込みの有効性が大幅に向上することを示す。
参考スコア（独自算出の注目度）: 14.225334321146779
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a method for online news stream clustering that is a variant of the non-parametric streaming K-means algorithm. Our model uses a combination of sparse and dense document representations, aggregates document-cluster similarity along these multiple representations and makes the clustering decision using a neural classifier. The weighted document-cluster similarity model is learned using a novel adaptation of the triplet loss into a linear classification objective. We show that the use of a suitable fine-tuning objective and external knowledge in pre-trained transformer models yields significant improvements in the effectiveness of contextual embeddings for clustering. Our model achieves a new state-of-the-art on a standard stream clustering dataset of English documents.
Abstract（参考訳）: 本稿では,非パラメトリックストリーミングk-meansアルゴリズムの変種であるオンラインニュースストリームクラスタリング手法を提案する。我々のモデルはスパースと密度の高い文書表現の組み合わせを使用し、これらの複数の表現に沿って文書とクラスタの類似性を集約し、ニューラル分類器を用いてクラスタリングを決定する。重み付き文書クラスタ類似度モデルは、線形分類目標への三重項損失の新しい適応を用いて学習される。訓練済みトランスモデルに適切な微調整目標と外部知識を使用することにより、クラスタリングのためのコンテキスト埋め込みの有効性が大幅に改善されることが示された。本モデルは,英語文書の標準ストリームクラスタリングデータセット上で,新たな最先端を実現する。

関連論文リスト

In-Context Clustering with Large Language Models [50.25868718329313]
ICCは、注意機構を通じて入力間の複雑な関係をキャプチャする。事前学習したLLMは、テキスト符号化された数値データに対して、印象的なゼロショットクラスタリング機能を示す。我々の研究は、文脈内学習を教師なしの設定に拡張し、クラスタリングにおけるLLMの有効性と柔軟性を示します。
論文参考訳（メタデータ） (2025-10-09T17:07:55Z)
Federated Learning based on Self-Evolving Gaussian Clustering [0.0]
フェデレートラーニングの文脈において,進化型ファジィシステムを提案する。従来の方法とは異なり、Federated Learningでは、モデルをクライアントデバイス上でローカルにトレーニングすることが可能で、モデルパラメータのみをデータではなく中央サーバで共有する。
論文参考訳（メタデータ） (2025-08-21T09:32:37Z)
An Enhanced Model-based Approach for Short Text Clustering [58.60681789677676]
Twitter、Google+、Facebookなどのソーシャルメディアの人気が高まり、短いテキストのクラスタリングがますます重要になっている。既存の手法は、トピックモデルに基づくアプローチと深層表現学習に基づくアプローチの2つのパラダイムに大別することができる。短文の空間性と高次元性を効果的に扱えるDirichlet Multinomial Mixture Model (GSDMM) のギブスサンプリングアルゴリズムを提案する。さらなる改良を保証しているGSDMMのいくつかの側面に基づいて,さらなる性能向上を目的とした改良されたアプローチであるGSDMM+を提案する。
論文参考訳（メタデータ） (2025-07-18T10:07:42Z)
Self-supervised Latent Space Optimization with Nebula Variational Coding [87.20343320266215]
本稿では,クラスタ化埋め込みに繋がる変分推論モデルを提案する。 textbfnebula anchorsと呼ばれる潜伏空間に新たな変数を導入し、トレーニング中に潜伏変数がクラスタを形成するように誘導する。各潜在機能は最も近いアンカーでラベル付けできるため、クラスタ間の分離をより明確にするために、自己教師付き方法でメートル法学習を適用することも提案する。
論文参考訳（メタデータ） (2025-06-02T08:13:32Z)
An Improved Deep Learning Model for Word Embeddings Based Clustering for Large Text Datasets [0.0]
単語の埋め込みを微調整することで,大規模テキストデータセットのクラスタリングを改良する手法を提案する。シルエットスコア、純度、調整されたランドインデックス(ARI)などのクラスタリング指標の大幅な改善を示す。提案手法は,大規模テキストマイニング作業における意味的理解と統計的堅牢性のギャップを埋めるのに役立つ。
論文参考訳（メタデータ） (2025-02-22T08:28:41Z)
k-LLMmeans: Summaries as Centroids for Interpretable and Scalable LLM-Based Text Clustering [0.0]
k-LLMmeansは,LLMを用いてテキスト要約をクラスタセンタロイドとして生成する,k-meansクラスタリングアルゴリズムの新たな改良である。この修正は、より高い解釈性を提供しながら、k-平均の性質を保っている。本稿では,シーケンシャルテキストストリームにおけるクラスタセントロイドの解釈可能性を示すケーススタディを提案する。
論文参考訳（メタデータ） (2025-02-12T19:50:22Z)
Self Supervised Correlation-based Permutations for Multi-View Clustering [7.972599673048582]
汎用データのためのエンドツーエンドのディープラーニングベースのMVCフレームワークを提案する。我々のアプローチは、新しい置換に基づく正準相関目標を用いて有意義な融合データ表現を学習することである。 10つのMVCベンチマークデータセットを用いて、モデルの有効性を実証する。
論文参考訳（メタデータ） (2024-02-26T08:08:30Z)
Unified Multi-View Orthonormal Non-Negative Graph Based Clustering Framework [74.25493157757943]
我々は,非負の特徴特性を活用し,多視点情報を統合された共同学習フレームワークに組み込む,新しいクラスタリングモデルを定式化する。また、深層機能に基づいたクラスタリングデータに対するマルチモデル非負グラフベースのアプローチを初めて検討する。
論文参考訳（メタデータ） (2022-11-03T08:18:27Z)
ClusterQ: Semantic Feature Distribution Alignment for Data-Free Quantization [111.12063632743013]
本稿では,ClusterQと呼ばれるデータフリーな量子化手法を提案する。意味的特徴のクラス間分離性を高めるために,特徴分布統計をクラスタ化し,整列する。また、クラス内分散を組み込んで、クラスワイドモードの崩壊を解決する。
論文参考訳（メタデータ） (2022-04-30T06:58:56Z)
Mixture Model Auto-Encoders: Deep Clustering through Dictionary Learning [72.9458277424712]
Mixture Model Auto-Encoders (MixMate)は、生成モデルで推論を実行することでデータをクラスタリングする新しいアーキテクチャである。最先端のディープクラスタリングアルゴリズムと比較して,MixMateは競争性能が高いことを示す。
論文参考訳（メタデータ） (2021-10-10T02:30:31Z)
A Framework for Joint Unsupervised Learning of Cluster-Aware Embedding for Heterogeneous Networks [6.900303913555705]
Heterogeneous Information Network (HIN) は、HINの構造と意味を保存しているHINノードの低次元投影を指す。本稿では,クラスタ埋め込みとクラスタ認識HIN埋め込みの併用学習を提案する。
論文参考訳（メタデータ） (2021-08-09T11:36:36Z)
Graph Contrastive Clustering [131.67881457114316]
本稿では,クラスタリングタスクに適用可能な新しいグラフコントラスト学習フレームワークを提案し,gcc(graph constrastive clustering)法を考案した。特に、グラフラプラシアンに基づくコントラスト損失は、より識別的かつクラスタリングフレンドリーな特徴を学ぶために提案されている。一方で、よりコンパクトなクラスタリング割り当てを学ぶために、グラフベースのコントラスト学習戦略が提案されている。
論文参考訳（メタデータ） (2021-04-03T15:32:49Z)
Meta-learning representations for clustering with infinite Gaussian mixture models [39.56814839510978]
クラスタリング性能を向上させるためにニューラルネットワークを訓練するメタラーニング手法を提案する。提案手法は,非ラベルデータとは異なるラベルデータを用いた知識メタ学習を用いて,未ラベルデータをクラスタ化することができる。
論文参考訳（メタデータ） (2021-03-01T02:05:31Z)
Joint Optimization of an Autoencoder for Clustering and Embedding [22.16059261437617]
本稿では,自動エンコーダとクラスタリングを同時に学習する代替手法を提案する。この単純なニューラルネットワークはクラスタリングモジュールと呼ばれ、ディープオートエンコーダに統合され、ディープクラスタリングモデルとなる。
論文参考訳（メタデータ） (2020-12-07T14:38:10Z)
Mixing Consistent Deep Clustering [3.5786621294068373]
良い潜在表現は、2つの潜在表現の線形を復号する際に意味的に混合出力を生成する。本稿では,表現をリアルに見せるための混合一貫性深層クラスタリング手法を提案する。提案手法は,クラスタリング性能を向上させるために,既存のオートエンコーダに付加可能であることを示す。
論文参考訳（メタデータ） (2020-11-03T19:47:06Z)
Set Based Stochastic Subsampling [85.5331107565578]
本稿では,2段階間ニューラルサブサンプリングモデルを提案する。画像分類,画像再構成,機能再構築,少数ショット分類など,様々なタスクにおいて,低いサブサンプリング率で関連ベースラインを上回っていることを示す。
論文参考訳（メタデータ） (2020-06-25T07:36:47Z)
LSD-C: Linearly Separable Deep Clusters [145.89790963544314]
ラベルなしデータセットのクラスタを識別する新しい手法であるLSD-Cを提案する。本手法は,最近の半教師付き学習の実践からインスピレーションを得て,クラスタリングアルゴリズムと自己教師付き事前学習と強力なデータ拡張を組み合わせることを提案する。 CIFAR 10/100, STL 10, MNIST, および文書分類データセットReuters 10Kなど, 一般的な公開画像ベンチマークにおいて, 当社のアプローチが競合より大幅に優れていたことを示す。
論文参考訳（メタデータ） (2020-06-17T17:58:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。