論文の概要: Vec2GC -- A Graph Based Clustering Method for Text Representations
- arxiv url: http://arxiv.org/abs/2104.09439v1
- Date: Thu, 15 Apr 2021 12:52:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 14:51:09.732040
- Title: Vec2GC -- A Graph Based Clustering Method for Text Representations
- Title(参考訳): Vec2GC - テキスト表現のためのグラフベースのクラスタリング手法
- Authors: Rajesh N Rao, Manojit Chakraborty
- Abstract要約: Vec2GCは、任意のテキストコーパスの用語やドキュメントをクラスタ化するエンドツーエンドパイプラインである。
vec2gcクラスタリングアルゴリズムは密度ベースのアプローチであり、階層的クラスタリングもサポートする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: NLP pipelines with limited or no labeled data, rely on unsupervised methods
for document processing. Unsupervised approaches typically depend on clustering
of terms or documents. In this paper, we introduce a novel clustering
algorithm, Vec2GC (Vector to Graph Communities), an end-to-end pipeline to
cluster terms or documents for any given text corpus. Our method uses community
detection on a weighted graph of the terms or documents, created using text
representation learning. Vec2GC clustering algorithm is a density based
approach, that supports hierarchical clustering as well.
- Abstract(参考訳): ラベル付きデータに制限があるNLPパイプラインは、ドキュメント処理の教師なし手法に依存している。
教師なしのアプローチは一般的に用語や文書のクラスタリングに依存する。
本稿では,新たなクラスタリングアルゴリズムであるVec2GC(Vector to Graph Communities)を導入する。
本手法は,テキスト表現学習を用いて作成した用語や文書の重み付きグラフ上で,コミュニティ検出を用いる。
vec2gcクラスタリングアルゴリズムは密度ベースのアプローチであり、階層的クラスタリングもサポートする。
関連論文リスト
- Generalized Category Discovery with Clustering Assignment Consistency [56.92546133591019]
一般化圏発見(GCD)は、最近提案されたオープンワールドタスクである。
クラスタリングの一貫性を促進するための協調学習ベースのフレームワークを提案する。
提案手法は,3つの総合的なベンチマークと3つのきめ細かい視覚認識データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-30T00:32:47Z) - Reinforcement Graph Clustering with Unknown Cluster Number [91.4861135742095]
本稿では,Reinforcement Graph Clusteringと呼ばれる新しいディープグラフクラスタリング手法を提案する。
提案手法では,クラスタ数決定と教師なし表現学習を統一的なフレームワークに統合する。
フィードバック動作を行うために、クラスタリング指向の報酬関数を提案し、同一クラスタの凝集を高め、異なるクラスタを分離する。
論文 参考訳(メタデータ) (2023-08-13T18:12:28Z) - CLIP-GCD: Simple Language Guided Generalized Category Discovery [21.778676607030253]
一般化カテゴリー発見(GCD)は、既知のカテゴリと未知のカテゴリをラベルのないデータで分類するモデルを必要とする。
従来の手法では、自己教師付き事前学習とラベル付きデータの教師付き微調整を併用し、続いて単純なクラスタリング手法を併用していた。
我々は2つの相補的な方法でマルチモーダル(ビジョンと言語)モデルを活用することを提案する。
論文 参考訳(メタデータ) (2023-05-17T17:55:33Z) - Unified Line and Paragraph Detection by Graph Convolutional Networks [5.298581058536571]
文書中の行や段落を検出するタスクを,統一された2段階クラスタリング問題に定式化する。
グラフ畳み込みネットワークを用いて、テキスト検出ボックス間の関係を予測し、これらの予測から両方のレベルのクラスタを構築する。
実験により,この統一手法は,公開ベンチマークや実世界の画像における段落検出の最先端性を保ちながら,高い効率で実現可能であることを示した。
論文 参考訳(メタデータ) (2022-03-17T22:27:12Z) - Self-supervised Contrastive Attributed Graph Clustering [110.52694943592974]
我々は,自己教師型コントラストグラフクラスタリング(SCAGC)という,新たな属性グラフクラスタリングネットワークを提案する。
SCAGCでは,不正確なクラスタリングラベルを活用することで,ノード表現学習のための自己教師付きコントラスト損失を設計する。
OOSノードでは、SCAGCはクラスタリングラベルを直接計算できる。
論文 参考訳(メタデータ) (2021-10-15T03:25:28Z) - Learning Hierarchical Graph Neural Networks for Image Clustering [81.5841862489509]
本稿では,画像の集合を未知の個数にクラスタリングする方法を学ぶ階層型グラフニューラルネットワーク(GNN)モデルを提案する。
我々の階層的なGNNは、階層の各レベルで予測される連結コンポーネントをマージして、次のレベルで新しいグラフを形成するために、新しいアプローチを用いています。
論文 参考訳(メタデータ) (2021-07-03T01:28:42Z) - DocSCAN: Unsupervised Text Classification via Learning from Neighbors [2.2082422928825145]
Semantic Clustering by Adopting Nearest-Neighbors (SCAN)を用いた、完全に教師なしのテキスト分類アプローチであるDocSCANを紹介します。
各文書に対して,大規模事前学習言語モデルから意味情報ベクトルを得る。
類似の文書には近接ベクトルがあるので、表現空間の隣人はトピックラベルを共有する傾向がある。
学習可能なクラスタリングアプローチでは、隣接するデータポイントのペアを弱い学習信号として使用します。
提案されたアプローチは、グラウンドトラスラベルなしでデータセット全体にクラスを割り当てることを学ぶ。
論文 参考訳(メタデータ) (2021-05-09T21:20:31Z) - Scalable Hierarchical Agglomerative Clustering [65.66407726145619]
既存のスケーラブルな階層的クラスタリング手法は、スピードの質を犠牲にする。
我々は、品質を犠牲にせず、数十億のデータポイントまでスケールする、スケーラブルで集約的な階層的クラスタリング法を提案する。
論文 参考訳(メタデータ) (2020-10-22T15:58:35Z) - Structured Graph Learning for Clustering and Semi-supervised
Classification [74.35376212789132]
データの局所構造とグローバル構造の両方を保存するためのグラフ学習フレームワークを提案する。
本手法は, サンプルの自己表現性を利用して, 局所構造を尊重するために, 大域的構造と適応的隣接アプローチを捉える。
我々のモデルは、ある条件下でのカーネルk平均法とk平均法の組合せと等価である。
論文 参考訳(メタデータ) (2020-08-31T08:41:20Z) - Enhancement of Short Text Clustering by Iterative Classification [0.0]
反復分類は、外乱のないクラスターを得るために外乱除去を適用する。
クラスタ分布に基づいて非アウトレーヤを用いて分類アルゴリズムを訓練する。
これを何回か繰り返すことで、より改良されたテキストのクラスタリングが得られる。
論文 参考訳(メタデータ) (2020-01-31T02:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。