論文の概要: Federated Learning for Short Text Clustering
- arxiv url: http://arxiv.org/abs/2312.07556v1
- Date: Thu, 23 Nov 2023 12:19:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 14:36:32.645556
- Title: Federated Learning for Short Text Clustering
- Title(参考訳): 短文クラスタリングのためのフェデレーション学習
- Authors: Mengling Hu, Chaochao Chen, Weiming Liu, Xinting Liao, and Xiaolin
Zheng
- Abstract要約: 短文クラスタリングのためのFederated Robust Short Text Clustering (FSTC) フレームワークを提案する。
堅牢なショートテキストクラスタリングモジュールは、各クライアントのローカルデータによる効果的なショートテキストクラスタリングモデルをトレーニングすることを目的としている。
フェデレートされたクラスタセンターアグリゲーションモジュールは、ローカルな生データを共有せずに、クライアント間で知識を交換することを目的としている。
- 参考スコア(独自算出の注目度): 21.308142639645517
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Short text clustering has been popularly studied for its significance in
mining valuable insights from many short texts. In this paper, we focus on the
federated short text clustering (FSTC) problem, i.e., clustering short texts
that are distributed in different clients, which is a realistic problem under
privacy requirements. Compared with the centralized short text clustering
problem that short texts are stored on a central server, the FSTC problem has
not been explored yet. To fill this gap, we propose a Federated Robust Short
Text Clustering (FSTC) framework. FSTC includes two main modules, i.e., robust
short text clustering module and federated cluster center aggregation module.
The robust short text clustering module aims to train an effective short text
clustering model with local data in each client. We innovatively combine
optimal transport to generate pseudo-labels with Gaussian-uniform mixture model
to ensure the reliability of the pseudo-supervised data. The federated cluster
center aggregation module aims to exchange knowledge across clients without
sharing local raw data in an efficient way. The server aggregates the local
cluster centers from different clients and then sends the global centers back
to all clients in each communication round. Our empirical studies on three
short text clustering datasets demonstrate that FSTC significantly outperforms
the federated short text clustering baselines.
- Abstract(参考訳): 短文クラスタリングは、多くの短文から貴重な洞察を引き出す上での意義について広く研究されている。
本稿では、フェデレートされた短文クラスタリング(FSTC)問題、すなわち、異なるクライアントに分散された短文をクラスタリングすることに焦点を当て、これはプライバシー要件の下で現実的な問題である。
中央サーバにショートテキストが格納されている集中型ショートテキストクラスタリング問題と比較して、fstcの問題はまだ検討されていない。
このギャップを埋めるために,fstc(federated robust short text clustering)フレームワークを提案する。
FSTCには2つの主要なモジュール、すなわちロバストな短文クラスタリングモジュールとフェデレートされたクラスタセンターアグリゲーションモジュールが含まれる。
堅牢なショートテキストクラスタリングモジュールは、各クライアントのローカルデータによる効果的なショートテキストクラスタリングモデルをトレーニングすることを目的としている。
我々は,疑似教師付きデータの信頼性を確保するために,疑似ラベル生成のための最適なトランスポートとガウス-一様混合モデルを組み合わせた。
フェデレーションクラスタセンターアグリゲーションモジュールは、ローカルな生データを効率的に共有することなく、クライアント間で知識を交換することを目的としている。
サーバは、異なるクライアントからローカルクラスタセンターを集約し、各通信ラウンドのすべてのクライアントにグローバルセンターを送信する。
3つの短いテキストクラスタリングデータセットに関する実証研究は、FSTCがフェデレートされた短いテキストクラスタリングベースラインよりも大幅に優れていることを示した。
関連論文リスト
- CCFC: Bridging Federated Clustering and Contrastive Learning [9.91610928326645]
本稿では,クラスタコントラスト・フェデレーション・クラスタリング(CCFC)という新しいフェデレーション・クラスタリング手法を提案する。
CCFCは、実用的な観点から、デバイス障害を扱う上で優れた性能を示す。
論文 参考訳(メタデータ) (2024-01-12T15:26:44Z) - Dynamically Weighted Federated k-Means [0.0]
フェデレートされたクラスタリングにより、複数のデータソースが協力してデータをクラスタリングし、分散化とプライバシ保護を維持できる。
我々は,ロイドのk-meansクラスタリング法に基づいて,動的に重み付けされたk-means (DWF k-means) という新しいクラスタリングアルゴリズムを提案する。
我々は、クラスタリングスコア、精度、およびv尺度の観点から、アルゴリズムの性能を評価するために、複数のデータセットとデータ分散設定の実験を行う。
論文 参考訳(メタデータ) (2023-10-23T12:28:21Z) - Large Language Models Enable Few-Shot Clustering [88.06276828752553]
大規模言語モデルは、クエリ効率が良く、数発のセミ教師付きテキストクラスタリングを可能にするために、専門家のガイダンスを増幅できることを示す。
最初の2つのステージにLSMを組み込むことで、クラスタの品質が大幅に向上することがわかった。
論文 参考訳(メタデータ) (2023-07-02T09:17:11Z) - Timely Asynchronous Hierarchical Federated Learning: Age of Convergence [59.96266198512243]
クライアント-エッジ-クラウドフレームワークを用いた非同期階層型フェデレーション学習環境について検討する。
クライアントはトレーニングされたパラメータをエッジサーバと交換し、ローカルに集約されたモデルを更新する。
各クライアントの目標は、クライアントのタイムラインを維持しながら、グローバルモデルに収束することだ。
論文 参考訳(メタデータ) (2023-06-21T17:39:16Z) - ClusterLLM: Large Language Models as a Guide for Text Clustering [45.835625439515]
本稿では,ChatGPTのような命令調整型大規模言語モデルからのフィードバックを活用する新しいテキストクラスタリングフレームワークであるClusterLLMを紹介する。
ClusterLLMはクラスタリングの品質を継続的に改善し、平均コストはデータセットあたり0.6ドルである。
論文 参考訳(メタデータ) (2023-05-24T08:24:25Z) - Hard Regularization to Prevent Deep Online Clustering Collapse without
Data Augmentation [65.268245109828]
オンラインディープクラスタリング(オンラインディープクラスタリング)とは、機能抽出ネットワークとクラスタリングモデルを組み合わせて、クラスタラベルを処理された各新しいデータポイントまたはバッチに割り当てることである。
オフラインメソッドよりも高速で汎用性が高いが、オンラインクラスタリングは、エンコーダがすべての入力を同じポイントにマッピングし、すべてを単一のクラスタに配置する、崩壊したソリューションに容易に到達することができる。
本稿では,データ拡張を必要としない手法を提案する。
論文 参考訳(メタデータ) (2023-03-29T08:23:26Z) - Optimizing Server-side Aggregation For Robust Federated Learning via
Subspace Training [80.03567604524268]
クライアント間の非IIDデータ分散と中毒攻撃は、現実世界のフェデレーション学習システムにおける2つの大きな課題である。
サーバ側集約プロセスを最適化する汎用的なアプローチであるSmartFLを提案する。
本稿では,SmartFLの収束と一般化能力に関する理論的解析を行う。
論文 参考訳(メタデータ) (2022-11-10T13:20:56Z) - Efficient Distribution Similarity Identification in Clustered Federated
Learning via Principal Angles Between Client Data Subspaces [59.33965805898736]
クラスタ学習は、クライアントをクラスタにグループ化することで、有望な結果をもたらすことが示されている。
既存のFLアルゴリズムは基本的に、クライアントを同様のディストリビューションでグループ化しようとしている。
以前のFLアルゴリズムは、訓練中に間接的に類似性を試みていた。
論文 参考訳(メタデータ) (2022-09-21T17:37:54Z) - Cluster-driven Graph Federated Learning over Multiple Domains [25.51716405561116]
グラフフェデレーション学習(FL)は、中央モデル(すなわち、学習)を扱う。
サーバ) プライバシに制約されたシナリオ。
本稿では,クラスタ型グラフフェデレーション学習(FedCG)を提案する。
論文 参考訳(メタデータ) (2021-04-29T19:31:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。