論文の概要: Federated Non-negative Matrix Factorization for Short Texts Topic
Modeling with Mutual Information
- arxiv url: http://arxiv.org/abs/2205.13300v1
- Date: Thu, 26 May 2022 12:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 12:40:48.095438
- Title: Federated Non-negative Matrix Factorization for Short Texts Topic
Modeling with Mutual Information
- Title(参考訳): 相互情報を用いた短文トピックモデリングのためのフェデレーション非負行列因子化
- Authors: Shijing Si, Jianzong Wang, Ruiyi Zhang, Qinliang Su and Jing Xiao
- Abstract要約: 本稿では,Federated NMF (FedNMF) フレームワークを提案する。
実験の結果,FedNMF+MI法はFedLDA法とFedNMF法に比較して,短いテキストのMI法では優れていた。
- 参考スコア(独自算出の注目度): 43.012719398648144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-negative matrix factorization (NMF) based topic modeling is widely used
in natural language processing (NLP) to uncover hidden topics of short text
documents. Usually, training a high-quality topic model requires large amount
of textual data. In many real-world scenarios, customer textual data should be
private and sensitive, precluding uploading to data centers. This paper
proposes a Federated NMF (FedNMF) framework, which allows multiple clients to
collaboratively train a high-quality NMF based topic model with locally stored
data. However, standard federated learning will significantly undermine the
performance of topic models in downstream tasks (e.g., text classification)
when the data distribution over clients is heterogeneous. To alleviate this
issue, we further propose FedNMF+MI, which simultaneously maximizes the mutual
information (MI) between the count features of local texts and their topic
weight vectors to mitigate the performance degradation. Experimental results
show that our FedNMF+MI methods outperform Federated Latent Dirichlet
Allocation (FedLDA) and the FedNMF without MI methods for short texts by a
significant margin on both coherence score and classification F1 score.
- Abstract(参考訳): 非負行列分解(NMF)に基づくトピックモデリングは、自然言語処理(NLP)において、短い文書の隠れたトピックを明らかにするために広く用いられている。
通常、高品質なトピックモデルのトレーニングには大量のテキストデータが必要です。
多くの現実世界のシナリオでは、顧客のテキストデータはプライベートでセンシティブで、データセンターへのアップロードを控えるべきである。
本稿では、複数のクライアントがローカルに格納されたデータを用いて高品質なnmfベースのトピックモデルを協調的にトレーニングできるフェデレートnmf(federated nmf)フレームワークを提案する。
しかし、標準フェデレーション学習は、クライアント間のデータ分散が異質である場合、下流タスク(例えばテキスト分類)におけるトピックモデルのパフォーマンスを著しく損なう。
この問題を緩和するために、ローカルテキストのカウント特徴とトピック重みベクトル間の相互情報(MI)を同時に最大化し、性能劣化を軽減するFedNMF+MIを提案する。
実験の結果,FedNMF+MI法はFedLDA法とFedNMF法に比較して,コヒーレンススコアと分類F1スコアに有意差が認められた。
関連論文リスト
- TopicTag: Automatic Annotation of NMF Topic Models Using Chain of Thought and Prompt Tuning with LLMs [1.1826529992155377]
非負行列分解(非負行列分解、英: Non- negative matrix factorization、NMF)は、周波数逆文書周波数(TF-IDF)行列を分解して潜在トピックを明らかにする、一般的な教師なしの手法である。
自動モデル決定法(NMFk)を用いてNMFを介してクラスタ化された文書中のトピックラベリングを自動化する手法を提案する。
そこで我々は,NMFkの出力を利用して,大規模言語モデル(LLM)を用いて正確なトピックラベルを生成する。
論文 参考訳(メタデータ) (2024-07-29T00:18:17Z) - Federated Binary Matrix Factorization using Proximal Optimization [43.01276597844757]
本稿では,最先端の2値行列分解緩和をBMFに適用する。
提案アルゴリズムは,実世界および合成データの多種多様なセット上で,最先端のBMF手法のフェデレーションスキームにおいて,品質と有効性において優れることを示す。
論文 参考訳(メタデータ) (2024-07-01T20:10:24Z) - An Aggregation-Free Federated Learning for Tackling Data Heterogeneity [50.44021981013037]
フェデレートラーニング(FL)は、分散データセットからの知識を活用する効果に頼っている。
従来のFLメソッドでは、クライアントが前回のトレーニングラウンドからサーバが集約したグローバルモデルに基づいてローカルモデルを更新するアグリゲート-then-adaptフレームワークを採用している。
我々は,新しいアグリゲーションフリーFLアルゴリズムであるFedAFを紹介する。
論文 参考訳(メタデータ) (2024-04-29T05:55:23Z) - FLIP: Fine-grained Alignment between ID-based Models and Pretrained Language Models for CTR Prediction [49.510163437116645]
クリックスルーレート(CTR)予測は、パーソナライズされたオンラインサービスにおいてコア機能モジュールとして機能する。
CTR予測のための従来のIDベースのモデルは、表形式の1ホットエンコードされたID特徴を入力として取る。
事前訓練された言語モデル(PLM)は、テキストのモダリティの文を入力として取る別のパラダイムを生み出した。
本稿では,CTR予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Federated Learning with Neural Graphical Models [2.2721854258621064]
フェデレートラーニング(FL)は、プロプライエタリなデータに基づいたモデルを作成する必要性に対処する。
我々は,局所的なNGMモデルから平均情報を学習するグローバルなNGMモデルを維持するFLフレームワークを開発した。
我々は、CDCの乳幼児死亡データからインサイトを抽出するためのFedNGMsの使用を実験的に実証した。
論文 参考訳(メタデータ) (2023-09-20T23:24:22Z) - Personalized Federated Learning via Gradient Modulation for
Heterogeneous Text Summarization [21.825321314169642]
本研究では,グローバルモデルを生データを共有せずに協調学習方法で共有することのできる,連合学習テキスト要約方式を提案する。
FedSUMMはタスク固有テキスト要約のためのPFLアルゴリズム上でより高速なモデル収束を実現することができる。
論文 参考訳(メタデータ) (2023-04-23T03:18:46Z) - FedMix: Approximation of Mixup under Mean Augmented Federated Learning [60.503258658382]
フェデレートラーニング(FL)は、エッジデバイスが各デバイス内でデータを直接共有することなく、モデルを集合的に学習することを可能にする。
現在の最先端アルゴリズムは、クライアント間のローカルデータの均一性が増大するにつれて性能劣化に悩まされる。
我々はFedMixという名の新しい拡張アルゴリズムを提案し、これは驚くべきが単純なデータ拡張手法であるMixupにインスパイアされている。
論文 参考訳(メタデータ) (2021-07-01T06:14:51Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - Fast and Secure Distributed Nonnegative Matrix Factorization [13.672004396034856]
非負行列分解(NMF)は、いくつかのデータマイニングタスクでうまく適用されている。
分散NMFの高速化とセキュリティ問題について検討する。
論文 参考訳(メタデータ) (2020-09-07T01:12:20Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。