論文の概要: Federated Non-negative Matrix Factorization for Short Texts Topic
Modeling with Mutual Information
- arxiv url: http://arxiv.org/abs/2205.13300v1
- Date: Thu, 26 May 2022 12:22:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 12:40:48.095438
- Title: Federated Non-negative Matrix Factorization for Short Texts Topic
Modeling with Mutual Information
- Title(参考訳): 相互情報を用いた短文トピックモデリングのためのフェデレーション非負行列因子化
- Authors: Shijing Si, Jianzong Wang, Ruiyi Zhang, Qinliang Su and Jing Xiao
- Abstract要約: 本稿では,Federated NMF (FedNMF) フレームワークを提案する。
実験の結果,FedNMF+MI法はFedLDA法とFedNMF法に比較して,短いテキストのMI法では優れていた。
- 参考スコア(独自算出の注目度): 43.012719398648144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Non-negative matrix factorization (NMF) based topic modeling is widely used
in natural language processing (NLP) to uncover hidden topics of short text
documents. Usually, training a high-quality topic model requires large amount
of textual data. In many real-world scenarios, customer textual data should be
private and sensitive, precluding uploading to data centers. This paper
proposes a Federated NMF (FedNMF) framework, which allows multiple clients to
collaboratively train a high-quality NMF based topic model with locally stored
data. However, standard federated learning will significantly undermine the
performance of topic models in downstream tasks (e.g., text classification)
when the data distribution over clients is heterogeneous. To alleviate this
issue, we further propose FedNMF+MI, which simultaneously maximizes the mutual
information (MI) between the count features of local texts and their topic
weight vectors to mitigate the performance degradation. Experimental results
show that our FedNMF+MI methods outperform Federated Latent Dirichlet
Allocation (FedLDA) and the FedNMF without MI methods for short texts by a
significant margin on both coherence score and classification F1 score.
- Abstract(参考訳): 非負行列分解(NMF)に基づくトピックモデリングは、自然言語処理(NLP)において、短い文書の隠れたトピックを明らかにするために広く用いられている。
通常、高品質なトピックモデルのトレーニングには大量のテキストデータが必要です。
多くの現実世界のシナリオでは、顧客のテキストデータはプライベートでセンシティブで、データセンターへのアップロードを控えるべきである。
本稿では、複数のクライアントがローカルに格納されたデータを用いて高品質なnmfベースのトピックモデルを協調的にトレーニングできるフェデレートnmf(federated nmf)フレームワークを提案する。
しかし、標準フェデレーション学習は、クライアント間のデータ分散が異質である場合、下流タスク(例えばテキスト分類)におけるトピックモデルのパフォーマンスを著しく損なう。
この問題を緩和するために、ローカルテキストのカウント特徴とトピック重みベクトル間の相互情報(MI)を同時に最大化し、性能劣化を軽減するFedNMF+MIを提案する。
実験の結果,FedNMF+MI法はFedLDA法とFedNMF法に比較して,コヒーレンススコアと分類F1スコアに有意差が認められた。
関連論文リスト
- FLIP: Towards Fine-grained Alignment between ID-based Models and
Pretrained Language Models for CTR Prediction [51.64257638308695]
本稿では,クリックスルー率(CTR)予測のためのIDベースモデルと事前学習言語モデル(FLIP)間の細粒度特徴レベルのアライメントを提案する。
具体的には、1つのモダリティ(トークンや特徴)のマスキングされたデータは、他のモダリティの助けを借りて回復し、特徴レベルの相互作用とアライメントを確立する必要がある。
論文 参考訳(メタデータ) (2023-10-30T11:25:03Z) - Personalized Federated Learning via Gradient Modulation for
Heterogeneous Text Summarization [21.825321314169642]
本研究では,グローバルモデルを生データを共有せずに協調学習方法で共有することのできる,連合学習テキスト要約方式を提案する。
FedSUMMはタスク固有テキスト要約のためのPFLアルゴリズム上でより高速なモデル収束を実現することができる。
論文 参考訳(メタデータ) (2023-04-23T03:18:46Z) - Fed-MIWAE: Federated Imputation of Incomplete Data via Deep Generative
Models [5.373862368597948]
フェデレーション学習は、明示的なデータ交換を必要とせずに、複数のローカルデータセット上で機械学習モデルのトレーニングを可能にする。
欠落したデータを扱う戦略を含むデータ前処理は、現実世界のフェデレートされた学習デプロイメントにおいて、依然として大きなボトルネックとなっている。
本稿では,変分オートエンコーダをベースとした遅延変数モデルであるFed-MIWAEを提案する。
論文 参考訳(メタデータ) (2023-04-17T08:14:08Z) - FedDM: Iterative Distribution Matching for Communication-Efficient
Federated Learning [87.08902493524556]
フェデレートラーニング(FL)は近年、学術や産業から注目を集めている。
我々は,複数の局所的代理関数からグローバルなトレーニング目標を構築するためのFedDMを提案する。
そこで本研究では,各クライアントにデータ集合を構築し,元のデータから得られた損失景観を局所的にマッチングする。
論文 参考訳(メタデータ) (2022-07-20T04:55:18Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Federated Multi-Task Learning under a Mixture of Distributions [10.00087964926414]
Federated Learning(FL)は、機械学習モデルのデバイス上での協調トレーニングのためのフレームワークである。
FLにおける最初の取り組みは、クライアント間で平均的なパフォーマンスを持つ単一のグローバルモデルを学ぶことに焦点を当てたが、グローバルモデルは、与えられたクライアントに対して任意に悪いかもしれない。
我々は,各局所データ分布が未知の基底分布の混合であるというフレキシブルな仮定の下で,フェデレーションMTLについて検討した。
論文 参考訳(メタデータ) (2021-08-23T15:47:53Z) - FedMix: Approximation of Mixup under Mean Augmented Federated Learning [60.503258658382]
フェデレートラーニング(FL)は、エッジデバイスが各デバイス内でデータを直接共有することなく、モデルを集合的に学習することを可能にする。
現在の最先端アルゴリズムは、クライアント間のローカルデータの均一性が増大するにつれて性能劣化に悩まされる。
我々はFedMixという名の新しい拡張アルゴリズムを提案し、これは驚くべきが単純なデータ拡張手法であるMixupにインスパイアされている。
論文 参考訳(メタデータ) (2021-07-01T06:14:51Z) - FedNLP: A Research Platform for Federated Learning in Natural Language
Processing [55.01246123092445]
NLPのフェデレーションラーニングのための研究プラットフォームであるFedNLPを紹介します。
FedNLPは、テキスト分類、シーケンスタグ付け、質問応答、Seq2seq生成、言語モデリングなど、NLPで一般的なタスクの定式化をサポートしている。
FedNLPによる予備実験では、分散型データセットと集中型データセットの学習には大きなパフォーマンスギャップが存在することが明らかになった。
論文 参考訳(メタデータ) (2021-04-18T11:04:49Z) - Fast and Secure Distributed Nonnegative Matrix Factorization [13.672004396034856]
非負行列分解(NMF)は、いくつかのデータマイニングタスクでうまく適用されている。
分散NMFの高速化とセキュリティ問題について検討する。
論文 参考訳(メタデータ) (2020-09-07T01:12:20Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。