論文の概要: Federated Word2Vec: Leveraging Federated Learning to Encourage
Collaborative Representation Learning
- arxiv url: http://arxiv.org/abs/2105.00831v1
- Date: Mon, 19 Apr 2021 15:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-06 07:08:51.802169
- Title: Federated Word2Vec: Leveraging Federated Learning to Encourage
Collaborative Representation Learning
- Title(参考訳): Federated Word2Vec: フェデレーション学習を活用して協調表現学習を促進する
- Authors: Daniel Garcia Bernal, Lodovico Giaretta, Sarunas Girdzijauskas, Magnus
Sahlgren
- Abstract要約: フェデレートラーニングプロトコルを用いて,NLPモデルのトレーニング,特にWord2Vecの実現可能性を示す。
その結果, フェデレートされたWord2Vecは, 集中型Word2Vecに比べて, 結果の質や収束時間が劣化しないことがわかった。
- 参考スコア(独自算出の注目度): 2.6094411360258194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large scale contextual representation models have significantly advanced NLP
in recent years, understanding the semantics of text to a degree never seen
before. However, they need to process large amounts of data to achieve
high-quality results. Joining and accessing all these data from multiple
sources can be extremely challenging due to privacy and regulatory reasons.
Federated Learning can solve these limitations by training models in a
distributed fashion, taking advantage of the hardware of the devices that
generate the data. We show the viability of training NLP models, specifically
Word2Vec, with the Federated Learning protocol. In particular, we focus on a
scenario in which a small number of organizations each hold a relatively large
corpus. The results show that neither the quality of the results nor the
convergence time in Federated Word2Vec deteriorates as compared to centralised
Word2Vec.
- Abstract(参考訳): 大規模文脈表現モデルは近年NLPを著しく進歩させており、テキストの意味を今まで見たことのない程度まで理解している。
しかし、高品質な結果を得るためには大量のデータを処理する必要がある。
プライバシーや規制上の理由から、複数のソースからこれらすべてのデータにアクセスすることは極めて難しい。
フェデレーション学習は、データを生成するデバイスのハードウェアを活用することで、モデルを分散形式でトレーニングすることで、これらの制限を解決することができる。
フェデレートラーニングプロトコルを用いて,NLPモデルのトレーニング,特にWord2Vecの実現可能性を示す。
特に私たちは、少数の組織がそれぞれ比較的大きなコーパスを持っているというシナリオに注目しています。
その結果, フェデレートされたWord2Vecは, 集中型Word2Vecに比べて, 結果の質や収束時間が劣化しないことがわかった。
関連論文リスト
- Text-Guided Mixup Towards Long-Tailed Image Categorization [7.207351201912651]
多くの実世界のアプリケーションにおいて、トレーニングデータのためのクラスラベルの周波数分布は、長い尾の分布を示すことができる。
本稿では,事前学習したテキストエンコーダによって認識されるクラス間の意味的関係を利用した,テキスト誘導型ミックスアップ手法を提案する。
論文 参考訳(メタデータ) (2024-09-05T14:37:43Z) - Surveying the Landscape of Text Summarization with Deep Learning: A
Comprehensive Review [2.4185510826808487]
ディープラーニングは、言語データの複雑な表現を学習できるモデルの開発を可能にすることによって、自然言語処理(NLP)に革命をもたらした。
NLPのディープラーニングモデルは、通常、大量のデータを使用してディープニューラルネットワークをトレーニングし、言語データ内のパターンと関係を学習する。
テキスト要約にディープラーニングを適用することは、テキスト要約タスクを実行するためにディープニューラルネットワークを使用することを指す。
論文 参考訳(メタデータ) (2023-10-13T21:24:37Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Generative Negative Text Replay for Continual Vision-Language
Pretraining [95.2784858069843]
視覚言語による事前学習が近年注目を集めている。
大量のデータは、通常ストリーミング形式で収集される。
本稿では,画像とテキスト間のマルチモーダルな知識蒸留手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T13:42:21Z) - Towards Federated Long-Tailed Learning [76.50892783088702]
データプライバシとクラス不均衡は、多くの機械学習タスクの例外ではなく、標準である。
最近の試みでは、広範にわたるプライベートデータから学習する問題に対処する一方で、長い尾を持つデータから学ぶことが試みられている。
本稿では,プライバシ保護フェデレーション学習(FL)フレームワークのコンテキスト下での長期的データ分散(LT)学習に焦点を当てた。
論文 参考訳(メタデータ) (2022-06-30T02:34:22Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - The NLP Cookbook: Modern Recipes for Transformer based Deep Learning
Architectures [0.0]
自然言語処理モデルは言語的および意味的なタスクにおいて驚くべき成功を収めた。
最近のNLPアーキテクチャは、中程度のモデルサイズを達成するために、トランスファーラーニング、プルーニング、量子化、知識蒸留の概念を活用している。
知識レトリバーは、より大きなデータベースのコーパスから、より効率と正確さで明示的なデータドキュメントを抽出するために構築されている。
論文 参考訳(メタデータ) (2021-03-23T22:38:20Z) - Probabilistic Inference for Learning from Untrusted Sources [6.811310452498163]
フェデレーション学習は、より速い学習、より良いソリューション、異なる当事者からの異種データが多様性を高めると転送するより大きな可能性の潜在的な利点をもたらします。
集約アルゴリズムが非IIDデータや破損した当事者に対して堅牢であることは重要です。
最近の研究では、識別を行うためのtextitreferenceデータセットが利用可能であると仮定している。
このような参照データセットが利用できない設定を検討します。むしろ、パーティの品質と適合性はtextitinferredでなければなりません。
本稿では,パーティの品質に適応したベイズ推論に基づく新しい連合学習集約アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-15T15:30:06Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z) - DeCLUTR: Deep Contrastive Learning for Unsupervised Textual
Representations [4.36561468436181]
教師なしテキスト表現のためのDeCLUTR: Deep Contrastive Learningを提案する。
本手法は,ユニバーサル文エンコーダにおける教師なしと教師なしの事前学習のパフォーマンスギャップを埋めるものである。
私たちのコードと事前訓練されたモデルは公開されており、新しいドメインに簡単に適応したり、目に見えないテキストを埋め込むのに使えます。
論文 参考訳(メタデータ) (2020-06-05T20:00:28Z) - Coreferential Reasoning Learning for Language Representation [88.14248323659267]
本稿では,コンテキスト内でコアファーデンシャル関係をキャプチャ可能な新しい言語表現モデルCorefBERTを提案する。
実験の結果,既存のベースラインモデルと比較して,CorefBERTは下流のNLPタスクにおいて一貫した大幅な改善を達成できることがわかった。
論文 参考訳(メタデータ) (2020-04-15T03:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。