論文の概要: Federated Learning Based Multilingual Emoji Prediction In Clean and
Attack Scenarios
- arxiv url: http://arxiv.org/abs/2304.01005v3
- Date: Fri, 7 Jul 2023 00:51:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:22:46.292071
- Title: Federated Learning Based Multilingual Emoji Prediction In Clean and
Attack Scenarios
- Title(参考訳): クリーン・アタックシナリオにおけるフェデレーション学習に基づく多言語絵文字予測
- Authors: Karim Gamal, Ahmed Gaber and Hossam Amer
- Abstract要約: 本稿では,クリーンシナリオとアタックシナリオの両方において,フェデレート学習に基づく多言語絵文字予測を提案する。
絵文字予測データはTwitterとSemEvalの絵文字データセットから収集された。
トレーニングされたトランスフォーマーは、プライバシに加えて、フェデレート学習の分散メリットに加えて、SemEvalの絵文字データセット上の他のテクニックよりも優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 1.5469452301122177
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Federated learning is a growing field in the machine learning community due
to its decentralized and private design. Model training in federated learning
is distributed over multiple clients giving access to lots of client data while
maintaining privacy. Then, a server aggregates the training done on these
multiple clients without access to their data, which could be emojis widely
used in any social media service and instant messaging platforms to express
users' sentiments. This paper proposes federated learning-based multilingual
emoji prediction in both clean and attack scenarios. Emoji prediction data have
been crawled from both Twitter and SemEval emoji datasets. This data is used to
train and evaluate different transformer model sizes including a sparsely
activated transformer with either the assumption of clean data in all clients
or poisoned data via label flipping attack in some clients. Experimental
results on these models show that federated learning in either clean or
attacked scenarios performs similarly to centralized training in multilingual
emoji prediction on seen and unseen languages under different data sources and
distributions. Our trained transformers perform better than other techniques on
the SemEval emoji dataset in addition to the privacy as well as distributed
benefits of federated learning.
- Abstract(参考訳): 連合学習は、分散的でプライベートな設計のため、機械学習コミュニティで成長している分野である。
フェデレート学習におけるモデルトレーニングは、プライバシを維持しながら多くのクライアントデータにアクセスできるようにする複数のクライアントに分散される。
次にサーバは、これらの複数のクライアントで行ったトレーニングをデータにアクセスせずに集約する。これは、あらゆるソーシャルメディアサービスやインスタントメッセージングプラットフォームで広く使用されている絵文字で、ユーザの感情を表現する。
本稿では,クリーンシナリオとアタックシナリオの両方において,連合学習に基づく多言語絵文字予測を提案する。
絵文字予測データはTwitterとSemEvalの絵文字データセットから収集された。
このデータは、すべてのクライアントにおけるクリーンデータの仮定や、一部のクライアントにおけるラベルフリップ攻撃による有毒データの仮定を含む、疎活性化トランスフォーマーモデルサイズのトレーニングと評価に使用される。
これらのモデルの実験結果から,クリーンあるいはアタックのシナリオにおけるフェデレーション学習は,異なるデータソースと分布下で,多言語間絵文字予測における集中型学習と類似していることが示された。
トレーニングされたトランスフォーマーは、プライバシーに加えて、フェデレーション学習の分散メリットに加えて、セメバル絵文字データセットの他のテクニックよりもパフォーマンスが優れています。
関連論文リスト
- Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? [112.0422370149713]
我々は、トレーニングデータの分布的構成を明らかにすることを目的として、データ混合推論と呼ぶタスクに取り組む。
従来見過ごされていた情報源であるバイトペアエンコーディング(BPE)トークン化器をベースとした,新たな攻撃手法を提案する。
我々は,自然言語,プログラミング言語,データソースの既知混合に基づいて訓練されたトークン化剤に対して,高い精度で混合比を回復することを示す。
論文 参考訳(メタデータ) (2024-07-23T16:13:22Z) - Federated Face Forgery Detection Learning with Personalized Representation [63.90408023506508]
ディープジェネレータ技術は、区別がつかない高品質のフェイクビデオを制作し、深刻な社会的脅威をもたらす可能性がある。
従来の偽造検出手法は、データを直接集中的に訓練する。
本稿では,個人化表現を用いた新しいフェデレーション顔偽造検出学習を提案する。
論文 参考訳(メタデータ) (2024-06-17T02:20:30Z) - A Federated Learning Approach to Privacy Preserving Offensive Language Identification [14.487531876937247]
フェデレートラーニング(FL)を導入して,攻撃的言語をオンラインで識別するためのプライバシ保護アーキテクチャを提案する。
FLは分散アーキテクチャであり、データ共有を必要とせずに複数のモデルをローカルにトレーニングすることができる。
公開可能な4つの英語ベンチマークデータセットで、複数のディープラーニングモデルをトレーニングしました。
論文 参考訳(メタデータ) (2024-04-17T15:23:12Z) - cantnlp@LT-EDI-2023: Homophobia/Transphobia Detection in Social Media
Comments using Spatio-Temporally Retrained Language Models [0.9012198585960441]
本稿ではLTERAN@LP-2023共有タスクの一部として開発されたマルチクラス分類システムについて述べる。
我々は、BERTに基づく言語モデルを用いて、5つの言語条件におけるソーシャルメディアコメントにおけるホモフォビックおよびトランスフォビックな内容を検出する。
重み付きマクロ平均F1スコアに基づくマラヤラムの7ラベル分類システムを開発した。
論文 参考訳(メタデータ) (2023-08-20T21:30:34Z) - Scalable Collaborative Learning via Representation Sharing [53.047460465980144]
フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。
FLでは、各データ保持者がモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。
SLでは、クライアントは個々のカット層アクティベーション(スマッシュされたデータ)をサーバにリリースし、そのレスポンス(推論とバックの伝搬の両方)を待つ必要があります。
本研究では, クライアントがオンライン知識蒸留を通じて, 対照的な損失を生かして協調する, プライバシ保護機械学習の新しいアプローチを提案する。
論文 参考訳(メタデータ) (2022-11-20T10:49:22Z) - A Federated Approach to Predicting Emojis in Hindi Tweets [1.979158763744267]
我々はヒンディー語で絵文字予測のために、新しい18ドルのツイート(25ドルのユニークなツイートから追加)のデータセットを導入しました。
本稿では,モデル性能とユーザプライバシのバランスをとることを目的とした,連合学習アルゴリズムCausalFedGSDの修正を提案する。
論文 参考訳(メタデータ) (2022-11-11T18:37:33Z) - A Simple Multi-Modality Transfer Learning Baseline for Sign Language
Translation [54.29679610921429]
既存の手話データセットには、約10K-20Kの手話ビデオ、グロスアノテーション、テキストが含まれています。
したがって、データは効果的な手話翻訳モデルの訓練のボトルネックとなる。
この単純なベースラインは、2つの手話翻訳ベンチマークで過去の最先端の結果を上回っている。
論文 参考訳(メタデータ) (2022-03-08T18:59:56Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Multimodal Federated Learning [9.081857621783811]
IoTデバイスを備えたスマートホームなど、多くのアプリケーションでは、クライアント上のローカルデータは、さまざまなモダリティから生成される。
既存のフェデレーション学習システムは、単一のモダリティからのローカルデータのみを扱うため、システムのスケーラビリティが制限される。
本稿では,クライアント上で異なるローカルデータモダリティから共有あるいは相関表現を抽出するよう,オートエンコーダを訓練するマルチモーダル・セミ教師付きフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-10T12:32:46Z) - A Multi-input Multi-output Transformer-based Hybrid Neural Network for
Multi-class Privacy Disclosure Detection [3.04585143845864]
本稿では,伝達学習,言語学,メタデータを用いて隠れパターンを学習するマルチインプット・マルチアウトプットハイブリッドニューラルネットワークを提案する。
我々は,5,400のツイートを含む人間の注釈付き真実データセットを用いて,我々のモデルを訓練し,評価した。
論文 参考訳(メタデータ) (2021-08-19T03:58:49Z) - WAFFLe: Weight Anonymized Factorization for Federated Learning [88.44939168851721]
データが機密性やプライベート性を持つドメインでは、ローカルデバイスを離れることなく、分散的に学習できるメソッドには大きな価値があります。
本稿では,フェデレートラーニングのためのウェイト匿名化因子化(WAFFLe)を提案する。これは,インド・バフェット・プロセスとニューラルネットワークの重み要因の共有辞書を組み合わせたアプローチである。
論文 参考訳(メタデータ) (2020-08-13T04:26:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。