論文の概要: A Federated Learning Approach to Privacy Preserving Offensive Language Identification
- arxiv url: http://arxiv.org/abs/2404.11470v1
- Date: Wed, 17 Apr 2024 15:23:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-18 13:35:28.163865
- Title: A Federated Learning Approach to Privacy Preserving Offensive Language Identification
- Title(参考訳): 攻撃的言語識別のためのプライバシ保護のためのフェデレーション学習手法
- Authors: Marcos Zampieri, Damith Premasiri, Tharindu Ranasinghe,
- Abstract要約: フェデレートラーニング(FL)を導入して,攻撃的言語をオンラインで識別するためのプライバシ保護アーキテクチャを提案する。
FLは分散アーキテクチャであり、データ共有を必要とせずに複数のモデルをローカルにトレーニングすることができる。
公開可能な4つの英語ベンチマークデータセットで、複数のディープラーニングモデルをトレーニングしました。
- 参考スコア(独自算出の注目度): 14.487531876937247
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The spread of various forms of offensive speech online is an important concern in social media. While platforms have been investing heavily in ways of coping with this problem, the question of privacy remains largely unaddressed. Models trained to detect offensive language on social media are trained and/or fine-tuned using large amounts of data often stored in centralized servers. Since most social media data originates from end users, we propose a privacy preserving decentralized architecture for identifying offensive language online by introducing Federated Learning (FL) in the context of offensive language identification. FL is a decentralized architecture that allows multiple models to be trained locally without the need for data sharing hence preserving users' privacy. We propose a model fusion approach to perform FL. We trained multiple deep learning models on four publicly available English benchmark datasets (AHSD, HASOC, HateXplain, OLID) and evaluated their performance in detail. We also present initial cross-lingual experiments in English and Spanish. We show that the proposed model fusion approach outperforms baselines in all the datasets while preserving privacy.
- Abstract(参考訳): 様々な形の攻撃的発言がオンラインで拡散することは、ソーシャルメディアにおいて重要な関心事である。
プラットフォームはこの問題に対処する方法に多大な投資をしてきたが、プライバシーに関する問題はいまだに未解決のままだ。
ソーシャルメディア上で攻撃的言語を検出するために訓練されたモデルは、集中型サーバにしばしば格納される大量のデータを用いて訓練または/または微調整される。
ソーシャルメディアデータの多くはエンドユーザに由来するため,攻撃的言語識別の文脈において,攻撃的言語識別(FL)を導入することにより,攻撃的言語をオンラインで識別するための分散型アーキテクチャをプライバシ保護することを提案する。
FLは分散アーキテクチャであり、複数のモデルをデータ共有を必要とせずにローカルにトレーニングできるため、ユーザのプライバシを保護できる。
FLを行うためのモデル融合手法を提案する。
公開されている4つの英語ベンチマークデータセット(AHSD, HASOC, HateXplain, OLID)で、複数のディープラーニングモデルをトレーニングし、そのパフォーマンスを詳細に評価した。
また、英語とスペイン語で言語間実験を行った。
提案したモデル融合アプローチは、プライバシを保ちながら、すべてのデータセットのベースラインを上回ります。
関連論文リスト
- Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - FLTrojan: Privacy Leakage Attacks against Federated Language Models Through Selective Weight Tampering [2.2194815687410627]
悪意のあるクライアントが、サーバからの協力なしに、FL内の他のユーザのプライバシーに敏感なデータを漏洩させる方法を示す。
提案手法は, 最大71%の個人データ再構成を達成し, 会員推算率を29%向上させる。
論文 参考訳(メタデータ) (2023-10-24T19:50:01Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - FedBot: Enhancing Privacy in Chatbots with Federated Learning [0.0]
Federated Learning(FL)は、データをその場所に保持する分散学習方法を通じて、データのプライバシを保護することを目的としている。
POCはDeep Bidirectional Transformerモデルとフェデレーション学習アルゴリズムを組み合わせて、コラボレーティブモデルトレーニング中の顧客のデータプライバシを保護する。
このシステムは、過去のインタラクションから学習する能力を活用することで、時間とともにパフォーマンスと精度を向上させるように設計されている。
論文 参考訳(メタデータ) (2023-04-04T23:13:52Z) - Federated Nearest Neighbor Machine Translation [66.8765098651988]
本稿では,FedNN(FedNN)機械翻訳フレームワークを提案する。
FedNNは1ラウンドの記憶に基づくインタラクションを活用して、異なるクライアント間で知識を共有する。
実験の結果,FedAvgと比較して,FedNNは計算コストと通信コストを著しく削減することがわかった。
論文 参考訳(メタデータ) (2023-02-23T18:04:07Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Selective Differential Privacy for Language Modeling [36.64464956102432]
これまでの研究は、RNNベースの言語モデルを異なるプライバシ保証でトレーニングすることで、この問題に対処しようとしてきた。
我々は、データの機密部分に対して厳密なプライバシー保証を提供するために、新しいプライバシー概念、選択的差分プライバシーを提案する。
言語モデリングとダイアログシステム構築の実験は、提案したプライバシー保護機構がより良いユーティリティを実現することを示す。
論文 参考訳(メタデータ) (2021-08-30T01:11:10Z) - Evaluation of Deep Learning Models for Hostility Detection in Hindi Text [2.572404739180802]
ヒンディー語における敵対的テキスト検出手法を提案する。
提案手法は、Constraint@AAAI 2021 Hindiホスト性検出データセットで評価される。
この多ラベル分類問題に対して,CNN,LSTM,BERTに基づく深層学習手法のホストを評価した。
論文 参考訳(メタデータ) (2021-01-11T19:10:57Z) - WAFFLe: Weight Anonymized Factorization for Federated Learning [88.44939168851721]
データが機密性やプライベート性を持つドメインでは、ローカルデバイスを離れることなく、分散的に学習できるメソッドには大きな価値があります。
本稿では,フェデレートラーニングのためのウェイト匿名化因子化(WAFFLe)を提案する。これは,インド・バフェット・プロセスとニューラルネットワークの重み要因の共有辞書を組み合わせたアプローチである。
論文 参考訳(メタデータ) (2020-08-13T04:26:31Z) - FedOCR: Communication-Efficient Federated Learning for Scene Text
Recognition [76.26472513160425]
本研究では、分散化されたデータセットを用いて、ロバストなシーンテキスト認識器を訓練する方法について研究する。
FedOCRをエンドデバイスにデプロイするのに適したものにするために、軽量モデルとハッシュ技術の使用を含む2つの改善を行った。
論文 参考訳(メタデータ) (2020-07-22T14:30:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。