論文の概要: Trade-Offs Between Fairness and Privacy in Language Modeling
- arxiv url: http://arxiv.org/abs/2305.14936v1
- Date: Wed, 24 May 2023 09:18:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:44:50.518138
- Title: Trade-Offs Between Fairness and Privacy in Language Modeling
- Title(参考訳): 言語モデリングにおける公平性とプライバシーのトレードオフ
- Authors: Cleo Matzken, Steffen Eger, Ivan Habernal
- Abstract要約: 既存の研究では、プライバシーの保護は分類タスクにおけるバイアスの悪化の価格に関係していることが示唆されている。
プライバシ保護とデバイアス技術の両方をテキスト生成モデルのトレーニングに組み込むことで、このトレードオフが本当に保持する範囲について検討する。
バイアス検出、プライバシ攻撃、言語モデリング、下流タスクのパフォーマンスなど、幅広い実験を行います。
- 参考スコア(独自算出の注目度): 21.871472858598487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Protecting privacy in contemporary NLP models is gaining in importance. So
does the need to mitigate social biases of such models. But can we have both at
the same time? Existing research suggests that privacy preservation comes at
the price of worsening biases in classification tasks. In this paper, we
explore the extent to which this tradeoff really holds when we incorporate both
privacy preservation and de-biasing techniques into training text generation
models. How does improving the model along one dimension affect the other
dimension as well as the utility of the model? We conduct an extensive set of
experiments that include bias detection, privacy attacks, language modeling,
and performance on downstream tasks.
- Abstract(参考訳): 現代のNLPモデルにおけるプライバシー保護の重要性が高まっている。
このようなモデルの社会的バイアスを軽減する必要もあります。
しかし、同時に両方を持てますか?
既存の研究によると、プライバシーの保護は分類タスクのバイアスが悪化する価格から来ている。
本稿では,プライバシ保護とデバイアス技術の両方をテキスト生成モデルのトレーニングに組み込む際に,このトレードオフがどの程度有効かを検討する。
ある次元に沿ったモデルの改善は、モデルの実用性だけでなく、他の次元にもどのように影響しますか?
バイアス検出,プライバシ攻撃,言語モデリング,ダウンストリームタスクのパフォーマンスなど,幅広い実験を実施している。
関連論文リスト
- Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。
被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。
我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文 参考訳(メタデータ) (2024-04-01T16:50:54Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - De-amplifying Bias from Differential Privacy in Language Model
Fine-tuning [10.847913815093179]
公正性とプライバシは、機械学習(ML)実践者がしばしばモデルで運用しようとする2つの重要な価値である。
大規模言語モデルを微調整した場合,DPは性別,人種,宗教的偏見を増幅することを示す。
本稿では, バイアスに対処する方法として, DPによるバイアス増幅の軽減が知られている。
論文 参考訳(メタデータ) (2024-02-07T00:30:58Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Can Language Models be Instructed to Protect Personal Information? [30.187731765653428]
シミュレーションシナリオにおいて、モデルが特定の個人情報のカテゴリを保護するように指示されたとき、プライバシ/ユーティリティトレードオフを評価するためのベンチマークであるPrivQAを紹介します。
我々は,テキストや画像入力による単純なジェイルブレイク手法により,敵が容易にこれらの保護を回避できることを見出した。
PrivQAは、プライバシー保護を改善した新しいモデルの開発と、これらの保護の敵意的な堅牢性をサポートする可能性があると考えています。
論文 参考訳(メタデータ) (2023-10-03T17:30:33Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - CANIFE: Crafting Canaries for Empirical Privacy Measurement in Federated
Learning [77.27443885999404]
Federated Learning(FL)は、分散環境で機械学習モデルをトレーニングするための設定である。
本稿では,訓練ラウンドの経験的プライバシを評価するために,強敵による慎重なサンプル作成手法であるCANIFEを提案する。
論文 参考訳(メタデータ) (2022-10-06T13:30:16Z) - Does CLIP Know My Face? [31.21910897081894]
マルチモーダルモデル,特にCLIPのような視覚言語モデルのプライバシを評価する新しい手法を提案する。
提案したIDIA攻撃(IDIA)は、同一人物の画像でモデルをクエリすることで、個人がトレーニングデータに含まれるかどうかを明らかにする。
我々の結果は、大規模モデルにおけるより強力なプライバシー保護の必要性を強調し、IDIAは、トレーニングに不正なデータの使用を証明し、プライバシー法を強制するために使用できることを示唆している。
論文 参考訳(メタデータ) (2022-09-15T14:48:50Z) - Just Fine-tune Twice: Selective Differential Privacy for Large Language
Models [69.66654761324702]
本稿では,大規模なトランスフォーマーベース言語モデルのためのSDPを実現するための,シンプルで効果的なジャストファイントゥンツースプライバシ機構を提案する。
実験により, カナリア挿入攻撃に対して頑健でありながら, 高い性能が得られた。
論文 参考訳(メタデータ) (2022-04-15T22:36:55Z) - Why Should I Trust a Model is Private? Using Shifts in Model Explanation
for Evaluating Privacy-Preserving Emotion Recognition Model [35.016050900061]
本稿では,モデルの有効性を評価するために解釈可能な手法を用いることに焦点をあてる。
プライバシーを守るための一般的な方法が、プライバシー保護の人間の認識とどのように一致しないかを示します。
評価者の傾きを評価し、特定のタスクのモデルを選択するためのクラウドソーシング実験を行います。
論文 参考訳(メタデータ) (2021-04-18T09:56:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。