Fugu-MT 論文翻訳(概要): Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks

論文の概要: Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks

arxiv url: http://arxiv.org/abs/2310.13291v1
Date: Fri, 20 Oct 2023 05:44:39 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-24 00:16:26.976859
Title: Assessing Privacy Risks in Language Models: A Case Study on Summarization Tasks
Title（参考訳）: 言語モデルにおけるプライバシーリスクの評価:要約課題を事例として
Authors: Ruixiang Tang, Gord Lueck, Rodolfo Quispe, Huseyin A Inan, Janardhan Kulkarni, Xia Hu
Abstract要約: 我々は要約作業に焦点をあて、会員推測(MI)攻撃について調査する。テキストの類似性や文書修正に対するモデルの抵抗をMI信号として活用する。我々は、MI攻撃から保護するための要約モデルの訓練と、プライバシとユーティリティの本質的にのトレードオフについて議論する。
参考スコア（独自算出の注目度）: 65.21536453075275
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models have revolutionized the field of NLP by achieving state-of-the-art performance on various tasks. However, there is a concern that these models may disclose information in the training data. In this study, we focus on the summarization task and investigate the membership inference (MI) attack: given a sample and black-box access to a model's API, it is possible to determine if the sample was part of the training data. We exploit text similarity and the model's resistance to document modifications as potential MI signals and evaluate their effectiveness on widely used datasets. Our results demonstrate that summarization models are at risk of exposing data membership, even in cases where the reference summary is not available. Furthermore, we discuss several safeguards for training summarization models to protect against MI attacks and discuss the inherent trade-off between privacy and utility.
Abstract（参考訳）: 大規模言語モデルは様々なタスクで最先端のパフォーマンスを達成し、nlpの分野に革命をもたらした。しかし、これらのモデルがトレーニングデータの情報を開示する可能性があるという懸念がある。本研究では,要約タスクに注目し,mi攻撃について検討する。サンプルとブラックボックスによるモデルのapiへのアクセスが与えられた場合,サンプルがトレーニングデータの一部であったかどうかを判断することができる。テキストの類似性と文書修正に対するモデルの抵抗性をMI信号として利用し、広く使われているデータセット上での有効性を評価する。その結果,参照要約が利用できない場合であっても,要約モデルがデータメンバシップを公開するリスクがあることが示された。さらに,mi攻撃から保護するための要約モデルの訓練のための保護策について検討し,プライバシとユーティリティの固有のトレードオフについて論じる。

関連論文リスト

On the Effectiveness of Membership Inference in Targeted Data Extraction from Large Language Models [3.1988753364712115]
大規模言語モデル(LLM)は、mem-orizingトレーニングデータに傾向があり、重大なプライバシーリスクを引き起こす。本研究では,複数のMIA手法をデータ抽出パイプラインに統合し,その性能を体系的に評価する。
論文参考訳（メタデータ） (2025-12-15T14:05:49Z)
Neural Breadcrumbs: Membership Inference Attacks on LLMs Through Hidden State and Attention Pattern Analysis [9.529147118376464]
メンバーシップ推論攻撃(MIA)は、特定のデータが機械学習モデルのトレーニングに使用されたかどうかを明らかにする。我々の研究は、内部表現を単に出力ではなく検査することで、メンバーシップ推論信号に対するさらなる洞察を与えることができるかを探る。本研究は,出力に基づく信号が保護された場合でも,内部モデル行動がトレーニングデータの露出の側面を明らかにすることを示唆している。
論文参考訳（メタデータ） (2025-09-05T19:05:49Z)
Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA) Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文参考訳（メタデータ） (2025-08-28T18:27:40Z)
Memorization or Interpolation ? Detecting LLM Memorization through Input Perturbation Analysis [8.725781605542675]
大規模言語モデル(LLM)は,大規模なデータセットのトレーニングを通じて,優れたパフォーマンスを実現する。 LLMは、真の一般化ではなく、トレーニングデータの冗長な再現のような振る舞いを示すことができる。本稿では, LLMにおける暗記検出のための新しい手法であるPEARLを紹介する。
論文参考訳（メタデータ） (2025-05-05T20:42:34Z)
EM-MIAs: Enhancing Membership Inference Attacks in Large Language Models through Ensemble Modeling [2.494935495983421]
本稿では,XGBoostをベースとしたモデルに既存のMIA技術を統合し,全体的な攻撃性能(EM-MIAs)を向上させる新しいアンサンブル攻撃法を提案する。実験結果から,アンサンブルモデルではAUC-ROCと精度が,大規模言語モデルやデータセットを対象とする個別攻撃法と比較して有意に向上していることがわかった。
論文参考訳（メタデータ） (2024-12-23T03:47:54Z)
Detecting Training Data of Large Language Models via Expectation Maximization [62.28028046993391]
本稿では,予測最大化アルゴリズムを用いて,メンバーシップスコアとプレフィックススコアを反復的に洗練する新しいメンバーシップ推論手法EM-MIAを紹介する。 EM-MIAはWikiMIAで最先端の結果を得る。
論文参考訳（メタデータ） (2024-10-10T03:31:16Z)
Extracting Training Data from Document-Based VQA Models [67.1470112451617]
VLM(Vision-Language Models)は、文書ベースの視覚質問回答において顕著な進歩を遂げている(つまり、画像として提供される入力文書の内容に関する問い合わせに応答する)。これらのモデルでは、関連する視覚情報が削除された場合でも、トレーニングサンプルに対する応答を記憶し、それらをリグルジタイズすることができる。これには、トレーニングセットで繰り返し繰り返されるパーソナライズ可能な情報が含まれており、これらのモデルが機密情報を漏らし、したがってプライバシーリスクを引き起こす可能性があることを示している。
論文参考訳（メタデータ） (2024-07-11T17:44:41Z)
Privacy Backdoors: Enhancing Membership Inference through Poisoning Pre-trained Models [112.48136829374741]
本稿では、プライバシーバックドア攻撃という新たな脆弱性を明らかにします。被害者がバックドアモデルに微調整を行った場合、トレーニングデータは通常のモデルに微調整された場合よりも大幅に高い速度でリークされる。我々の発見は、機械学習コミュニティにおける重要なプライバシー上の懸念を浮き彫りにし、オープンソースの事前訓練モデルの使用における安全性プロトコルの再評価を求めている。
論文参考訳（メタデータ） (2024-04-01T16:50:54Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
Towards Better Modeling with Missing Data: A Contrastive Learning-based Visual Analytics Perspective [7.577040836988683]
データ不足は機械学習(ML)モデリングの課題となる可能性がある。現在のアプローチは、特徴計算とラベル予測に分類される。本研究は、観測データに欠落した値でモデル化するコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-18T13:16:24Z)
Membership Inference Attacks against Language Models via Neighbourhood Comparison [45.086816556309266]
メンバーシップ推論攻撃(MIA)は、機械学習モデルのトレーニングデータにデータサンプルが存在するかどうかを予測することを目的としている。近年の研究では、類似データに基づいてトレーニングされた参照モデルとモデルスコアを比較した参照ベースの攻撃は、MIAの性能を大幅に向上することを示した。より現実的なシナリオでそれらの性能を調査し、参照モデルのトレーニングに使用されるデータ分布に関して非常に脆弱であることを示す。
論文参考訳（メタデータ） (2023-05-29T07:06:03Z)
Membership Inference Attacks against Synthetic Data through Overfitting Detection [84.02632160692995]
我々は、攻撃者が基礎となるデータ分布についてある程度の知識を持っていると仮定する現実的なMIA設定について論じる。生成モデルの局所的なオーバーフィッティングをターゲットとして,メンバシップを推論することを目的とした密度ベースMIAモデルであるDOMIASを提案する。
論文参考訳（メタデータ） (2023-02-24T11:27:39Z)
Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文参考訳（メタデータ） (2022-11-09T18:58:29Z)
Leveraging Adversarial Examples to Quantify Membership Information Leakage [30.55736840515317]
パターン認識モデルにおけるメンバシップ推論の問題に対処する新しいアプローチを開発する。この量はトレーニングデータに属する可能性を反映していると我々は主張する。我々の手法は、最先端の戦略に匹敵する、あるいは上回る性能を発揮する。
論文参考訳（メタデータ） (2022-03-17T19:09:38Z)
Training Data Leakage Analysis in Language Models [6.843491191969066]
本稿では,強大かつ現実的な脅威モデルの下で漏洩する可能性のあるトレーニングデータ中のユーザコンテンツを識別する手法を提案する。本研究では,トレーニングデータに固有の文断片を生成するモデルの能力を測定することにより,ユーザレベルのデータ漏洩を定量化する2つの指標を提案する。
論文参考訳（メタデータ） (2021-01-14T00:57:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。