論文の概要: Quantifying Association Capabilities of Large Language Models and Its
Implications on Privacy Leakage
- arxiv url: http://arxiv.org/abs/2305.12707v2
- Date: Fri, 9 Feb 2024 05:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 21:07:57.967941
- Title: Quantifying Association Capabilities of Large Language Models and Its
Implications on Privacy Leakage
- Title(参考訳): 大規模言語モデルの連想能力の定量化とプライバシ漏洩への影響
- Authors: Hanyin Shao, Jie Huang, Shen Zheng, Kevin Chen-Chuan Chang
- Abstract要約: 本稿では,言語モデルの関連性を考察し,その能力に影響を及ぼす要因を明らかにすることを目的とする。
我々の研究は、モデルがスケールアップするにつれて、エンティティ/インフォメーションを関連付ける能力が強化されることを明らかにし、特にターゲットペアがより短い共起距離またはより高い共起周波数を示す場合である。
正確に予測されたPIIの割合は比較的小さいが、LLMは適切なプロンプトが提供されると、メールアドレスや電話番号の特定のインスタンスを予測する能力を示している。
- 参考スコア(独自算出の注目度): 28.385083741414213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of large language models (LLMs) brings notable improvements
across various applications, while simultaneously raising concerns about
potential private data exposure. One notable capability of LLMs is their
ability to form associations between different pieces of information, but this
raises concerns when it comes to personally identifiable information (PII).
This paper delves into the association capabilities of language models, aiming
to uncover the factors that influence their proficiency in associating
information. Our study reveals that as models scale up, their capacity to
associate entities/information intensifies, particularly when target pairs
demonstrate shorter co-occurrence distances or higher co-occurrence
frequencies. However, there is a distinct performance gap when associating
commonsense knowledge versus PII, with the latter showing lower accuracy.
Despite the proportion of accurately predicted PII being relatively small, LLMs
still demonstrate the capability to predict specific instances of email
addresses and phone numbers when provided with appropriate prompts. These
findings underscore the potential risk to PII confidentiality posed by the
evolving capabilities of LLMs, especially as they continue to expand in scale
and power.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、さまざまなアプリケーションに顕著な改善をもたらし、同時に、潜在的プライベートデータ露出に対する懸念も高まっている。
llmsの特筆すべき機能は、異なる情報片間の関連を形成する能力であるが、これは個人識別情報(pii)に関して懸念を生じさせる。
本稿では,言語モデルの関連性を考察し,その能力に影響を及ぼす要因を明らかにすることを目的とする。
モデルが拡大するにつれて、特にターゲットペアがより短い共起距離またはより高い共起周波数を示すと、エンティティ/情報の関連付け能力が増大することが明らかとなった。
しかし、共通センス知識とpiiを関連付ける場合、パフォーマンスの差は明らかであり、後者の方が精度が低い。
正確に予測されたPIIの割合は比較的小さいが、LLMは適切なプロンプトが提供されると、メールアドレスや電話番号の特定のインスタンスを予測する能力を示している。
これらの知見は、LLMの進化する能力によって引き起こされるPII機密性への潜在的なリスク、特にスケールとパワーの増大を裏付けるものである。
関連論文リスト
- Locally Differentially Private In-Context Learning [8.659575019965152]
大規模な事前学習言語モデル(LLM)は、驚くべきインコンテキスト学習(ICL)能力を示している。
本稿では,文脈内学習(LDP-ICL)の局所的差分的フレームワークを提案する。
変圧器の勾配勾配降下による文脈内学習のメカニズムを考慮し,LDP-ICLにおけるプライバシとユーティリティのトレードオフ分析を行う。
論文 参考訳(メタデータ) (2024-05-07T06:05:43Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Do Membership Inference Attacks Work on Large Language Models? [145.90022632726883]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Discovery of the Hidden World with Large Language Models [100.38157787218044]
COAT: Causal representatiOn AssistanTについて紹介する。
COATは、非構造化データから潜在的な因果因子を抽出する因子プロジェクタとしてLLMを組み込んでいる。
LLMはデータ値の収集に使用される追加情報を提供するよう指示することもできる。
論文 参考訳(メタデータ) (2024-02-06T12:18:54Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using
Federated Learning [36.19569583225485]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Large Language Models Can Be Good Privacy Protection Learners [53.07930843882592]
本稿では,プライバシ保護言語モデル(PPLM)を紹介する。
本研究は, コーパスキュレーション, ペナルティに基づくトレーニング損失の相違, 命令に基づくチューニングなど, モデル設計の理論的解析を行う。
特に、肯定的な例と否定的な例の両方による命令チューニングは、モデルの知識を高めながら、個人データを効果的に保護する、有望な方法として際立っている。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z) - ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。
本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文 参考訳(メタデータ) (2023-07-04T18:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。