論文の概要: Quantifying Association Capabilities of Large Language Models and Its
Implications on Privacy Leakage
- arxiv url: http://arxiv.org/abs/2305.12707v2
- Date: Fri, 9 Feb 2024 05:31:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 21:07:57.967941
- Title: Quantifying Association Capabilities of Large Language Models and Its
Implications on Privacy Leakage
- Title(参考訳): 大規模言語モデルの連想能力の定量化とプライバシ漏洩への影響
- Authors: Hanyin Shao, Jie Huang, Shen Zheng, Kevin Chen-Chuan Chang
- Abstract要約: 本稿では,言語モデルの関連性を考察し,その能力に影響を及ぼす要因を明らかにすることを目的とする。
我々の研究は、モデルがスケールアップするにつれて、エンティティ/インフォメーションを関連付ける能力が強化されることを明らかにし、特にターゲットペアがより短い共起距離またはより高い共起周波数を示す場合である。
正確に予測されたPIIの割合は比較的小さいが、LLMは適切なプロンプトが提供されると、メールアドレスや電話番号の特定のインスタンスを予測する能力を示している。
- 参考スコア(独自算出の注目度): 28.385083741414213
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advancement of large language models (LLMs) brings notable improvements
across various applications, while simultaneously raising concerns about
potential private data exposure. One notable capability of LLMs is their
ability to form associations between different pieces of information, but this
raises concerns when it comes to personally identifiable information (PII).
This paper delves into the association capabilities of language models, aiming
to uncover the factors that influence their proficiency in associating
information. Our study reveals that as models scale up, their capacity to
associate entities/information intensifies, particularly when target pairs
demonstrate shorter co-occurrence distances or higher co-occurrence
frequencies. However, there is a distinct performance gap when associating
commonsense knowledge versus PII, with the latter showing lower accuracy.
Despite the proportion of accurately predicted PII being relatively small, LLMs
still demonstrate the capability to predict specific instances of email
addresses and phone numbers when provided with appropriate prompts. These
findings underscore the potential risk to PII confidentiality posed by the
evolving capabilities of LLMs, especially as they continue to expand in scale
and power.
- Abstract(参考訳): 大規模言語モデル(LLM)の進歩は、さまざまなアプリケーションに顕著な改善をもたらし、同時に、潜在的プライベートデータ露出に対する懸念も高まっている。
llmsの特筆すべき機能は、異なる情報片間の関連を形成する能力であるが、これは個人識別情報(pii)に関して懸念を生じさせる。
本稿では,言語モデルの関連性を考察し,その能力に影響を及ぼす要因を明らかにすることを目的とする。
モデルが拡大するにつれて、特にターゲットペアがより短い共起距離またはより高い共起周波数を示すと、エンティティ/情報の関連付け能力が増大することが明らかとなった。
しかし、共通センス知識とpiiを関連付ける場合、パフォーマンスの差は明らかであり、後者の方が精度が低い。
正確に予測されたPIIの割合は比較的小さいが、LLMは適切なプロンプトが提供されると、メールアドレスや電話番号の特定のインスタンスを予測する能力を示している。
これらの知見は、LLMの進化する能力によって引き起こされるPII機密性への潜在的なリスク、特にスケールとパワーの増大を裏付けるものである。
関連論文リスト
- Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。
本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。
我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文 参考訳(メタデータ) (2024-11-16T14:28:33Z) - Causality for Large Language Models [37.10970529459278]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、膨大なデータセットでトレーニングされており、一連の言語タスクで前例のない成功を収めている。
近年の研究では、LLMは因果オウムとして機能し、因果知識を真に理解したり応用したりすることなくリサイクリングすることができることが強調されている。
本調査は, ライフサイクルのすべての段階において, 因果性がどのようにLCMを強化するかを検討することを目的としている。
論文 参考訳(メタデータ) (2024-10-20T07:22:23Z) - Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。
しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。
本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文 参考訳(メタデータ) (2024-10-07T06:49:41Z) - Locally Differentially Private In-Context Learning [8.659575019965152]
大規模な事前学習言語モデル(LLM)は、驚くべきインコンテキスト学習(ICL)能力を示している。
本稿では,文脈内学習(LDP-ICL)の局所的差分的フレームワークを提案する。
変圧器の勾配勾配降下による文脈内学習のメカニズムを考慮し,LDP-ICLにおけるプライバシとユーティリティのトレードオフ分析を行う。
論文 参考訳(メタデータ) (2024-05-07T06:05:43Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。
我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。
様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文 参考訳(メタデータ) (2024-02-12T17:52:05Z) - Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。
DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文 参考訳(メタデータ) (2023-12-29T06:50:38Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Quantifying and Analyzing Entity-level Memorization in Large Language
Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。
記憶から生じるプライバシーリスクが注目されている。
実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文 参考訳(メタデータ) (2023-08-30T03:06:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。