Fugu-MT 論文翻訳(概要): Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage

論文の概要: Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage

arxiv url: http://arxiv.org/abs/2305.12707v2
Date: Fri, 9 Feb 2024 05:31:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-12 21:07:57.967941
Title: Quantifying Association Capabilities of Large Language Models and Its Implications on Privacy Leakage
Title（参考訳）: 大規模言語モデルの連想能力の定量化とプライバシ漏洩への影響
Authors: Hanyin Shao, Jie Huang, Shen Zheng, Kevin Chen-Chuan Chang
Abstract要約: 本稿では,言語モデルの関連性を考察し,その能力に影響を及ぼす要因を明らかにすることを目的とする。我々の研究は、モデルがスケールアップするにつれて、エンティティ/インフォメーションを関連付ける能力が強化されることを明らかにし、特にターゲットペアがより短い共起距離またはより高い共起周波数を示す場合である。正確に予測されたPIIの割合は比較的小さいが、LLMは適切なプロンプトが提供されると、メールアドレスや電話番号の特定のインスタンスを予測する能力を示している。
参考スコア（独自算出の注目度）: 28.385083741414213
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advancement of large language models (LLMs) brings notable improvements across various applications, while simultaneously raising concerns about potential private data exposure. One notable capability of LLMs is their ability to form associations between different pieces of information, but this raises concerns when it comes to personally identifiable information (PII). This paper delves into the association capabilities of language models, aiming to uncover the factors that influence their proficiency in associating information. Our study reveals that as models scale up, their capacity to associate entities/information intensifies, particularly when target pairs demonstrate shorter co-occurrence distances or higher co-occurrence frequencies. However, there is a distinct performance gap when associating commonsense knowledge versus PII, with the latter showing lower accuracy. Despite the proportion of accurately predicted PII being relatively small, LLMs still demonstrate the capability to predict specific instances of email addresses and phone numbers when provided with appropriate prompts. These findings underscore the potential risk to PII confidentiality posed by the evolving capabilities of LLMs, especially as they continue to expand in scale and power.
Abstract（参考訳）: 大規模言語モデル(LLM)の進歩は、さまざまなアプリケーションに顕著な改善をもたらし、同時に、潜在的プライベートデータ露出に対する懸念も高まっている。 llmsの特筆すべき機能は、異なる情報片間の関連を形成する能力であるが、これは個人識別情報(pii)に関して懸念を生じさせる。本稿では,言語モデルの関連性を考察し,その能力に影響を及ぼす要因を明らかにすることを目的とする。モデルが拡大するにつれて、特にターゲットペアがより短い共起距離またはより高い共起周波数を示すと、エンティティ/情報の関連付け能力が増大することが明らかとなった。しかし、共通センス知識とpiiを関連付ける場合、パフォーマンスの差は明らかであり、後者の方が精度が低い。正確に予測されたPIIの割合は比較的小さいが、LLMは適切なプロンプトが提供されると、メールアドレスや電話番号の特定のインスタンスを予測する能力を示している。これらの知見は、LLMの進化する能力によって引き起こされるPII機密性への潜在的なリスク、特にスケールとパワーの増大を裏付けるものである。

関連論文リスト

Understanding Privacy Risks in Code Models Through Training Dynamics: A Causal Approach [58.05800140178267]
コードのための大規模言語モデル(LLM4Code)は、開発者の生産性を大幅に改善しただけでなく、プライバシの懸念も高めた。 LLM4Codeによって学習・リークされる可能性において,異なるPIIタイプが異なるかどうかを検討する。その結果, 漏洩リスクはPIIタイプによって大きく異なり, トレーニングのダイナミクスと相関していることがわかった。この研究は、漏洩リスクがタイプ依存であることを示す最初の因果的証拠を提供し、タイプ認識と学習可能性認識の防御を開発するためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-12-08T18:47:40Z)
The Rise of Parameter Specialization for Knowledge Storage in Large Language Models [50.91855620712756]
言語モデルが高度化するにつれて、それらのパラメータは特殊化を増大させることを示す。この特殊な知識分布が,これらのモデルにおける知識利用効率の向上に寄与することを実験的に検証した。
論文参考訳（メタデータ） (2025-05-22T20:15:01Z)
Information Anxiety in Large Language Models [21.574677910096735]
大規模言語モデル(LLM)は知識リポジトリとして高いパフォーマンスを示している。本研究は, LLMの内部推論と検索機構を包括的に分析することにより, さらなる調査を行う。我々の研究は、エンティティの人気の影響、クエリの定式化における語彙変化に対するモデルの感度、隠された状態表現の進行という3つの重要な側面に焦点を当てている。
論文参考訳（メタデータ） (2024-11-16T14:28:33Z)
Causality for Large Language Models [37.10970529459278]
数十億または数兆のパラメータを持つ大規模言語モデル(LLM)は、膨大なデータセットでトレーニングされており、一連の言語タスクで前例のない成功を収めている。近年の研究では、LLMは因果オウムとして機能し、因果知識を真に理解したり応用したりすることなくリサイクリングすることができることが強調されている。本調査は, ライフサイクルのすべての段階において, 因果性がどのようにLCMを強化するかを検討することを目的としている。
論文参考訳（メタデータ） (2024-10-20T07:22:23Z)
Formality is Favored: Unraveling the Learning Preferences of Large Language Models on Data with Conflicting Knowledge [55.65162959527848]
大規模言語モデルは、多くの知識集約的なタスクにおいて優れたパフォーマンスを示している。しかし、事前学習データには誤解を招く傾向があり、矛盾する情報も含まれている。本研究では,LLMの学習嗜好を,矛盾する知識を持つデータに対して体系的に分析する。
論文参考訳（メタデータ） (2024-10-07T06:49:41Z)
On the Reliability of Large Language Models for Causal Discovery [55.94868919310357]
本研究では,因果発見におけるLarge Language Models(LLMs)の有効性について検討した。我々は,新たに利用可能なオープンソースLLM,OLMo,BLOOMを用いて,事前学習コーパスへのアクセスを行う。 i) 正確な因果関係予測のための暗記の影響, (ii) 事前学習データにおける誤った因果関係の影響, (iii) LLMの因果関係に対する理解に影響を与える文脈的ニュアンスについて検討した。
論文参考訳（メタデータ） (2024-07-29T01:45:05Z)
Locally Differentially Private In-Context Learning [8.659575019965152]
大規模な事前学習言語モデル(LLM)は、驚くべきインコンテキスト学習(ICL)能力を示している。本稿では,文脈内学習(LDP-ICL)の局所的差分的フレームワークを提案する。変圧器の勾配勾配降下による文脈内学習のメカニズムを考慮し,LDP-ICLにおけるプライバシとユーティリティのトレードオフ分析を行う。
論文参考訳（メタデータ） (2024-05-07T06:05:43Z)
Characterizing Truthfulness in Large Language Model Generations with Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文参考訳（メタデータ） (2024-02-28T04:56:21Z)
Do Membership Inference Attacks Work on Large Language Models? [141.2019867466968]
メンバーシップ推論攻撃(MIA)は、特定のデータポイントがターゲットモデルのトレーニングデータのメンバーであるかどうかを予測しようとする。我々は、Pileで訓練された言語モデルに対して、MIAの大規模評価を行い、そのパラメータは160Mから12Bまでである。様々な LLM サイズや領域にまたがるほとんどの設定において,MIA はランダムな推測よりもほとんど優れていないことがわかった。
論文参考訳（メタデータ） (2024-02-12T17:52:05Z)
Differentially Private Low-Rank Adaptation of Large Language Model Using Federated Learning [32.52811740662061]
本稿では,大規模言語モデル(LLM)に適した新しいフェデレーション学習アルゴリズムDP-LoRAを紹介する。 DP-LoRAは、重み付け更新のノイズを追加し、データプライバシを個別に維持しつつ、協調的なモデルトレーニングを容易にするガウス機構を使用することで、データのプライバシを保存する。
論文参考訳（メタデータ） (2023-12-29T06:50:38Z)
Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文参考訳（メタデータ） (2023-12-26T07:24:46Z)
PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文参考訳（メタデータ） (2023-10-03T22:37:01Z)
Improving Open Information Extraction with Large Language Models: A Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文参考訳（メタデータ） (2023-09-07T01:35:24Z)
Quantifying and Analyzing Entity-level Memorization in Large Language Models [4.59914731734176]
大規模言語モデル(LLM)は、トレーニングデータを記憶できることが証明されている。記憶から生じるプライバシーリスクが注目されている。実世界のシナリオに近い条件やメトリクスで記憶を定量化するための,詳細なエンティティレベルの定義を提案する。
論文参考訳（メタデータ） (2023-08-30T03:06:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。