論文の概要: Large-scale online deanonymization with LLMs
- arxiv url: http://arxiv.org/abs/2602.16800v1
- Date: Wed, 18 Feb 2026 19:02:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.299601
- Title: Large-scale online deanonymization with LLMs
- Title(参考訳): LLMによる大規模オンライン匿名化
- Authors: Simon Lermen, Daniel Paleka, Joshua Swanson, Michael Aerni, Nicholas Carlini, Florian Tramèr,
- Abstract要約: 大規模なデ匿名化を実現するために,大規模言語モデルを用いることができることを示す。
当社のエージェントは、完全なインターネットアクセスによって、Hacker NewsユーザーとHistropic Interviewer参加者を高精度に識別することができる。
- 参考スコア(独自算出の注目度): 58.46277616551135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that large language models can be used to perform at-scale deanonymization. With full Internet access, our agent can re-identify Hacker News users and Anthropic Interviewer participants at high precision, given pseudonymous online profiles and conversations alone, matching what would take hours for a dedicated human investigator. We then design attacks for the closed-world setting. Given two databases of pseudonymous individuals, each containing unstructured text written by or about that individual, we implement a scalable attack pipeline that uses LLMs to: (1) extract identity-relevant features, (2) search for candidate matches via semantic embeddings, and (3) reason over top candidates to verify matches and reduce false positives. Compared to prior deanonymization work (e.g., on the Netflix prize) that required structured data or manual feature engineering, our approach works directly on raw user content across arbitrary platforms. We construct three datasets with known ground-truth data to evaluate our attacks. The first links Hacker News to LinkedIn profiles, using cross-platform references that appear in the profiles. Our second dataset matches users across Reddit movie discussion communities; and the third splits a single user's Reddit history in time to create two pseudonymous profiles to be matched. In each setting, LLM-based methods substantially outperform classical baselines, achieving up to 68% recall at 90% precision compared to near 0% for the best non-LLM method. Our results show that the practical obscurity protecting pseudonymous users online no longer holds and that threat models for online privacy need to be reconsidered.
- Abstract(参考訳): 大規模なデ匿名化を実現するために,大規模言語モデルを用いることができることを示す。
当社のエージェントは、完全なインターネットアクセスによって、Hacker NewsのユーザーとHistropic Interviewerの参加者を高い精度で再識別することができます。
次に、クローズドワールド設定のためのアタックを設計します。
個人またはその個人によって書かれた非構造化テキストを含む2つの匿名個人データベースが与えられた場合、LLMを用いてスケーラブルなアタックパイプラインを実装し、(1)識別関連特徴の抽出、(2)セマンティック埋め込みによる候補マッチングの探索、(3)トップ候補の検証と偽陽性の低減を行う。
構造化データや手動の機能エンジニアリングを必要とする事前の匿名化作業(Netflix賞など)と比較して、当社のアプローチは任意のプラットフォーム間で、生のユーザコンテンツを直接処理します。
我々は、攻撃を評価するために、既知の地上データを持つ3つのデータセットを構築した。
最初のリンクは、プロファイルに表示されるクロスプラットフォーム参照を使用して、Hacker NewsとLinkedInプロファイルをリンクする。
第2のデータセットはRedditの映画ディスカッションコミュニティでユーザと一致し、第3のデータセットは1人のユーザのReddit履歴を分割して、マッチする2つの匿名プロフィールを作成します。
各設定において、LLM法は古典的ベースラインを大幅に上回り、最高の非LLM法では、90%の精度で最大68%のリコールを達成する。
以上の結果から,オンラインの匿名ユーザを保護する実用的不確実性はもはや保たず,オンラインプライバシの脅威モデルを再考する必要があることが示唆された。
関連論文リスト
- De-Anonymization at Scale via Tournament-Style Attribution [15.47801233755864]
De-Anonymization at Scale (DAS) は、数万の候補テキストに著者を帰属させる大規模な言語モデルに基づく手法である。
DASは、匿名プラットフォームに対して現実的なプライバシーリスクを示すために、数万のプールから、偶然よりもはるかに高い精度で、同じ著者のテキストを復元することができる。
論文 参考訳(メタデータ) (2026-01-18T13:49:43Z) - PPMI: Privacy-Preserving LLM Interaction with Socratic Chain-of-Thought Reasoning and Homomorphically Encrypted Vector Databases [38.43532939618273]
大規模言語モデル(LLM)は、カレンダー、メール、医療記録などの機密性の高いユーザーデータにアクセスするパーソナルエージェントとして、ますます使われるようになっている。
現在、ユーザはトレードオフに直面している。強力なが信頼できないLLMプロバイダにプライベートレコードを送信することで、露出リスクが増大する。
論文 参考訳(メタデータ) (2025-06-19T07:13:30Z) - Automated Profile Inference with Language Model Agents [67.32226960040514]
自動プロファイル推論(Automatic Profile Inference)と呼ばれる,LLMがオンラインの偽名にもたらす新たな脅威について検討する。
相手は、LDMに対して、疑似プラットフォーム上で公開されているユーザアクティビティから、機密性の高い個人属性を自動的に取り除き、抽出するように指示することができる。
実世界のシナリオにおけるこのような脅威の可能性を評価するために,AutoProfilerという自動プロファイリングフレームワークを導入する。
論文 参考訳(メタデータ) (2025-05-18T13:05:17Z) - Know Me, Respond to Me: Benchmarking LLMs for Dynamic User Profiling and Personalized Responses at Scale [53.059480071818136]
大規模言語モデル(LLM)は、幅広いタスクでユーザのためのパーソナライズされたアシスタントとして登場した。
PERSONAMEMは180以上のユーザ-LLMインタラクション履歴を持つキュレートされたユーザプロファイルを備えている。
LLMチャットボットのユーザプロファイルの現在状況に応じて,最も適切な応答を識別する能力を評価する。
論文 参考訳(メタデータ) (2025-04-19T08:16:10Z) - Evaluating LLM-based Personal Information Extraction and Countermeasures [63.91918057570824]
大規模言語モデル(LLM)に基づく個人情報抽出をベンチマークすることができる。
LLMは攻撃者によって誤用され、個人プロファイルから様々な個人情報を正確に抽出する。
プロンプトインジェクションは強力なLDMベースの攻撃に対して防御し、攻撃をより効果的でない従来の攻撃に還元する。
論文 参考訳(メタデータ) (2024-08-14T04:49:30Z) - The Looming Threat of Fake and LLM-generated LinkedIn Profiles:
Challenges and Opportunities for Detection and Prevention [0.8808993671472349]
本稿では,LinkedIn Online Social Networkにおいて,偽および大規模言語モデル(LLM)生成プロファイルを検出する新しい手法を提案する。
提案手法は,すべての単語の埋め込みにおいて,正当性と偽のプロファイルを約95%の精度で識別できることを示す。
論文 参考訳(メタデータ) (2023-07-21T19:09:24Z) - A Cooperative Memory Network for Personalized Task-oriented Dialogue
Systems with Incomplete User Profiles [55.951126447217526]
ユーザプロファイルの完成を前提とせず,タスク指向対話システムについて検討する。
ユーザプロファイルを徐々に強化する新しいメカニズムを持つ協調記憶ネットワーク(CoMemNN)を提案する。
CoMemNNは、ユーザープロファイルを効果的に強化することができ、応答選択精度の点で3.6%の改善につながります。
論文 参考訳(メタデータ) (2021-02-16T18:05:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。