論文の概要: De-Anonymization at Scale via Tournament-Style Attribution
- arxiv url: http://arxiv.org/abs/2601.12407v1
- Date: Sun, 18 Jan 2026 13:49:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.616964
- Title: De-Anonymization at Scale via Tournament-Style Attribution
- Title(参考訳): トーナメントスタイル属性によるスケールでの匿名化
- Authors: Lirui Zhang, Huishuai Zhang,
- Abstract要約: De-Anonymization at Scale (DAS) は、数万の候補テキストに著者を帰属させる大規模な言語モデルに基づく手法である。
DASは、匿名プラットフォームに対して現実的なプライバシーリスクを示すために、数万のプールから、偶然よりもはるかに高い精度で、同じ著者のテキストを復元することができる。
- 参考スコア(独自算出の注目度): 15.47801233755864
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: As LLMs rapidly advance and enter real-world use, their privacy implications are increasingly important. We study an authorship de-anonymization threat: using LLMs to link anonymous documents to their authors, potentially compromising settings such as double-blind peer review. We propose De-Anonymization at Scale (DAS), a large language model-based method for attributing authorship among tens of thousands of candidate texts. DAS uses a sequential progression strategy: it randomly partitions the candidate corpus into fixed-size groups, prompts an LLM to select the text most likely written by the same author as a query text, and iteratively re-queries the surviving candidates to produce a ranked top-k list. To make this practical at scale, DAS adds a dense-retrieval prefilter to shrink the search space and a majority-voting style aggregation over multiple independent runs to improve robustness and ranking precision. Experiments on anonymized review data show DAS can recover same-author texts from pools of tens of thousands with accuracy well above chance, demonstrating a realistic privacy risk for anonymous platforms. On standard authorship benchmarks (Enron emails and blog posts), DAS also improves both accuracy and scalability over prior approaches, highlighting a new LLM-enabled de-anonymization vulnerability.
- Abstract(参考訳): LLMが急速に進歩し、現実世界での利用に入るにつれ、それらのプライバシーへの影響はますます重要になっている。
著者の匿名化の脅威について検討する: LLMを使って匿名文書を著者にリンクし、二重盲検レビューのような妥協的な設定をすることができる。
本研究では,大規模言語モデルに基づく数万の候補テキスト間の著者関係の帰属化手法であるDES(De-Anonymization at Scale)を提案する。
DASは、ランダムに候補コーパスを固定サイズのグループに分割し、LCMにクエリテキストと同じ著者によって書かれた可能性が高いテキストを選択するように促し、生き残った候補を反復的に再クエリしてランクトップkリストを作成する。
これを大規模に実現するために、DASは検索空間を縮小するための高密度検索事前フィルタと、複数の独立ランに対する多数投票スタイルの集約を追加し、堅牢性とランキング精度を向上させる。
匿名化されたレビューデータの実験によると、DASは数万件の同一のテキストを、偶然よりはるかに高い精度で回収し、匿名プラットフォームに対する現実的なプライバシーリスクを示す。
標準的なオーサシップベンチマーク(Eメールとブログ記事)では、DASは以前のアプローチよりも正確性とスケーラビリティを向上し、新たなLLM対応の匿名化脆弱性を強調している。
関連論文リスト
- PPMI: Privacy-Preserving LLM Interaction with Socratic Chain-of-Thought Reasoning and Homomorphically Encrypted Vector Databases [38.43532939618273]
大規模言語モデル(LLM)は、カレンダー、メール、医療記録などの機密性の高いユーザーデータにアクセスするパーソナルエージェントとして、ますます使われるようになっている。
現在、ユーザはトレードオフに直面している。強力なが信頼できないLLMプロバイダにプライベートレコードを送信することで、露出リスクが増大する。
論文 参考訳(メタデータ) (2025-06-19T07:13:30Z) - AIDBench: A benchmark for evaluating the authorship identification capability of large language models [14.866356328321126]
我々は、大きな言語モデル(LLM)が匿名テキストの作者を特定するのに役立つ、特定のプライバシーリスクに焦点を当てる。
AIDBenchは、メール、ブログ、レビュー、記事、研究論文など、いくつかの著者識別データセットを組み込んだ新しいベンチマークである。
AIDBenchによる我々の実験は、LLMがランダムな確率よりもはるかに高い確率で著者を推測できることを示し、これらの強力なモデルによって引き起こされる新たなプライバシーリスクを明らかにした。
論文 参考訳(メタデータ) (2024-11-20T11:41:08Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - Who Wrote This? The Key to Zero-Shot LLM-Generated Text Detection Is GECScore [51.65730053591696]
我々は,人文テキストがLLM生成テキストよりも文法的誤りを多く含んでいるという観察に基づく,シンプルで効果的なブラックボックスゼロショット検出手法を提案する。
実験結果から,本手法はゼロショット法や教師あり手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-05-07T12:57:01Z) - Protecting Copyrighted Material with Unique Identifiers in Large Language Model Training [55.321010757641524]
大きな言語モデル(LLM)のトレーニングに関する主要な関心事は、著作権のあるオンラインテキストを悪用するかどうかである。
本稿では,Web ユーザとコンテンツプラットフォームがtextbftextitunique 識別子を,信頼性と独立性のあるメンバシップ推論に活用することを提唱する,代替の textitinsert-and-detect 手法を提案する。
論文 参考訳(メタデータ) (2024-03-23T06:36:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。