論文の概要: Unraveling Interwoven Roles of Large Language Models in Authorship Privacy: Obfuscation, Mimicking, and Verification
- arxiv url: http://arxiv.org/abs/2505.14195v1
- Date: Tue, 20 May 2025 10:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.077533
- Title: Unraveling Interwoven Roles of Large Language Models in Authorship Privacy: Obfuscation, Mimicking, and Verification
- Title(参考訳): オーサシッププライバシにおける大規模言語モデルの役割の解明 - 難読化, 緩和, 検証
- Authors: Tuc Nguyen, Yifan Hu, Thai Le,
- Abstract要約: オーサシップの難読化 (AO)、オーサシップの模倣 (AM)、オーサシップの検証 (AV) はオーサシップのプライバシーにおける3つの主要な自動化タスクである。
本研究は, LLM 有効化 AO, AM, AV 間の動的関係を解析するための最初の統一フレームワークを提案する。
また、性別、学歴、パフォーマンス、タスク間ダイナミクス、プライバシーリスクなど、人口統計学的メタデータの役割についても検討する。
- 参考スコア(独自算出の注目度): 12.44258859101255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in large language models (LLMs) have been fueled by large scale training corpora drawn from diverse sources such as websites, news articles, and books. These datasets often contain explicit user information, such as person names and addresses, that LLMs may unintentionally reproduce in their generated outputs. Beyond such explicit content, LLMs can also leak identity revealing cues through implicit signals such as distinctive writing styles, raising significant concerns about authorship privacy. There are three major automated tasks in authorship privacy, namely authorship obfuscation (AO), authorship mimicking (AM), and authorship verification (AV). Prior research has studied AO, AM, and AV independently. However, their interplays remain under explored, which leaves a major research gap, especially in the era of LLMs, where they are profoundly shaping how we curate and share user generated content, and the distinction between machine generated and human authored text is also increasingly blurred. This work then presents the first unified framework for analyzing the dynamic relationships among LLM enabled AO, AM, and AV in the context of authorship privacy. We quantify how they interact with each other to transform human authored text, examining effects at a single point in time and iteratively over time. We also examine the role of demographic metadata, such as gender, academic background, in modulating their performances, inter-task dynamics, and privacy risks. All source code will be publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、ウェブサイト、ニュース記事、書籍などの様々な情報源から引き出された大規模学習コーパスによって加速されている。
これらのデータセットには人名や住所などの明示的なユーザー情報が含まれており、LLMは生成した出力で意図せずに再生することができる。
このような明示的なコンテンツ以外にも、LLMは独自の書き込みスタイルのような暗黙的なシグナルを通じて、アイデンティティを露呈する手がかりをリークする可能性があり、作者のプライバシーに関する重要な懸念を提起する。
オーサリングのプライバシーには、オーサリングの難読化(AO)、オーサリングの模倣(AM)、オーサリングの検証(AV)の3つの主要な自動化タスクがある。
以前の研究では、AO、AM、AVを独立に研究していた。
しかし、それらの相互作用はまだ検討中であり、特にLLMの時代には大きな研究ギャップが残っており、そこでは、ユーザーが生成したコンテンツをキュレートし共有する方法が深く形成されており、機械生成と人間による著作物の区別もますます曖昧になっている。
この研究は、著者プライバシの文脈でLLMが有効とするAO, AM, AV間の動的関係を分析するための最初の統一されたフレームワークを提示する。
我々は、それらが相互にどのように相互作用するかを定量化し、人間が作成したテキストを変換し、ある時点における影響を時間とともに反復的に調べる。
また,性別,学歴,パフォーマンス,タスク間ダイナミクス,プライバシリスクなど,人口統計学的メタデータの役割についても検討した。
すべてのソースコードが公開されている。
関連論文リスト
- Potential and Perils of Large Language Models as Judges of Unstructured Textual Data [0.631976908971572]
本研究では,LLM-as-judgeモデルの有効性を検討した。
LLM-as-judgeは、人間に匹敵するスケーラブルなソリューションを提供するが、人間は微妙で文脈固有のニュアンスを検出するのに優れている。
論文 参考訳(メタデータ) (2025-01-14T14:49:14Z) - A Bayesian Approach to Harnessing the Power of LLMs in Authorship Attribution [57.309390098903]
著者の属性は、文書の起源または著者を特定することを目的としている。
大きな言語モデル(LLM)とその深い推論能力と長距離テキストアソシエーションを維持する能力は、有望な代替手段を提供する。
IMDbおよびブログデータセットを用いた結果, 著者10名を対象に, 著者1名に対して, 85%の精度が得られた。
論文 参考訳(メタデータ) (2024-10-29T04:14:23Z) - LLM-PBE: Assessing Data Privacy in Large Language Models [111.58198436835036]
大規模言語モデル(LLM)は多くのドメインに不可欠なものとなり、データ管理、マイニング、分析におけるアプリケーションを大幅に進歩させた。
この問題の批判的な性質にもかかわらず、LLMにおけるデータプライバシのリスクを総合的に評価する文献は存在しない。
本稿では,LLMにおけるデータプライバシリスクの体系的評価を目的としたツールキットであるLLM-PBEを紹介する。
論文 参考訳(メタデータ) (2024-08-23T01:37:29Z) - On Protecting the Data Privacy of Large Language Models (LLMs): A Survey [35.48984524483533]
LLM(Large Language Model)は、人間の言語を理解し、生成し、翻訳できる複雑な人工知能システムである。
LLMは大量のデータを処理して生成し、データプライバシを脅かす可能性がある。
論文 参考訳(メタデータ) (2024-03-08T08:47:48Z) - Can LLMs Keep a Secret? Testing Privacy Implications of Language Models via Contextual Integrity Theory [82.7042006247124]
私たちは、最も有能なAIモデルでさえ、人間がそれぞれ39%と57%の確率で、プライベートな情報を公開していることを示しています。
我々の研究は、推論と心の理論に基づいて、新しい推論時プライバシー保護アプローチを即時に探求する必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-10-27T04:15:30Z) - Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。
我々はこの問題を透かしによって取り組めることを示した。
本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。