論文の概要: NLP Privacy Risk Identification in Social Media (NLP-PRISM): A Survey
- arxiv url: http://arxiv.org/abs/2602.15866v1
- Date: Mon, 26 Jan 2026 21:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.671559
- Title: NLP Privacy Risk Identification in Social Media (NLP-PRISM): A Survey
- Title(参考訳): ソーシャルメディア(NLP-PRISM)におけるNLPプライバシリスクの同定
- Authors: Dhiman Goswami, Jai Kruthunz Naveen Kumar, Sanchari Das,
- Abstract要約: 6次元にわたる脆弱性を評価するソーシャル・メディア・フレームワークにおけるNLPプライバシ・リスク同定を提案する。
我々の分析によると、トランスフォーマーモデルは0.58-0.84の範囲でF1スコアを達成するが、プライバシー保護の微調整により1%から23%低下する。
我々は、ソーシャルメディアの文脈で倫理的NLPを可能にするために、より強力な匿名化、プライバシーを意識した学習、公平な学習を提唱する。
- 参考スコア(独自算出の注目度): 9.47737368469032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Natural Language Processing (NLP) is integral to social media analytics but often processes content containing Personally Identifiable Information (PII), behavioral cues, and metadata raising privacy risks such as surveillance, profiling, and targeted advertising. To systematically assess these risks, we review 203 peer-reviewed papers and propose the NLP Privacy Risk Identification in Social Media (NLP-PRISM) framework, which evaluates vulnerabilities across six dimensions: data collection, preprocessing, visibility, fairness, computational risk, and regulatory compliance. Our analysis shows that transformer models achieve F1-scores ranging from 0.58-0.84, but incur a 1% - 23% drop under privacy-preserving fine-tuning. Using NLP-PRISM, we examine privacy coverage in six NLP tasks: sentiment analysis (16), emotion detection (14), offensive language identification (19), code-mixed processing (39), native language identification (29), and dialect detection (24) revealing substantial gaps in privacy research. We further found a (reduced by 2% - 9%) trade-off in model utility, MIA AUC (membership inference attacks) 0.81, AIA accuracy 0.75 (attribute inference attacks). Finally, we advocate for stronger anonymization, privacy-aware learning, and fairness-driven training to enable ethical NLP in social media contexts.
- Abstract(参考訳): 自然言語処理(NLP)はソーシャルメディアの分析に不可欠なものであるが、しばしばPII(Personally Identible Information)、行動の手がかり、監視、プロファイリング、ターゲット広告などのプライバシーリスクを高めるメタデータを含むコンテンツを処理している。
これらのリスクを体系的に評価するために、203のピアレビュー論文をレビューし、データ収集、前処理、可視性、公正性、計算リスク、規制コンプライアンスの6次元にわたる脆弱性を評価するNLP Privacy Risk Identification in Social Media (NLP-PRISM)フレームワークを提案する。
我々の分析によると、トランスフォーマーモデルは0.58-0.84の範囲でF1スコアを達成するが、プライバシー保護の微調整により1%から23%低下する。
NLP-PRISMを用いて、感情分析(16)、感情検出(14)、攻撃的言語識別(19)、コード混合処理(39)、ネイティブ言語識別(29)、方言検出(24)の6つのNLPタスクのプライバシカバレッジを調べ、プライバシ研究における大きなギャップを明らかにした。
さらに,モデルユーティリティ,MIA AUC(メンバシップ推論攻撃)0.81,AIA精度0.75(属性推論攻撃)のトレードオフを見出した。
最後に、ソーシャルメディアの文脈において倫理的NLPを可能にするために、より強力な匿名化、プライバシーを意識した学習、公平な学習を提唱する。
関連論文リスト
- PII-VisBench: Evaluating Personally Identifiable Information Safety in Vision Language Models Along a Continuum of Visibility [4.603440637344069]
PII-VisBenchは、オンラインプレゼンスの継続を通してVLMの安全性を評価するために設計された4000個のプローブを含む新しいベンチマークである。
このベンチマークは、200人の被験者を、オンラインで利用可能な情報の範囲と性質に基づいて、ハイ、ミディアム、ロー、ゼロの4つの可視性カテゴリに分類している。
モデル全体では、被験者の視認性が低下するにつれて、拒絶が増加し、PII開示が減少する(9.10%高から5.34%低)という一貫したパターンが観察される。
論文 参考訳(メタデータ) (2026-01-09T11:40:56Z) - MAGPIE: A benchmark for Multi-AGent contextual PrIvacy Evaluation [61.92403071137653]
既存のプライバシベンチマークは、タスクの結果に影響を与えることなく、プライベート情報を簡単に省略できる、単純化されたシングルターンインタラクションにのみフォーカスする。
我々は,多エージェント協調型非競合シナリオにおけるプライバシ理解と保存性を評価するための新しいベンチマークであるMAGPIEを紹介する。
評価の結果,GPT-5やGemini 2.5-Proを含む最先端のエージェントは,重大なプライバシー侵害を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-10-16T23:12:12Z) - MAGPIE: A dataset for Multi-AGent contextual PrIvacy Evaluation [54.410825977390274]
LLMエージェントのコンテキストプライバシを評価するための既存のベンチマークは、主にシングルターン、低複雑さタスクを評価する。
まず、15ドメインにわたる158のリアルタイムハイテイクシナリオからなるベンチマーク-MAGPIEを示す。
次に、コンテキスト的にプライベートなデータに対する理解と、ユーザのプライバシを侵害することなくコラボレーションする能力に基づいて、最先端のLCMを評価します。
論文 参考訳(メタデータ) (2025-06-25T18:04:25Z) - A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。
本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文 参考訳(メタデータ) (2025-04-28T01:16:27Z) - Natural Language Processing of Privacy Policies: A Survey [2.4058538793689497]
NLPとプライバシポリシの交差点で109の論文を分析して文献レビューを行う。
プライバシーポリシーを簡潔に紹介し、関連する諸問題について論じる。
堅牢なプライバシポリシを提供するために、さらに拡張可能な方法論を特定します。
論文 参考訳(メタデータ) (2025-01-17T17:47:15Z) - PrivacyLens: Evaluating Privacy Norm Awareness of Language Models in Action [54.11479432110771]
PrivacyLensは、プライバシに敏感な種子を表現的なヴィグネットに拡張し、さらにエージェントの軌跡に拡張するために設計された新しいフレームワークである。
プライバシの文献とクラウドソーシングされたシードに基づいて、プライバシの規範のコレクションをインスタンス化する。
GPT-4やLlama-3-70Bのような最先端のLMは、プライバシー強化の指示が出されたとしても、機密情報を25.68%、38.69%のケースでリークしている。
論文 参考訳(メタデータ) (2024-08-29T17:58:38Z) - Reducing Privacy Risks in Online Self-Disclosures with Language Models [26.273214719939894]
我々は19の自己開示カテゴリの分類を開発し,4.8Kの注釈付き開示スパンからなる大きなコーパスをキュレートした。
検出のための言語モデルを微調整し、部分的なスパンを65%以上達成しました。
本稿では、開示をあまり具体的でない用語に言い換える自己開示抽象化の課題を紹介する。
論文 参考訳(メタデータ) (2023-11-16T03:28:43Z) - SeePrivacy: Automated Contextual Privacy Policy Generation for Mobile
Applications [21.186902172367173]
SeePrivacyは、モバイルアプリのコンテキストプライバシポリシを自動的に生成するように設計されている。
本手法は,モバイルGUI理解とプライバシポリシ文書解析を相乗的に組み合わせた手法である。
検索されたポリシーセグメントの96%は、そのコンテキストと正しく一致させることができる。
論文 参考訳(メタデータ) (2023-07-04T12:52:45Z) - Examining risks of racial biases in NLP tools for child protective
services [78.81107364902958]
児童保護サービス(CPS)に焦点をあてる。
この設定で確立された人種的偏見を考えると、NLPの展開は人種格差を増大させる可能性がある。
我々は、NERモデルにおける一貫したアルゴリズムの不公平性、コア参照解決モデルにおけるアルゴリズムの不公平性、およびリスク予測における人種バイアスの悪化の証拠を文書化している。
論文 参考訳(メタデータ) (2023-05-30T21:00:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。