論文の概要: PETLP: A Privacy-by-Design Pipeline for Social Media Data in AI Research
- arxiv url: http://arxiv.org/abs/2508.09232v1
- Date: Tue, 12 Aug 2025 08:33:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 20:42:00.642545
- Title: PETLP: A Privacy-by-Design Pipeline for Social Media Data in AI Research
- Title(参考訳): PETLP:AI研究におけるソーシャルメディアデータのためのプライバシ・バイ・デザインパイプライン
- Authors: Nick Oh, Giorgos D. Vrakas, Siân J. M. Brooke, Sasha Morinière, Toju Duke,
- Abstract要約: PETLP(Privacy-by-Design Extract, Transform, Load, Present)は、法的保護を拡張パイプラインに直接組み込むコンプライアンスフレームワークである。
我々は、資格研究機関と商業団体の間で、抽出権がどう異なるかを示す。
ソーシャルメディアデータに対して、真の匿名化が実現不可能な理由を明らかにします。
- 参考スコア(独自算出の注目度): 4.227762592227462
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media data presents AI researchers with overlapping obligations under the GDPR, copyright law, and platform terms -- yet existing frameworks fail to integrate these regulatory domains, leaving researchers without unified guidance. We introduce PETLP (Privacy-by-design Extract, Transform, Load, and Present), a compliance framework that embeds legal safeguards directly into extended ETL pipelines. Central to PETLP is treating Data Protection Impact Assessments as living documents that evolve from pre-registration through dissemination. Through systematic Reddit analysis, we demonstrate how extraction rights fundamentally differ between qualifying research organisations (who can invoke DSM Article 3 to override platform restrictions) and commercial entities (bound by terms of service), whilst GDPR obligations apply universally. We reveal why true anonymisation remains unachievable for social media data and expose the legal gap between permitted dataset creation and uncertain model distribution. By structuring compliance decisions into practical workflows and simplifying institutional data management plans, PETLP enables researchers to navigate regulatory complexity with confidence, bridging the gap between legal requirements and research practice.
- Abstract(参考訳): ソーシャルメディアのデータは、GDPR、著作権法、プラットフォーム用語の義務が重複しているAI研究者を提示するが、既存のフレームワークはこれらの規制ドメインを統合することができず、研究者は統一されたガイダンスを残さない。
PETLP(Privacy-by-Design Extract, Transform, Load, Present)は,法的保護を拡張ETLパイプラインに直接組み込むコンプライアンスフレームワークである。
PETLPの中心は、データ保護影響評価を、事前登録から普及を通じて進化する生きた文書として扱うことである。
系統的なReddit分析を通じて、GDPR義務が普遍的に適用される一方で、資格のある研究機関(DSM第3条を有効活用してプラットフォーム制限を覆すことができる)と商業団体(サービス規約によって制限される)とが、抽出権が根本的に異なるかを実証する。
我々は、ソーシャルメディアデータに対して真の匿名化が達成できない理由を明らかにし、許可されたデータセット生成と不確実なモデル分布の間の法的ギャップを明らかにする。
コンプライアンス決定を実践的なワークフローに構造化し、制度的なデータ管理計画を簡単にすることで、PETLPは研究者が規制の複雑さを自信を持ってナビゲートし、法的要件と研究実践のギャップを埋めることを可能にする。
関連論文リスト
- Policy-Driven AI in Dataspaces: Taxonomy, Explainability, and Pathways for Compliant Innovation [1.6766200616088744]
本稿では、プライバシ保護とポリシー対応AI技術に関する包括的なレビューを提供する。
プライバシレベル、影響、コンプライアンスの複雑さに基づいて、これらのテクニックを分類する新しい分類法を提案する。
技術的、倫理的、規制的な観点から見れば、この研究はデータ空間において信頼性があり、効率的で、コンプライアンスのよいAIシステムを開発するための基礎となる。
論文 参考訳(メタデータ) (2025-07-26T17:07:01Z) - The Accountability Paradox: How Platform API Restrictions Undermine AI Transparency Mandates [0.0]
主要なソーシャルメディアプラットフォームに対するAPI制限は、アルゴリズムの透明性のためにデータアクセスを義務付けるEUデジタルサービス法[20]の遵守に異議を唱える。
規制要件とプラットフォーム実装の相違点の増大を評価するための構造化監査フレームワークを開発する。
我々は,国立標準技術研究所のAIリスクマネジメントフレームワークに沿った政策介入を提案する。
論文 参考訳(メタデータ) (2025-05-16T14:30:20Z) - Lawful and Accountable Personal Data Processing with GDPR-based Access and Usage Control in Distributed Systems [0.0]
本稿では,データ処理活動の合法性に関する法的議論を確立するための,自動規範推論のためのケースジェネリック手法を提案する。
議論は、プライバシーの専門家によるケース固有の法的資格に基づいて確立され、人間をループに導く。
GPDRから抽出した要求に対して、結果のシステムは設計され、批判的に評価される。
論文 参考訳(メタデータ) (2025-03-10T10:49:34Z) - Demystifying Legalese: An Automated Approach for Summarizing and Analyzing Overlaps in Privacy Policies and Terms of Service [0.6240153531166704]
我々の研究は、このような文書に自動でアクセス可能な要約とスコアを提供する言語モデルを開発することで、この問題を軽減することを目指している。
我々はデータセットのトレーニング中にトランスフォーマーベースのモデルと従来のモデルを比較し、RoBERTaは0.74F1スコアで全体的なパフォーマンスを改善した。
論文 参考訳(メタデータ) (2024-04-17T19:53:59Z) - Federated Learning Priorities Under the European Union Artificial
Intelligence Act [68.44894319552114]
我々は、AI法がフェデレートラーニングに与える影響について、第一種学際分析(法とML)を行う。
データガバナンスの問題とプライバシに関する懸念について検討する。
最も注目すべきは、データのバイアスを防御し、プライベートでセキュアな計算を強化する機会である。
論文 参考訳(メタデータ) (2024-02-05T19:52:19Z) - Auditing and Generating Synthetic Data with Controllable Trust Trade-offs [54.262044436203965]
合成データセットとAIモデルを包括的に評価する総合監査フレームワークを導入する。
バイアスや差別の防止、ソースデータへの忠実性の確保、実用性、堅牢性、プライバシ保護などに焦点を当てている。
多様なユースケースにまたがる様々な生成モデルを監査することにより,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-21T09:03:18Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z) - Having your Privacy Cake and Eating it Too: Platform-supported Auditing
of Social Media Algorithms for Public Interest [70.02478301291264]
ソーシャルメディアプラットフォームは、情報や機会へのアクセスをキュレートするので、公衆の言論を形成する上で重要な役割を果たす。
これまでの研究では、これらのアルゴリズムが偏見や差別的な結果をもたらすことを示すためにブラックボックス法が用いられてきた。
本稿では,提案法の目標を満たすプラットフォーム支援型監査手法を提案する。
論文 参考訳(メタデータ) (2022-07-18T17:32:35Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。