論文の概要: Protecting Vulnerable Voices: Synthetic Dataset Generation for Self-Disclosure Detection
- arxiv url: http://arxiv.org/abs/2507.22930v1
- Date: Thu, 24 Jul 2025 12:32:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.225647
- Title: Protecting Vulnerable Voices: Synthetic Dataset Generation for Self-Disclosure Detection
- Title(参考訳): 可変音声の保護:自己開示検出のための合成データセット生成
- Authors: Shalini Jangra, Suparna De, Nishanth Sastry, Saeed Fadaei,
- Abstract要約: 我々は、安全に共有可能なPII-Revealingデータの合成等価性を作成するための新しい手法を開発した。
私たちの貢献は、脆弱な人口に対する19のPII-Revealingカテゴリの分類の作成を含む。
合成データ上でのモデルトレーニングの結果は、オリジナルの投稿で同じモデルをトレーニングしたモデルに匹敵するものでなければならない。
- 参考スコア(独自算出の注目度): 3.501477476787197
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Social platforms such as Reddit have a network of communities of shared interests, with a prevalence of posts and comments from which one can infer users' Personal Information Identifiers (PIIs). While such self-disclosures can lead to rewarding social interactions, they pose privacy risks and the threat of online harms. Research into the identification and retrieval of such risky self-disclosures of PIIs is hampered by the lack of open-source labeled datasets. To foster reproducible research into PII-revealing text detection, we develop a novel methodology to create synthetic equivalents of PII-revealing data that can be safely shared. Our contributions include creating a taxonomy of 19 PII-revealing categories for vulnerable populations and the creation and release of a synthetic PII-labeled multi-text span dataset generated from 3 text generation Large Language Models (LLMs), Llama2-7B, Llama3-8B, and zephyr-7b-beta, with sequential instruction prompting to resemble the original Reddit posts. The utility of our methodology to generate this synthetic dataset is evaluated with three metrics: First, we require reproducibility equivalence, i.e., results from training a model on the synthetic data should be comparable to those obtained by training the same models on the original posts. Second, we require that the synthetic data be unlinkable to the original users, through common mechanisms such as Google Search. Third, we wish to ensure that the synthetic data be indistinguishable from the original, i.e., trained humans should not be able to tell them apart. We release our dataset and code at https://netsys.surrey.ac.uk/datasets/synthetic-self-disclosure/ to foster reproducible research into PII privacy risks in online social media.
- Abstract(参考訳): Redditのようなソーシャルプラットフォームには、共通の関心を持つコミュニティのネットワークがあり、投稿やコメントの頻度が高く、そこからユーザの個人情報識別(PII)を推測できる。
このような自己開示は社会的相互作用の報奨につながる可能性があるが、プライバシーのリスクとオンライン被害の脅威を引き起こす。
このようなPIIのリスクの高い自己開示の識別と検索に関する研究は、オープンソースのラベル付きデータセットの欠如によって妨げられている。
PII回収テキスト検出における再現可能な研究を促進するために,安全な共有が可能なPII回収データの合成等価データを作成する新しい手法を開発した。
我々の貢献は、脆弱な集団に対する19のPII-Revealingカテゴリの分類の作成と、3つのテキスト生成Large Language Models (LLMs)、Llama2-7B、Llama3-8B、zephyr-7b-betaから生成された合成PII-labeled Multi-text spanデータセットの作成とリリースを含む。
この合成データセットを生成するための方法論の有用性は、3つの指標で評価される: まず、再現性 同値性、すなわち、合成データ上でモデルをトレーニングした結果は、元のポスト上で同じモデルをトレーニングした結果と同等であるべきである。
第二に、Google Searchのような一般的なメカニズムを通じて、合成データを元のユーザにリンクできないようにする必要があります。
第三に、私たちは、人工的なデータが元のものと区別できないこと、すなわち、訓練された人間がそれらを区別できないことを確実にしたいと考えています。
我々は、オンラインソーシャルメディアにおけるPIIプライバシーリスクに関する再現可能な研究を促進するために、https://netsys.surrey.ac.uk/datasets/synthetic-self-disclosure/でデータセットとコードを公開します。
関連論文リスト
- An Empirical Study of Validating Synthetic Data for Text-Based Person Retrieval [51.10419281315848]
我々は,テキストベース人検索(TBPR)研究における合成データの可能性を探るため,実証的研究を行った。
本稿では,自動プロンプト構築戦略を導入するクラス間画像生成パイプラインを提案する。
我々は、画像のさらなる編集に生成AIモデルを応用した、クラス内画像拡張パイプラインを開発する。
論文 参考訳(メタデータ) (2025-03-28T06:18:15Z) - Second FRCSyn-onGoing: Winning Solutions and Post-Challenge Analysis to Improve Face Recognition with Synthetic Data [104.30479583607918]
第2回FRCSyn-onGoingチャレンジは、CVPR 2024で開始された第2回顔認識チャレンジ(FRCSyn)に基づいている。
我々は、顔認識における現在の課題を解決するために、個々のデータと実際のデータの組み合わせの両方で合成データの利用を検討することに重点を置いている。
論文 参考訳(メタデータ) (2024-12-02T11:12:01Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Synthetic is all you need: removing the auxiliary data assumption for
membership inference attacks against synthetic data [9.061271587514215]
この仮定をどのように取り除くかを示し、MIAを合成データのみを用いて実行できるようにする。
その結果,MIAは実世界の2つのデータセットと2つの合成データジェネレータでまだ成功していることがわかった。
論文 参考訳(メタデータ) (2023-07-04T13:16:03Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Measuring Utility and Privacy of Synthetic Genomic Data [3.635321290763711]
人工ゲノムデータを生成するための5つの最先端モデルの実用性とプライバシ保護を最初に評価する。
全体として、ボード全体でうまく機能する合成ゲノムデータを生成するための単一のアプローチは存在しない。
論文 参考訳(メタデータ) (2021-02-05T17:41:01Z) - Fidelity and Privacy of Synthetic Medical Data [0.0]
医療記録のデジタル化は、新時代のビッグデータから臨床科学へとつながった。
個々のレベルの医療データを共有する必要性は増え続けており、これ以上緊急ではない。
ビッグデータの利用に対する熱意は、患者の自律性とプライバシに対する完全な適切な懸念によって誘惑された。
論文 参考訳(メタデータ) (2021-01-18T23:01:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。