論文の概要: Automated PII Extraction from Social Media for Raising Privacy
Awareness: A Deep Transfer Learning Approach
- arxiv url: http://arxiv.org/abs/2111.09415v1
- Date: Thu, 11 Nov 2021 19:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-21 14:29:07.545092
- Title: Automated PII Extraction from Social Media for Raising Privacy
Awareness: A Deep Transfer Learning Approach
- Title(参考訳): プライバシ意識を高めるソーシャルメディアからのPII自動抽出:ディープトランスファー学習アプローチ
- Authors: Yizhi Liu, Fang Yu Lin, Mohammadreza Ebrahimi, Weifeng Li, Hsinchun
Chen
- Abstract要約: インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。
本研究では,これらの2つの制約に対処するために,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。
我々のフレームワークは、PII誤用予測やプライバシーリスク評価など、様々なアプリケーションを容易にすることができる。
- 参考スコア(独自算出の注目度): 6.806025738284367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Internet users have been exposing an increasing amount of Personally
Identifiable Information (PII) on social media. Such exposed PII can cause
severe losses to the users, and informing users of their PII exposure is
crucial to raise their privacy awareness and encourage them to take protective
measures. To this end, advanced automatic techniques are needed. While
Information Extraction (IE) techniques can be used to extract the PII
automatically, Deep Learning (DL)-based IE models alleviate the need for
feature engineering and further improve the efficiency. However, DL-based IE
models often require large-scale labeled data for training, but PII-labeled
social media posts are difficult to obtain due to privacy concerns. Also, these
models rely heavily on pre-trained word embeddings, while PII in social media
often varies in forms and thus has no fixed representations in pre-trained word
embeddings. In this study, we propose the Deep Transfer Learning for PII
Extraction (DTL-PIIE) framework to address these two limitations. DTL-PIIE
transfers knowledge learned from publicly available PII data to social media to
address the problem of rare PII-labeled data. Moreover, our framework leverages
Graph Convolutional Networks (GCNs) to incorporate syntactic patterns to guide
PIIE without relying on pre-trained word embeddings. Evaluation against
benchmark IE models indicates that our approach outperforms state-of-the-art
DL-based IE models. Our framework can facilitate various applications, such as
PII misuse prediction and privacy risk assessment, protecting the privacy of
internet users.
- Abstract(参考訳): インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。
このような暴露されたPIIは、ユーザに対して重大な損失を生じさせ、プライバシの意識を高め、保護措置を取るようユーザに伝えることが重要である。
そのため、高度な自動技術が必要である。
情報抽出(IE)技術はPIIを自動的に抽出するために用いられるが、ディープラーニング(DL)ベースのIEモデルは機能工学の必要性を軽減し、効率をさらに向上させる。
しかし、DLベースのIEモデルでは、トレーニングには大規模なラベル付きデータを必要とすることが多いが、プライバシ上の懸念から、PIIラベルのソーシャルメディア投稿は入手が困難である。
また、これらのモデルは事前訓練された単語埋め込みに大きく依存するが、ソーシャルメディアのPIIはしばしば形式によって異なり、事前訓練された単語埋め込みには固定表現がない。
本研究では,これらの2つの制約に対処するため,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。
DTL-PIIEは、公開されているPIIデータから学んだ知識をソーシャルメディアに転送し、希少なPIIラベルデータの問題に対処する。
さらに,グラフ畳み込みネットワーク(GCN)を活用して,事前学習した単語の埋め込みに頼ることなく,PIIEをガイドする構文パターンを組み込む。
ベンチマークIEモデルに対する評価は、我々のアプローチが最先端のDLベースのIEモデルより優れていることを示している。
当社のフレームワークは,PII誤用予測やプライバシリスク評価,インターネットユーザのプライバシ保護など,さまざまなアプリケーションを容易にする。
関連論文リスト
- Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective [16.487545258246932]
現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
オーナシップ、アクセス制御、ライセンス情報などのメタデータは、トレーニング中に無視される。
情報フロー制御の観点から機械学習システムを記述する。
論文 参考訳(メタデータ) (2023-11-27T13:14:39Z) - The Janus Interface: How Fine-Tuning in Large Language Models Amplifies
the Privacy Risks [18.04249592281006]
本稿では,この問題に対する最初の解決策,特にJanus 攻撃と呼ばれる新たな LLM 攻撃経路の発見について報告する。
以上の結果より, GPT-3.5 などの LLM が不透過性からPII 抽出に移行できることが示唆された。
本研究は,LLMユーティリティとプライバシ保護との間の複雑な相互作用をナビゲートする上での必須事項であることを示す。
論文 参考訳(メタデータ) (2023-10-24T02:48:19Z) - TeD-SPAD: Temporal Distinctiveness for Self-supervised
Privacy-preservation for video Anomaly Detection [59.04634695294402]
人間の監視のないビデオ異常検出(VAD)は複雑なコンピュータビジョンタスクである。
VADのプライバシー漏洩により、モデルは人々の個人情報に関連する不必要なバイアスを拾い上げ、増幅することができる。
本稿では,視覚的プライベート情報を自己管理的に破壊する,プライバシーに配慮したビデオ異常検出フレームワークTeD-SPADを提案する。
論文 参考訳(メタデータ) (2023-08-21T22:42:55Z) - ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。
本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文 参考訳(メタデータ) (2023-07-04T18:53:47Z) - Towards Generalizable Data Protection With Transferable Unlearnable
Examples [50.628011208660645]
本稿では、転送不可能な例を生成することによって、新しい一般化可能なデータ保護手法を提案する。
私たちの知る限りでは、これはデータ分散の観点からデータのプライバシを調べる最初のソリューションです。
論文 参考訳(メタデータ) (2023-05-18T04:17:01Z) - Exploring the Landscape of Machine Unlearning: A Comprehensive Survey
and Taxonomy [17.535417441295074]
機械学習(ML)モデルによる予測の削除や修正の必要性から、機械学習(MU)が注目を集めている。
本稿では,現在の最先端技術とアプローチを網羅したMUの包括的調査を行う。
また、攻撃の高度化、標準化、転送可能性、解釈可能性、リソース制約など、対処すべき課題を強調している。
論文 参考訳(メタデータ) (2023-05-10T12:02:18Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z) - Privileged Knowledge Distillation for Online Action Detection [114.5213840651675]
リアルタイム予測タスクに対処するフレーム単位のラベル付けタスクとして,ビデオ中のオンラインアクション検出(OAD)を提案する。
本稿では,トレーニング段階においてのみ観測可能な未来のフレームを特権情報の一種とみなすオンライン行動検出のための,新たな学習支援型フレームワークを提案する。
論文 参考訳(メタデータ) (2020-11-18T08:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。