論文の概要: Automated PII Extraction from Social Media for Raising Privacy
Awareness: A Deep Transfer Learning Approach
- arxiv url: http://arxiv.org/abs/2111.09415v1
- Date: Thu, 11 Nov 2021 19:32:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-21 14:29:07.545092
- Title: Automated PII Extraction from Social Media for Raising Privacy
Awareness: A Deep Transfer Learning Approach
- Title(参考訳): プライバシ意識を高めるソーシャルメディアからのPII自動抽出:ディープトランスファー学習アプローチ
- Authors: Yizhi Liu, Fang Yu Lin, Mohammadreza Ebrahimi, Weifeng Li, Hsinchun
Chen
- Abstract要約: インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。
本研究では,これらの2つの制約に対処するために,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。
我々のフレームワークは、PII誤用予測やプライバシーリスク評価など、様々なアプリケーションを容易にすることができる。
- 参考スコア(独自算出の注目度): 6.806025738284367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Internet users have been exposing an increasing amount of Personally
Identifiable Information (PII) on social media. Such exposed PII can cause
severe losses to the users, and informing users of their PII exposure is
crucial to raise their privacy awareness and encourage them to take protective
measures. To this end, advanced automatic techniques are needed. While
Information Extraction (IE) techniques can be used to extract the PII
automatically, Deep Learning (DL)-based IE models alleviate the need for
feature engineering and further improve the efficiency. However, DL-based IE
models often require large-scale labeled data for training, but PII-labeled
social media posts are difficult to obtain due to privacy concerns. Also, these
models rely heavily on pre-trained word embeddings, while PII in social media
often varies in forms and thus has no fixed representations in pre-trained word
embeddings. In this study, we propose the Deep Transfer Learning for PII
Extraction (DTL-PIIE) framework to address these two limitations. DTL-PIIE
transfers knowledge learned from publicly available PII data to social media to
address the problem of rare PII-labeled data. Moreover, our framework leverages
Graph Convolutional Networks (GCNs) to incorporate syntactic patterns to guide
PIIE without relying on pre-trained word embeddings. Evaluation against
benchmark IE models indicates that our approach outperforms state-of-the-art
DL-based IE models. Our framework can facilitate various applications, such as
PII misuse prediction and privacy risk assessment, protecting the privacy of
internet users.
- Abstract(参考訳): インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。
このような暴露されたPIIは、ユーザに対して重大な損失を生じさせ、プライバシの意識を高め、保護措置を取るようユーザに伝えることが重要である。
そのため、高度な自動技術が必要である。
情報抽出(IE)技術はPIIを自動的に抽出するために用いられるが、ディープラーニング(DL)ベースのIEモデルは機能工学の必要性を軽減し、効率をさらに向上させる。
しかし、DLベースのIEモデルでは、トレーニングには大規模なラベル付きデータを必要とすることが多いが、プライバシ上の懸念から、PIIラベルのソーシャルメディア投稿は入手が困難である。
また、これらのモデルは事前訓練された単語埋め込みに大きく依存するが、ソーシャルメディアのPIIはしばしば形式によって異なり、事前訓練された単語埋め込みには固定表現がない。
本研究では,これらの2つの制約に対処するため,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。
DTL-PIIEは、公開されているPIIデータから学んだ知識をソーシャルメディアに転送し、希少なPIIラベルデータの問題に対処する。
さらに,グラフ畳み込みネットワーク(GCN)を活用して,事前学習した単語の埋め込みに頼ることなく,PIIEをガイドする構文パターンを組み込む。
ベンチマークIEモデルに対する評価は、我々のアプローチが最先端のDLベースのIEモデルより優れていることを示している。
当社のフレームワークは,PII誤用予測やプライバシリスク評価,インターネットユーザのプライバシ保護など,さまざまなアプリケーションを容易にする。
関連論文リスト
- Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。
これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。
LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
論文 参考訳(メタデータ) (2024-08-13T04:18:32Z) - Unlearning Targeted Information via Single Layer Unlearning Gradient [15.374381635334897]
無許可のプライバシー関連計算は社会にとって重要な関心事である。
EUの一般保護規則には「忘れられる権利」が含まれている
本研究では,SLUG(Single Layer Unlearning Gradient)を提案する。
論文 参考訳(メタデータ) (2024-07-16T15:52:36Z) - Ungeneralizable Examples [70.76487163068109]
学習不能なデータを作成するための現在のアプローチには、小さくて特殊なノイズが組み込まれている。
学習不能データの概念を条件付きデータ学習に拡張し、textbfUntextbf Generalizable textbfExamples (UGEs)を導入する。
UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
論文 参考訳(メタデータ) (2024-04-22T09:29:14Z) - The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。
LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。
機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文 参考訳(メタデータ) (2024-03-23T09:26:15Z) - Rethinking Privacy in Machine Learning Pipelines from an Information
Flow Control Perspective [16.487545258246932]
現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。
オーナシップ、アクセス制御、ライセンス情報などのメタデータは、トレーニング中に無視される。
情報フロー制御の観点から機械学習システムを記述する。
論文 参考訳(メタデータ) (2023-11-27T13:14:39Z) - ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。
本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文 参考訳(メタデータ) (2023-07-04T18:53:47Z) - Incentivising the federation: gradient-based metrics for data selection and valuation in private decentralised training [15.233103072063951]
本研究では,個人トレーニングの参加者が共同学習モデルに最も有用なデータを選択するために,勾配情報を活用する方法について検討する。
これらの技術は、より厳密なプライバシー設定であっても、フェデレートされたクライアントに、原則化されたデータ選択のためのツールを提供することができることを示す。
論文 参考訳(メタデータ) (2023-05-04T15:44:56Z) - A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。
MLモデルは古いデータをよく記憶します。
機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文 参考訳(メタデータ) (2022-09-06T08:51:53Z) - Deep Reinforcement Learning Assisted Federated Learning Algorithm for
Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。
IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。
本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文 参考訳(メタデータ) (2022-02-03T07:12:36Z) - Attribute Inference Attack of Speech Emotion Recognition in Federated
Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。
本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。
FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文 参考訳(メタデータ) (2021-12-26T16:50:42Z) - Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。
FLと関連する技術は、しばしばプライバシー保護と表現される。
この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文 参考訳(メタデータ) (2021-12-21T08:44:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。