Fugu-MT 論文翻訳(概要): Automated PII Extraction from Social Media for Raising Privacy Awareness: A Deep Transfer Learning Approach

論文の概要: Automated PII Extraction from Social Media for Raising Privacy Awareness: A Deep Transfer Learning Approach

arxiv url: http://arxiv.org/abs/2111.09415v1
Date: Thu, 11 Nov 2021 19:32:05 GMT
ステータス: 翻訳完了
システム内更新日: 2021-11-21 14:29:07.545092
Title: Automated PII Extraction from Social Media for Raising Privacy Awareness: A Deep Transfer Learning Approach
Title（参考訳）: プライバシ意識を高めるソーシャルメディアからのPII自動抽出:ディープトランスファー学習アプローチ
Authors: Yizhi Liu, Fang Yu Lin, Mohammadreza Ebrahimi, Weifeng Li, Hsinchun Chen
Abstract要約: インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。本研究では,これらの2つの制約に対処するために,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。我々のフレームワークは、PII誤用予測やプライバシーリスク評価など、様々なアプリケーションを容易にすることができる。
参考スコア（独自算出の注目度）: 6.806025738284367
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Internet users have been exposing an increasing amount of Personally Identifiable Information (PII) on social media. Such exposed PII can cause severe losses to the users, and informing users of their PII exposure is crucial to raise their privacy awareness and encourage them to take protective measures. To this end, advanced automatic techniques are needed. While Information Extraction (IE) techniques can be used to extract the PII automatically, Deep Learning (DL)-based IE models alleviate the need for feature engineering and further improve the efficiency. However, DL-based IE models often require large-scale labeled data for training, but PII-labeled social media posts are difficult to obtain due to privacy concerns. Also, these models rely heavily on pre-trained word embeddings, while PII in social media often varies in forms and thus has no fixed representations in pre-trained word embeddings. In this study, we propose the Deep Transfer Learning for PII Extraction (DTL-PIIE) framework to address these two limitations. DTL-PIIE transfers knowledge learned from publicly available PII data to social media to address the problem of rare PII-labeled data. Moreover, our framework leverages Graph Convolutional Networks (GCNs) to incorporate syntactic patterns to guide PIIE without relying on pre-trained word embeddings. Evaluation against benchmark IE models indicates that our approach outperforms state-of-the-art DL-based IE models. Our framework can facilitate various applications, such as PII misuse prediction and privacy risk assessment, protecting the privacy of internet users.
Abstract（参考訳）: インターネット利用者は、ソーシャルメディア上でPII(Personally Identible Information)の量を増やしている。このような暴露されたPIIは、ユーザに対して重大な損失を生じさせ、プライバシの意識を高め、保護措置を取るようユーザに伝えることが重要である。そのため、高度な自動技術が必要である。情報抽出(IE)技術はPIIを自動的に抽出するために用いられるが、ディープラーニング(DL)ベースのIEモデルは機能工学の必要性を軽減し、効率をさらに向上させる。しかし、DLベースのIEモデルでは、トレーニングには大規模なラベル付きデータを必要とすることが多いが、プライバシ上の懸念から、PIIラベルのソーシャルメディア投稿は入手が困難である。また、これらのモデルは事前訓練された単語埋め込みに大きく依存するが、ソーシャルメディアのPIIはしばしば形式によって異なり、事前訓練された単語埋め込みには固定表現がない。本研究では,これらの2つの制約に対処するため,PII抽出のためのDeep Transfer Learning(DTL-PIIE)フレームワークを提案する。 DTL-PIIEは、公開されているPIIデータから学んだ知識をソーシャルメディアに転送し、希少なPIIラベルデータの問題に対処する。さらに,グラフ畳み込みネットワーク(GCN)を活用して,事前学習した単語の埋め込みに頼ることなく,PIIEをガイドする構文パターンを組み込む。ベンチマークIEモデルに対する評価は、我々のアプローチが最先端のDLベースのIEモデルより優れていることを示している。当社のフレームワークは,PII誤用予測やプライバシリスク評価,インターネットユーザのプライバシ保護など,さまざまなアプリケーションを容易にする。

関連論文リスト

Privacy Ripple Effects from Adding or Removing Personal Information in Language Model Training [19.119349775283556]
PIIの量と容易性は、トレーニングパイプラインを通して進化するモデルの動的特性であることがわかった。 1) 訓練の後に見られる類似のPIIは, 覚醒と呼ばれる早期のシーケンスの記憶を引き出すことができる。
論文参考訳（メタデータ） (2025-02-21T18:59:14Z)
Effectiveness of L2 Regularization in Privacy-Preserving Machine Learning [1.4638393290666896]
業界が求める、優れたモデルは通常、大量のトレーニングデータに依存している。このようなデータを使用することで、機密性の高い情報の漏洩の潜在的なリスクにより、深刻なプライバシー上の懸念が生じる。本研究では,L2正則化と差分プライバシの有効性を,会員推論攻撃のリスクを軽減するために比較する。
論文参考訳（メタデータ） (2024-12-02T14:31:11Z)
Towards Robust and Cost-Efficient Knowledge Unlearning for Large Language Models [25.91643745340183]
大規模言語モデル(LLM)は、大量のテキストコーパスの事前学習を通じて、強い推論と記憶能力を示す。これはプライバシーと著作権侵害のリスクを生じさせ、効率的な機械学習手法の必要性を強調している。 LLMのための堅牢で効率的なアンラーニングのための2つの新しい手法を提案する。
論文参考訳（メタデータ） (2024-08-13T04:18:32Z)
Learn while Unlearn: An Iterative Unlearning Framework for Generative Language Models [52.03511469562013]
3つのコアコンポーネントで構成されるICU(Iterative Contrastive Unlearning)フレームワークを紹介する。知識未学習誘導モジュールは、未学習の損失を使用して、特定の知識を除去するためにターゲットとする。 Contrastive Learning Enhancementモジュールは、純粋な未学習の目標に対してモデルの表現力を保持する。イテレーティブ・アンラーニング・リファインメントモジュールは、進行中の評価と更新を通じて、アンラーニングプロセスを動的に調整する。
論文参考訳（メタデータ） (2024-07-25T07:09:35Z)
Unlearning Targeted Information via Single Layer Unlearning Gradient [15.374381635334897]
無許可のプライバシー関連計算は社会にとって重要な関心事である。 EUの一般保護規則には「忘れられる権利」が含まれている本研究では,SLUG(Single Layer Unlearning Gradient)を提案する。
論文参考訳（メタデータ） (2024-07-16T15:52:36Z)
Ungeneralizable Examples [70.76487163068109]
学習不能なデータを作成するための現在のアプローチには、小さくて特殊なノイズが組み込まれている。学習不能データの概念を条件付きデータ学習に拡張し、textbfUntextbf Generalizable textbfExamples (UGEs)を導入する。 UGEは認証されたユーザに対して学習性を示しながら、潜在的なハッカーに対する非学習性を維持している。
論文参考訳（メタデータ） (2024-04-22T09:29:14Z)
The Frontier of Data Erasure: Machine Unlearning for Large Language Models [56.26002631481726]
大規模言語モデル(LLM)はAIの進歩の基礎となっている。 LLMは機密情報、偏見情報、著作権情報を記憶し、広めることによってリスクを生じさせる。機械学習は、これらの懸念を軽減するための最先端のソリューションとして現れます。
論文参考訳（メタデータ） (2024-03-23T09:26:15Z)
Rethinking Privacy in Machine Learning Pipelines from an Information Flow Control Perspective [16.487545258246932]
現代の機械学習システムは、成長を続けるコーパスで訓練されたモデルを使用する。オーナシップ、アクセス制御、ライセンス情報などのメタデータは、トレーニング中に無視される。情報フロー制御の観点から機械学習システムを記述する。
論文参考訳（メタデータ） (2023-11-27T13:14:39Z)
ProPILE: Probing Privacy Leakage in Large Language Models [38.92840523665835]
大規模言語モデル(LLM)は、しばしば大量のWebコンパイルデータに基づいて訓練される。本稿では,PII リークの可能性を意識して,データ被写体や PII の所有者を支援する新しい探索ツールである ProPILE について述べる。
論文参考訳（メタデータ） (2023-07-04T18:53:47Z)
Incentivising the federation: gradient-based metrics for data selection and valuation in private decentralised training [15.233103072063951]
本研究では,個人トレーニングの参加者が共同学習モデルに最も有用なデータを選択するために,勾配情報を活用する方法について検討する。これらの技術は、より厳密なプライバシー設定であっても、フェデレートされたクライアントに、原則化されたデータ選択のためのツールを提供することができることを示す。
論文参考訳（メタデータ） (2023-05-04T15:44:56Z)
A Survey of Machine Unlearning [56.017968863854186]
最近の規制では、要求に応じて、ユーザに関する個人情報をコンピュータシステムから削除する必要がある。 MLモデルは古いデータをよく記憶します。機械学習に関する最近の研究は、この問題を完全に解決することはできなかった。
論文参考訳（メタデータ） (2022-09-06T08:51:53Z)
Deep Reinforcement Learning Assisted Federated Learning Algorithm for Data Management of IIoT [82.33080550378068]
産業用IoT(Industrial Internet of Things)の継続的な拡大により、IIoT機器は毎回大量のユーザデータを生成する。 IIoTの分野で、これらの時系列データを効率的かつ安全な方法で管理する方法は、依然として未解決の問題である。本稿では,無線ネットワーク環境におけるIIoT機器データ管理におけるFL技術の適用について検討する。
論文参考訳（メタデータ） (2022-02-03T07:12:36Z)
Attribute Inference Attack of Speech Emotion Recognition in Federated Learning Settings [56.93025161787725]
Federated Learning(FL)は、クライアントをコーディネートして、ローカルデータを共有せずにモデルを協調的にトレーニングする分散機械学習パラダイムである。本稿では,共有勾配やモデルパラメータからクライアントの機密属性情報を推測する属性推論攻撃フレームワークを提案する。 FLを用いて学習したSERシステムに対して,属性推論攻撃が達成可能であることを示す。
論文参考訳（メタデータ） (2021-12-26T16:50:42Z)
Distributed Machine Learning and the Semblance of Trust [66.1227776348216]
フェデレートラーニング(FL)により、データ所有者はデータを共有することなく、データガバナンスを維持し、モデルトレーニングをローカルで行うことができる。 FLと関連する技術は、しばしばプライバシー保護と表現される。この用語が適切でない理由を説明し、プライバシの形式的定義を念頭に設計されていないプロトコルに対する過度な信頼に関連するリスクを概説する。
論文参考訳（メタデータ） (2021-12-21T08:44:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。