論文の概要: Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and
Classifying Sensitive Personal Data
- arxiv url: http://arxiv.org/abs/2208.06216v1
- Date: Fri, 12 Aug 2022 10:57:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 12:55:30.475524
- Title: Is Your Model Sensitive? SPeDaC: A New Benchmark for Detecting and
Classifying Sensitive Personal Data
- Title(参考訳): あなたのモデルは敏感か?
spedac: センシティブな個人データの検出と分類のための新しいベンチマーク
- Authors: Gaia Gambarelli, Aldo Gangemi, Rocco Tripodi
- Abstract要約: 近年,機密情報を扱う対話システムを含むアプリケーションの増加が急速に進んでいる。
これにより、仮想環境における個人データ保護に関する極めて重要な問題が浮き彫りになった。
我々は、機密データカテゴリを識別するための新しい注釈付きベンチマークSPeDaCを紹介する。
- 参考スコア(独自算出の注目度): 6.116879264068727
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years we have seen the exponential growth of applications,
including dialogue systems, that handle sensitive personal information. This
has brought to light the extremely important issue regarding personal data
protection in virtual environments. Firstly, a performing model should be able
to distinguish sentences with sensitive content from neutral sentences.
Secondly, it should be able to identify the type of personal data category
contained in them. In this way, a different privacy treatment could be
considered for each category. In literature, if there are works on automatic
sensitive data identification, these are often conducted on different domains
or languages without a common benchmark. To fill this gap, in this work we
introduce SPeDaC, a new annotated benchmark for the identification of sensitive
personal data categories. Furthermore, we provide an extensive evaluation of
our dataset, conducted using different baselines and a classifier based on
RoBERTa, a neural architecture that achieves strong performances on the
detection of sensitive sentences and on the personal data categories
classification.
- Abstract(参考訳): 近年、機密性の高い個人情報を扱う対話システムを含むアプリケーションの数は指数関数的に増加している。
これにより、仮想環境における個人データ保護に関する極めて重要な問題が明らかになった。
第一に、実行モデルは、センシティブな内容の文章と中立な文を区別できるべきである。
第二に、それらに含まれる個人データカテゴリのタイプを識別できる必要がある。
このようにして、各カテゴリごとに異なるプライバシー待遇を考えることができる。
文献では、自動センシティブなデータ識別に関する作業がある場合、共通ベンチマークなしで異なるドメインや言語で実行されることが多い。
このギャップを埋めるために、本稿では、機密データカテゴリを識別するための新しい注釈付きベンチマークであるSPeDaCを紹介します。
さらに、異なるベースラインとRoBERTaに基づく分類器を用いて、センシティブな文の検出と個人データカテゴリの分類に強い性能を発揮するニューラルネットワークを用いて、データセットを広範囲に評価する。
関連論文リスト
- Sensitive Content Classification in Social Media: A Holistic Resource and Evaluation [15.355814393928707]
6つのカテゴリにまたがるソーシャルメディアコンテンツモデレーションに適した統合データセットを提案しました。
これには、矛盾する言語、暴言、性的明示的な材料、薬物関連コンテンツ、自傷行為、スパムが含まれる。
この新たなデータセットを微調整した大規模言語モデルでは,市販のモデルに比べて検出性能が大幅に向上した。
論文 参考訳(メタデータ) (2024-11-29T16:44:02Z) - Identifying Privacy Personas [27.301741710016223]
プライバシ・ペルソナは、自身の知識、行動パターン、自己効力度レベル、プライバシ保護の重要性に対する認識に関して、ユーザセグメントの違いを捉えている。
文学では様々なプライバシ・ペルソナが派生しているが、重要な属性の観点から異なる人物をまとめている。
本研究では,対話型教育アンケートに対する質的,定量的な回答分析を組み合わせることで導出する8つのペルソナを提案する。
論文 参考訳(メタデータ) (2024-10-17T20:49:46Z) - Footprints of Data in a Classifier Model: The Privacy Issues and Their Mitigation through Data Obfuscation [0.9208007322096533]
トレーニングデータのフットプリントを 予測モデルに埋め込むことは
テストデータとトレーニングデータのパフォーマンス品質の違いは、モデルをトレーニングしたデータの受動的識別を引き起こす。
この研究は、データフットプリントから生じる脆弱性に対処することに焦点を当てている。
論文 参考訳(メタデータ) (2024-07-02T13:56:37Z) - Towards Open-Domain Topic Classification [69.21234350688098]
ユーザが定義した分類をリアルタイムで受け入れるオープンドメイントピック分類システムを導入する。
ユーザは、任意の候補ラベルに対してテキストスニペットを分類し、Webインターフェースから即座にレスポンスを受け取ることができます。
論文 参考訳(メタデータ) (2023-06-29T20:25:28Z) - How Do Input Attributes Impact the Privacy Loss in Differential Privacy? [55.492422758737575]
DPニューラルネットワークにおけるオブジェクトごとの規範と個人のプライバシ損失との関係について検討する。
プライバシ・ロス・インプット・サセプティビリティ(PLIS)と呼ばれる新しい指標を導入し、被験者のプライバシ・ロスを入力属性に適応させることを可能にした。
論文 参考訳(メタデータ) (2022-11-18T11:39:03Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Uncertainty-Autoencoder-Based Privacy and Utility Preserving Data Type
Conscious Transformation [3.7315964084413173]
プライバシ・ユーティリティのトレードオフ問題に対処する逆学習フレームワークを2つの条件で提案する。
データタイプの無知な条件下では、プライバシメカニズムは、正確に1つのクラスを表す、カテゴリ機能の1ホットエンコーディングを提供する。
データ型認識条件下では、分類変数は各クラスごとに1つのスコアの集合で表される。
論文 参考訳(メタデータ) (2022-05-04T08:40:15Z) - Partial sensitivity analysis in differential privacy [58.730520380312676]
それぞれの入力特徴が個人のプライバシ損失に与える影響について検討する。
プライベートデータベース上でのクエリに対する我々のアプローチを実験的に評価する。
また、合成データにおけるニューラルネットワークトレーニングの文脈における知見についても検討する。
論文 参考訳(メタデータ) (2021-09-22T08:29:16Z) - DISCO: Dynamic and Invariant Sensitive Channel Obfuscation for deep
neural networks [19.307753802569156]
特徴空間における機密情報を選択的に難読化するための動的およびデータ駆動型プルーニングフィルタを学習するdisCOを提案する。
また,100万のセンシティブ表現を用いた評価ベンチマークデータセットをリリースし,新たな攻撃手法の厳格な探索を奨励する。
論文 参考訳(メタデータ) (2020-12-20T21:15:13Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Differentially Private and Fair Deep Learning: A Lagrangian Dual
Approach [54.32266555843765]
本稿では,個人の機密情報のプライバシを保護するとともに,非差別的予測器の学習を可能にするモデルについて検討する。
この方法は、微分プライバシーの概念と、公正性制約を満たすニューラルネットワークの設計にラグランジアン双対性(Lagrangian duality)を用いることに依存している。
論文 参考訳(メタデータ) (2020-09-26T10:50:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。