論文の概要: Sensitive Information Detection: Recursive Neural Networks for Encoding
Context
- arxiv url: http://arxiv.org/abs/2008.10863v1
- Date: Tue, 25 Aug 2020 07:49:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 03:07:15.632985
- Title: Sensitive Information Detection: Recursive Neural Networks for Encoding
Context
- Title(参考訳): 感性情報検出:コンテキストの符号化のための再帰的ニューラルネットワーク
- Authors: Jan Neerbek
- Abstract要約: 機密情報の漏洩は非常にコストがかかる可能性がある。
感度情報を検出するための簡易で脆いルールセットは、実際の感度情報のごく一部しか見つからないことを示す。
我々は,ラベル付き事例へのアクセスのみを前提とした,機密情報検出手法の新たなファミリーを開発する。
- 参考スコア(独自算出の注目度): 0.20305676256390928
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The amount of data for processing and categorization grows at an ever
increasing rate. At the same time the demand for collaboration and transparency
in organizations, government and businesses, drives the release of data from
internal repositories to the public or 3rd party domain. This in turn increase
the potential of sharing sensitive information. The leak of sensitive
information can potentially be very costly, both financially for organizations,
but also for individuals. In this work we address the important problem of
sensitive information detection. Specially we focus on detection in
unstructured text documents.
We show that simplistic, brittle rule sets for detecting sensitive
information only find a small fraction of the actual sensitive information.
Furthermore we show that previous state-of-the-art approaches have been
implicitly tailored to such simplistic scenarios and thus fail to detect actual
sensitive content. We develop a novel family of sensitive information detection
approaches which only assumes access to labeled examples, rather than
unrealistic assumptions such as access to a set of generating rules or
descriptive topical seed words. Our approaches are inspired by the current
state-of-the-art for paraphrase detection and we adapt deep learning approaches
over recursive neural networks to the problem of sensitive information
detection. We show that our context-based approaches significantly outperforms
the family of previous state-of-the-art approaches for sensitive information
detection, so-called keyword-based approaches, on real-world data and with
human labeled examples of sensitive and non-sensitive documents.
- Abstract(参考訳): 処理と分類のためのデータの量は、ますます増加するペースで増加する。
同時に、組織、政府、企業におけるコラボレーションと透明性の要求は、内部リポジトリからパブリックまたはサードパーティドメインへのデータの公開を推進します。
これにより、機密情報を共有できる可能性が高まる。
機密情報の漏洩は、組織にとっても個人にとっても経済的にも非常にコストがかかる可能性がある。
本研究ではセンシティブな情報検出の重要な問題に対処する。
特に,構造化されていないテキスト文書の検出に注目する。
感度情報を検出するための簡易で脆いルールセットは、実際の感度情報のごく一部しか見つからないことを示す。
さらに,従来の最先端のアプローチは,このような単純なシナリオに暗黙的に調整されているため,実際のセンシティブなコンテンツの検出に失敗していることを示す。
我々は,生成規則のセットや記述的話題語へのアクセスといった非現実的な仮定ではなく,ラベル付き例へのアクセスのみを前提とした,センシティブな情報検出手法の新たなファミリーを開発した。
我々のアプローチはパラフレーゼ検出の現状に触発され、再帰的ニューラルネットワークに対するディープラーニングアプローチをセンシティブな情報検出問題に適用する。
我々の文脈ベースアプローチは,センシティブな情報検出,いわゆるキーワードベースアプローチ,実世界データ,および人間ラベル付きセンシティブで非センシティブな文書の例において,これまでの最先端の手法のファミリーを大きく上回っていることを示す。
関連論文リスト
- Protecting Activity Sensing Data Privacy Using Hierarchical Information Dissociation [8.584570228761503]
スマートフォンやウェアラブルデバイスは私たちの日常生活に統合され、パーソナライズされたサービスを提供している。
多くのアプリは、収集されたセンシングデータが不必要な機密情報を含んでいるため、過小評価される。
既存の方法はプライベートラベルを取得しなければならず、ユーザーはプライバシポリシーを指定する必要がある。
プライベートメタデータや多粒度アクティビティ情報を含む階層情報を解離するために,Hippoを提案する。
論文 参考訳(メタデータ) (2024-09-04T15:38:00Z) - KiNETGAN: Enabling Distributed Network Intrusion Detection through Knowledge-Infused Synthetic Data Generation [0.0]
合成ネットワーク活動データ(KiNETGAN)を生成するための知識注入型ジェネレーティブ・アドバイサル・ネットワークを提案する。
弊社のアプローチは、プライバシー問題に対処しながら、分散侵入検知のレジリエンスを高める。
論文 参考訳(メタデータ) (2024-05-26T08:02:02Z) - Decouple-and-Sample: Protecting sensitive information in task agnostic
data release [17.398889291769986]
sanitizerはセキュアでタスクに依存しないデータリリースのためのフレームワークである。
機密情報をプライベートに合成できれば、より優れたプライバシーとユーティリティのトレードオフが達成できることを示す。
論文 参考訳(メタデータ) (2022-03-17T19:15:33Z) - Reinforcement Learning on Encrypted Data [58.39270571778521]
本稿では,DQNエージェントが,離散的かつ連続的な状態空間を持つ環境でどのように動作するかを予備的,実験的に検討する。
その結果,非決定論的暗号が存在する場合でも,エージェントは依然として小さな状態空間で学習することができるが,より複雑な環境では性能が低下することがわかった。
論文 参考訳(メタデータ) (2021-09-16T21:59:37Z) - Unsupervised Domain Adaption of Object Detectors: A Survey [87.08473838767235]
近年のディープラーニングの進歩は、様々なコンピュータビジョンアプリケーションのための正確で効率的なモデルの開発につながっている。
高度に正確なモデルを学ぶには、大量の注釈付きイメージを持つデータセットの可用性に依存する。
このため、ラベルスカースデータセットに視覚的に異なる画像がある場合、モデルの性能は大幅に低下する。
論文 参考訳(メタデータ) (2021-05-27T23:34:06Z) - DISCO: Dynamic and Invariant Sensitive Channel Obfuscation for deep
neural networks [19.307753802569156]
特徴空間における機密情報を選択的に難読化するための動的およびデータ駆動型プルーニングフィルタを学習するdisCOを提案する。
また,100万のセンシティブ表現を用いた評価ベンチマークデータセットをリリースし,新たな攻撃手法の厳格な探索を奨励する。
論文 参考訳(メタデータ) (2020-12-20T21:15:13Z) - Predicting Themes within Complex Unstructured Texts: A Case Study on
Safeguarding Reports [66.39150945184683]
本稿では,教師付き分類手法を用いた保護レポートにおいて,主テーマの自動識別の問題に焦点をあてる。
この結果から,ラベル付きデータに制限のある複雑なタスクであっても,深層学習モデルが対象知識の振る舞いをシミュレートする可能性が示唆された。
論文 参考訳(メタデータ) (2020-10-27T19:48:23Z) - Weakly-supervised Salient Instance Detection [65.0408760733005]
本報告では,本問題に対する第1の弱教師付きアプローチを提案する。
本稿では,候補対象の特定にクラス整合性情報を活用するSaliency Detection Branch,オブジェクト境界をデライン化するためにクラス整合性情報を利用するBundary Detection Branch,サブティナイズ情報を用いたCentroid Detection Branchを提案する。
論文 参考訳(メタデータ) (2020-09-29T09:47:23Z) - Information Obfuscation of Graph Neural Networks [96.8421624921384]
本稿では,グラフ構造化データを用いた学習において,情報難読化による機密属性保護の問題について検討する。
本稿では,全変動量とワッサーシュタイン距離を交互に学習することで,事前決定された機密属性を局所的にフィルタリングするフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-28T17:55:04Z) - Survey of Network Intrusion Detection Methods from the Perspective of
the Knowledge Discovery in Databases Process [63.75363908696257]
本稿では,侵入検知器の開発を目的として,ネットワークデータに適用された手法について概説する。
本稿では,データのキャプチャ,準備,変換,データマイニング,評価などの手法について論じる。
この文献レビューの結果、ネットワークセキュリティ分野のさらなる研究のために考慮すべきいくつかのオープンな問題について検討する。
論文 参考訳(メタデータ) (2020-01-27T11:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。