論文の概要: A Multi-input Multi-output Transformer-based Hybrid Neural Network for
Multi-class Privacy Disclosure Detection
- arxiv url: http://arxiv.org/abs/2108.08483v2
- Date: Fri, 20 Aug 2021 18:09:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-24 11:28:59.924396
- Title: A Multi-input Multi-output Transformer-based Hybrid Neural Network for
Multi-class Privacy Disclosure Detection
- Title(参考訳): 多入力多出力トランスベースハイブリッドニューラルネットワークによる多クラスプライバシー開示検出
- Authors: A K M Nuhil Mehdy, Hoda Mehrpouyan
- Abstract要約: 本稿では,伝達学習,言語学,メタデータを用いて隠れパターンを学習するマルチインプット・マルチアウトプットハイブリッドニューラルネットワークを提案する。
我々は,5,400のツイートを含む人間の注釈付き真実データセットを用いて,我々のモデルを訓練し,評価した。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The concern regarding users' data privacy has risen to its highest level due
to the massive increase in communication platforms, social networking sites,
and greater users' participation in online public discourse. An increasing
number of people exchange private information via emails, text messages, and
social media without being aware of the risks and implications. Researchers in
the field of Natural Language Processing (NLP) have concentrated on creating
tools and strategies to identify, categorize, and sanitize private information
in text data since a substantial amount of data is exchanged in textual form.
However, most of the detection methods solely rely on the existence of
pre-identified keywords in the text and disregard the inference of the
underlying meaning of the utterance in a specific context. Hence, in some
situations, these tools and algorithms fail to detect disclosure, or the
produced results are miss-classified. In this paper, we propose a multi-input,
multi-output hybrid neural network which utilizes transfer-learning,
linguistics, and metadata to learn the hidden patterns. Our goal is to better
classify disclosure/non-disclosure content in terms of the context of
situation. We trained and evaluated our model on a human-annotated ground truth
dataset, containing a total of 5,400 tweets. The results show that the proposed
model was able to identify privacy disclosure through tweets with an accuracy
of 77.4% while classifying the information type of those tweets with an
impressive accuracy of 99%, by jointly learning for two separate tasks.
- Abstract(参考訳): ユーザのデータプライバシに関する懸念は,コミュニケーションプラットフォームやソーシャルネットワークサイトの増加,オンライン公開談話へのユーザの参加の増加などにより,最高水準に達している。
リスクや影響を意識せずに、電子メール、テキストメッセージ、ソーシャルメディアを通じて個人情報を交換する人が増えている。
自然言語処理(NLP)分野の研究者は、大量のデータがテキスト形式で交換されるため、テキストデータのプライベート情報を識別、分類、衛生化するためのツールと戦略の開発に集中している。
しかし, 検出手法の多くは, テキスト中の事前識別キーワードの存在にのみ依存しており, 特定の文脈における発話の基本的な意味の推測を無視している。
したがって、いくつかの状況では、これらのツールとアルゴリズムは開示を検知できず、結果が誤分類される。
本稿では,伝達学習,言語学,メタデータを用いて隠れパターンを学習するマルチインプット・マルチアウトプットハイブリッドニューラルネットワークを提案する。
我々の目標は、状況の文脈で、開示/非開示コンテンツの分類を改善することである。
我々は5400のツイートを含む人間の注釈付き地上真理データセットでモデルを訓練し、評価した。
その結果,提案モデルでは2つのタスクを共同で学習することで,77.4%の精度でツイートによるプライバシー開示を識別でき,その情報タイプを99%の印象的な精度で分類することができた。
関連論文リスト
- NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - When Graph Convolution Meets Double Attention: Online Privacy Disclosure Detection with Multi-Label Text Classification [6.700420953065072]
影響を受ける人々やオンラインプラットフォームに警告する上で、このような望ましくないプライバシー開示を検出することが重要です。
本稿では,多ラベルテキスト分類問題としてプライバシ開示検出をモデル化する。
オンラインプライバシ開示を検出するMLTC分類器を構築するために,新たなプライバシ開示検出モデルを提案する。
論文 参考訳(メタデータ) (2023-11-27T15:25:17Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Hate Speech and Offensive Language Detection using an Emotion-aware
Shared Encoder [1.8734449181723825]
ヘイトスピーチと攻撃的言語検出に関する既存の研究は、事前学習されたトランスフォーマーモデルに基づいて有望な結果をもたらす。
本稿では,他コーパスから抽出した外的感情特徴を組み合わせたマルチタスク共同学習手法を提案する。
以上の結果から,感情的な知識が,データセット間のヘイトスピーチや攻撃的言語をより確実に識別する上で有効であることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:31:06Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Differentially Private Language Models for Secure Data Sharing [19.918137395199224]
本稿では,生成言語モデルを個別に学習し,その結果を抽出する方法について述べる。
自然言語のプロンプトと新しいプロンプトミスマッチの損失を用いることで、高度に正確で流動的なテキストデータセットを作成できる。
我々は、我々の合成データセットが元のデータから情報を漏らさず、言語質が高いことを示す徹底的な実験を行う。
論文 参考訳(メタデータ) (2022-10-25T11:12:56Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - You Are What You Write: Preserving Privacy in the Era of Large Language
Models [2.3431670397288005]
本稿では,様々な人気モデルを用いて,事前学習された表現に符号化された個人情報の範囲について,実証的研究を行う。
モデルの複雑さ,事前学習に使用するデータ量,およびデータ漏洩との間には,正の相関関係を示す。
論文 参考訳(メタデータ) (2022-04-20T11:12:53Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - TIPRDC: Task-Independent Privacy-Respecting Data Crowdsourcing Framework
for Deep Learning with Anonymized Intermediate Representations [49.20701800683092]
本稿では,匿名化中間表現を用いたタスク非依存型プライバシ参照データクラウドソーシングフレームワークTIPRDCを提案する。
このフレームワークの目的は、中間表現からプライバシー情報を隠蔽できる機能抽出器を学習することであり、データコレクターの生データに埋め込まれた元の情報を最大限に保持し、未知の学習タスクを達成することである。
論文 参考訳(メタデータ) (2020-05-23T06:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。