論文の概要: Textwash -- automated open-source text anonymisation
- arxiv url: http://arxiv.org/abs/2208.13081v1
- Date: Sat, 27 Aug 2022 19:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:09:10.807363
- Title: Textwash -- automated open-source text anonymisation
- Title(参考訳): Textwash -- オープンソースのテキスト匿名化自動化
- Authors: Bennett Kleinberg, Toby Davies, Maximilian Mozes
- Abstract要約: 本稿では,オープンソースのテキスト匿名化ソフトウェアであるTextwash_の実証評価について述べる。
その結果,Textwashは最先端のエンティティ認識モデルと類似して動作し,無視可能な情報損失は0.84%であることが示唆された。
匿名化テストでは、非常に有名で、半有名で、実在しない人物の、クラウドソースされた人物記述のデータセットから、人間に名前で個人を識別するよう指示した。
- 参考スコア(独自算出の注目度): 0.8551169466453648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The increased use of text data in social science research has benefited from
easy-to-access data (e.g., Twitter). That trend comes at the cost of research
requiring sensitive but hard-to-share data (e.g., interview data, police
reports, electronic health records). We introduce a solution to that stalemate
with the open-source text anonymisation software_Textwash_. This paper presents
the empirical evaluation of the tool using the TILD criteria: a technical
evaluation (how accurate is the tool?), an information loss evaluation (how
much information is lost in the anonymisation process?) and a de-anonymisation
test (can humans identify individuals from anonymised text data?). The findings
suggest that Textwash performs similar to state-of-the-art entity recognition
models and introduces a negligible information loss of 0.84%. For the
de-anonymisation test, we tasked humans to identify individuals by name from a
dataset of crowdsourced person descriptions of very famous, semi-famous and
non-existing individuals. The de-anonymisation rate ranged from 1.01-2.01% for
the realistic use cases of the tool. We replicated the findings in a second
study and concluded that Textwash succeeds in removing potentially sensitive
information that renders detailed person descriptions practically anonymous.
- Abstract(参考訳): 社会科学研究におけるテキストデータの利用の増加は、アクセスしやすいデータ(例えばtwitter)の恩恵を受けている。
この傾向は、機密性の高いデータを必要とする研究コスト(例えば、インタビューデータ、警察報告、電子健康記録など)が伴う。
我々は、オープンソースのテキスト匿名化ソフトウェア_Textwash_と、そのスタレマティクスに対するソリューションを紹介します。
本稿では、TILD基準を用いたツールの実証評価について、技術的評価(ツールはどの程度正確か?)、情報損失評価(匿名化プロセスでどの程度情報が失われるのか?)、匿名化テスト(匿名化テキストデータから個人を特定できるのか?
その結果,Textwashは最先端エンティティ認識モデルと類似して動作し,無視可能な情報損失は0.84%であることがわかった。
匿名化テストでは、非常に有名で、半有名で、実在しない人物の、クラウドソースされた人物記述のデータセットから、人間に名前で個人を特定するよう指示した。
匿名化レートは、ツールの現実的なユースケースに対して1.01-2.01%であった。
われわれはこの調査結果を2回目の研究で再現し、Textwashが機密性の高い情報を取り除くことに成功していると結論づけた。
関連論文リスト
- Neural Text Sanitization with Privacy Risk Indicators: An Empirical
Analysis [2.9311414545087366]
テキスト・サニタイズのための2段階のアプローチを検討し、その経験的性能を詳細に分析する。
テキストサニタイズプロセスは、プライバシー指向のエンティティ認識器から始まり、識別可能な個人情報を表すテキストを識別する。
本稿では,言語モデルの確率,テキストスパン分類,シーケンスラベリング,摂動,Web検索に基づく再識別リスクの指標を5つ提示する。
論文 参考訳(メタデータ) (2023-10-22T14:17:27Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Verifying the Robustness of Automatic Credibility Assessment [79.08422736721764]
テキスト分類法は信頼性の低い内容を検出する手段として広く研究されている。
入力テキストの無意味な変更は、モデルを誤解させることがある。
偽情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAを紹介する。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - Smooth Anonymity for Sparse Binary Matrices [84.60886611165573]
この作業では、スパースデータセット全体を第三者とプライベートに操作し、共有することを目的としています。
実際、差分プライバシーは、プライバシの金の標準として現れていますが、スパースデータセットの共有に関しては、主要な結果の1つとして、偏微分プライベートメカニズムが極めて弱いプライバシ保証を持つ運命にあることを証明しています。
我々は、スムーズな$k$匿名性を示し、スムーズな$k$匿名性を提供する単純なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - A Multi-input Multi-output Transformer-based Hybrid Neural Network for
Multi-class Privacy Disclosure Detection [3.04585143845864]
本稿では,伝達学習,言語学,メタデータを用いて隠れパターンを学習するマルチインプット・マルチアウトプットハイブリッドニューラルネットワークを提案する。
我々は,5,400のツイートを含む人間の注釈付き真実データセットを用いて,我々のモデルを訓練し,評価した。
論文 参考訳(メタデータ) (2021-08-19T03:58:49Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z) - Offensive Language Detection: A Comparative Analysis [2.5739449801033842]
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
論文 参考訳(メタデータ) (2020-01-09T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。