論文の概要: Textwash -- automated open-source text anonymisation
- arxiv url: http://arxiv.org/abs/2208.13081v1
- Date: Sat, 27 Aug 2022 19:55:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-30 14:09:10.807363
- Title: Textwash -- automated open-source text anonymisation
- Title(参考訳): Textwash -- オープンソースのテキスト匿名化自動化
- Authors: Bennett Kleinberg, Toby Davies, Maximilian Mozes
- Abstract要約: 本稿では,オープンソースのテキスト匿名化ソフトウェアであるTextwash_の実証評価について述べる。
その結果,Textwashは最先端のエンティティ認識モデルと類似して動作し,無視可能な情報損失は0.84%であることが示唆された。
匿名化テストでは、非常に有名で、半有名で、実在しない人物の、クラウドソースされた人物記述のデータセットから、人間に名前で個人を識別するよう指示した。
- 参考スコア(独自算出の注目度): 0.8551169466453648
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The increased use of text data in social science research has benefited from
easy-to-access data (e.g., Twitter). That trend comes at the cost of research
requiring sensitive but hard-to-share data (e.g., interview data, police
reports, electronic health records). We introduce a solution to that stalemate
with the open-source text anonymisation software_Textwash_. This paper presents
the empirical evaluation of the tool using the TILD criteria: a technical
evaluation (how accurate is the tool?), an information loss evaluation (how
much information is lost in the anonymisation process?) and a de-anonymisation
test (can humans identify individuals from anonymised text data?). The findings
suggest that Textwash performs similar to state-of-the-art entity recognition
models and introduces a negligible information loss of 0.84%. For the
de-anonymisation test, we tasked humans to identify individuals by name from a
dataset of crowdsourced person descriptions of very famous, semi-famous and
non-existing individuals. The de-anonymisation rate ranged from 1.01-2.01% for
the realistic use cases of the tool. We replicated the findings in a second
study and concluded that Textwash succeeds in removing potentially sensitive
information that renders detailed person descriptions practically anonymous.
- Abstract(参考訳): 社会科学研究におけるテキストデータの利用の増加は、アクセスしやすいデータ(例えばtwitter)の恩恵を受けている。
この傾向は、機密性の高いデータを必要とする研究コスト(例えば、インタビューデータ、警察報告、電子健康記録など)が伴う。
我々は、オープンソースのテキスト匿名化ソフトウェア_Textwash_と、そのスタレマティクスに対するソリューションを紹介します。
本稿では、TILD基準を用いたツールの実証評価について、技術的評価(ツールはどの程度正確か?)、情報損失評価(匿名化プロセスでどの程度情報が失われるのか?)、匿名化テスト(匿名化テキストデータから個人を特定できるのか?
その結果,Textwashは最先端エンティティ認識モデルと類似して動作し,無視可能な情報損失は0.84%であることがわかった。
匿名化テストでは、非常に有名で、半有名で、実在しない人物の、クラウドソースされた人物記述のデータセットから、人間に名前で個人を特定するよう指示した。
匿名化レートは、ツールの現実的なユースケースに対して1.01-2.01%であった。
われわれはこの調査結果を2回目の研究で再現し、Textwashが機密性の高い情報を取り除くことに成功していると結論づけた。
関連論文リスト
- NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。
我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文 参考訳(メタデータ) (2024-06-06T05:07:44Z) - RedactBuster: Entity Type Recognition from Redacted Documents [13.172863061928899]
文コンテキストを用いた最初の匿名化モデルであるRedactBusterを提案し、反応テキスト上で名前付きエンティティ認識を行う。
我々はRedactBusterを最も効果的なリアクション技術に対してテストし、公開されているテキスト匿名化ベンチマーク(TAB)を用いて評価する。
その結果,文書の性質やエンティティタイプに関わらず,最大0.985の精度が得られた。
論文 参考訳(メタデータ) (2024-04-19T16:42:44Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - Harnessing the Power of Text-image Contrastive Models for Automatic
Detection of Online Misinformation [50.46219766161111]
誤情報識別の領域における構成的学習を探求する自己学習モデルを構築した。
本モデルでは、トレーニングデータが不十分な場合、非マッチング画像-テキストペア検出の優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-19T02:53:59Z) - Verifying the Robustness of Automatic Credibility Assessment [50.55687778699995]
入力テキストにおける意味保存的変化がモデルを誤解させる可能性があることを示す。
また、誤情報検出タスクにおける被害者モデルと攻撃方法の両方をテストするベンチマークであるBODEGAについても紹介する。
我々の実験結果によると、現代の大規模言語モデルは、以前のより小さなソリューションよりも攻撃に対して脆弱であることが多い。
論文 参考訳(メタデータ) (2023-03-14T16:11:47Z) - Smooth Anonymity for Sparse Graphs [69.1048938123063]
しかし、スパースデータセットを共有するという点では、差分プライバシーがプライバシのゴールドスタンダードとして浮上している。
本研究では、スムーズな$k$匿名性(スムーズな$k$匿名性)と、スムーズな$k$匿名性(スムーズな$k$匿名性)を提供する単純な大規模アルゴリズムを設計する。
論文 参考訳(メタデータ) (2022-07-13T17:09:25Z) - A Multi-input Multi-output Transformer-based Hybrid Neural Network for
Multi-class Privacy Disclosure Detection [3.04585143845864]
本稿では,伝達学習,言語学,メタデータを用いて隠れパターンを学習するマルチインプット・マルチアウトプットハイブリッドニューラルネットワークを提案する。
我々は,5,400のツイートを含む人間の注釈付き真実データセットを用いて,我々のモデルを訓練し,評価した。
論文 参考訳(メタデータ) (2021-08-19T03:58:49Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z) - TextHide: Tackling Data Privacy in Language Understanding Tasks [54.11691303032022]
TextHideは、トレーニングを遅くしたり、精度を下げることなく、プライバシー上のリスクを軽減する。
すべての参加者は、盗聴攻撃者がプライベートテキストデータを復元するのを防ぐために、簡単な暗号化ステップを追加する必要がある。
我々は、GLUEベンチマーク上でTextHideを評価し、TextHideが共有勾配や表現に対する攻撃を効果的に防御できることを示す。
論文 参考訳(メタデータ) (2020-10-12T22:22:15Z) - Offensive Language Detection: A Comparative Analysis [2.5739449801033842]
本稿では,Google文エンコーダ,Fasttext,動的モード分解(DMD)に基づく機能とRandom kitchen sink(RKS)法による攻撃言語検出の有効性について検討する。
実験と評価の結果,Fastetxt を用いた RKS が競合する結果を得た。
論文 参考訳(メタデータ) (2020-01-09T17:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。