論文の概要: The Text Anonymization Benchmark (TAB): A Dedicated Corpus and
Evaluation Framework for Text Anonymization
- arxiv url: http://arxiv.org/abs/2202.00443v1
- Date: Tue, 25 Jan 2022 14:34:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-06 09:39:16.757837
- Title: The Text Anonymization Benchmark (TAB): A Dedicated Corpus and
Evaluation Framework for Text Anonymization
- Title(参考訳): text anonymization benchmark (tab) - テキスト匿名化のためのコーパスと評価のためのフレームワーク
- Authors: Ildik\'o Pil\'an, Pierre Lison, Lilja {\O}vrelid, Anthi Papadopoulou,
David S\'anchez and Montserrat Batet
- Abstract要約: 本稿では,テキスト匿名化手法の性能評価のための新しいベンチマークと関連する評価指標を提案する。
テキスト匿名化は、個人情報の開示を防ぐためにテキスト文書を編集するタスクとして定義されており、現在、プライバシー指向の注釈付きテキストリソースが不足している。
本稿では,TAB (Text Anonymization Benchmark) について述べる。
- 参考スコア(独自算出の注目度): 2.9849405664643585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel benchmark and associated evaluation metrics for assessing
the performance of text anonymization methods. Text anonymization, defined as
the task of editing a text document to prevent the disclosure of personal
information, currently suffers from a shortage of privacy-oriented annotated
text resources, making it difficult to properly evaluate the level of privacy
protection offered by various anonymization methods. This paper presents TAB
(Text Anonymization Benchmark), a new, open-source annotated corpus developed
to address this shortage. The corpus comprises 1,268 English-language court
cases from the European Court of Human Rights (ECHR) enriched with
comprehensive annotations about the personal information appearing in each
document, including their semantic category, identifier type, confidential
attributes, and co-reference relations. Compared to previous work, the TAB
corpus is designed to go beyond traditional de-identification (which is limited
to the detection of predefined semantic categories), and explicitly marks which
text spans ought to be masked in order to conceal the identity of the person to
be protected. Along with presenting the corpus and its annotation layers, we
also propose a set of evaluation metrics that are specifically tailored towards
measuring the performance of text anonymization, both in terms of privacy
protection and utility preservation. We illustrate the use of the benchmark and
the proposed metrics by assessing the empirical performance of several baseline
text anonymization models. The full corpus along with its privacy-oriented
annotation guidelines, evaluation scripts and baseline models are available on:
https://github.com/NorskRegnesentral/text-anonymisation-benchmark
- Abstract(参考訳): 本稿では,テキスト匿名化手法の性能評価のための新しいベンチマークおよび関連する評価指標を提案する。
個人情報の開示を防止するためにテキスト文書を編集するタスクとして定義されたテキスト匿名化は、現在、プライバシー指向の注釈付きテキストリソースの不足に悩まされており、様々な匿名化手法によって提供されるプライバシー保護のレベルを適切に評価することは困難である。
本稿では,この不足に対処するために新たに開発した,オープンソースのアノテーション付きコーパスであるtab(text anonymization benchmark)を提案する。
コーパスは、欧州人権裁判所(ECHR)の1,268件の英語の判例からなり、セマンティックカテゴリ、識別子タイプ、機密属性、相互参照関係など、各文書に現れる個人情報に関する包括的なアノテーションが豊富である。
以前の研究と比較すると、TABコーパスは従来の非識別(定義済みのセマンティックカテゴリの検出に限られる)を超えて設計されており、保護対象の人物の身元を隠すために、どのテキストがマスキングされるべきかを明確に示している。
また,コーパスとそのアノテーションレイヤの提示とともに,プライバシ保護とユーティリティ保護の両面で,テキスト匿名化の性能測定に特化した評価指標のセットを提案する。
本稿では,複数のベースラインテキスト匿名化モデルの経験的性能を評価することにより,ベンチマークと提案手法について述べる。
プライバシ指向のガイドラインガイドライン、評価スクリプト、ベースラインモデルとともに、全コーパスが利用可能だ。
関連論文リスト
- IncogniText: Privacy-enhancing Conditional Text Anonymization via LLM-based Private Attribute Randomization [8.483679748399037]
IncogniTextは,テキストを匿名化して潜在的敵を誤認し,誤った属性値を予測する手法である。
実証評価の結果,私的属性の漏洩が90%以上減少した。
論文 参考訳(メタデータ) (2024-07-03T09:49:03Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Neural Text Sanitization with Privacy Risk Indicators: An Empirical
Analysis [2.9311414545087366]
テキスト・サニタイズのための2段階のアプローチを検討し、その経験的性能を詳細に分析する。
テキストサニタイズプロセスは、プライバシー指向のエンティティ認識器から始まり、識別可能な個人情報を表すテキストを識別する。
本稿では,言語モデルの確率,テキストスパン分類,シーケンスラベリング,摂動,Web検索に基づく再識別リスクの指標を5つ提示する。
論文 参考訳(メタデータ) (2023-10-22T14:17:27Z) - Unsupervised Text Deidentification [101.2219634341714]
個人識別情報を漏洩する単語を隠蔽する教師なしの識別手法を提案する。
K匿名性に基づくプライバシによって動機づけられた私たちは、最小の再識別ランクを保証するリアクションを生成します。
論文 参考訳(メタデータ) (2022-10-20T18:54:39Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Transparent Human Evaluation for Image Captioning [70.03979566548823]
画像キャプションモデルのためのルーリックに基づく人間評価プロトコルを開発した。
人為的キャプションは機械的キャプションよりも著しく高品質であることを示す。
この研究は、画像キャプションのためのより透明な評価プロトコルを促進することを願っている。
論文 参考訳(メタデータ) (2021-11-17T07:09:59Z) - Protecting Anonymous Speech: A Generative Adversarial Network
Methodology for Removing Stylistic Indicators in Text [2.9005223064604078]
我々は,生成的敵ネットワークの構築によるオーサリングの匿名化への新たなアプローチを開発する。
完全自動方式は,コンテンツ保存や流布の点で他の手法と同等の結果が得られる。
我々のアプローチは、オープンセットの文脈に順応し、これまで遭遇したことのない著者の文章を匿名化することができる。
論文 参考訳(メタデータ) (2021-10-18T17:45:56Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z) - Global Attention for Name Tagging [56.62059996864408]
ローカル、文書レベル、コーパスレベルのコンテキスト情報を活用することで、名前タグを改善するための新しいフレームワークを提案する。
本研究では,グローバルな注意を介し,文書レベルのコンテキスト情報とコーパスレベルのコンテキスト情報と,局所的なコンテキスト情報とを組み込むことを学習するモデルを提案する。
ベンチマークデータセットの実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-10-19T07:27:15Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。