論文の概要: Bootstrapping Text Anonymization Models with Distant Supervision
- arxiv url: http://arxiv.org/abs/2205.06895v1
- Date: Fri, 13 May 2022 21:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-19 09:53:58.333737
- Title: Bootstrapping Text Anonymization Models with Distant Supervision
- Title(参考訳): 遠隔監視によるテキスト匿名化モデルのブートストラップ
- Authors: Anthi Papadopoulou, Pierre Lison, Lilja {\O}vrelid, Ildik\'o Pil\'an
- Abstract要約: 本稿では,遠隔監視に基づくテキスト匿名化モデルのブートストラップ手法を提案する。
手動でラベル付けされたトレーニングデータを必要とする代わりに、このアプローチは、公開されていると思われるバックグラウンド情報を表す知識グラフに依存する。
- 参考スコア(独自算出の注目度): 2.121963121603413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a novel method to bootstrap text anonymization models based on
distant supervision. Instead of requiring manually labeled training data, the
approach relies on a knowledge graph expressing the background information
assumed to be publicly available about various individuals. This knowledge
graph is employed to automatically annotate text documents including personal
data about a subset of those individuals. More precisely, the method determines
which text spans ought to be masked in order to guarantee $k$-anonymity,
assuming an adversary with access to both the text documents and the background
information expressed in the knowledge graph. The resulting collection of
labeled documents is then used as training data to fine-tune a pre-trained
language model for text anonymization. We illustrate this approach using a
knowledge graph extracted from Wikidata and short biographical texts from
Wikipedia. Evaluation results with a RoBERTa-based model and a manually
annotated collection of 553 summaries showcase the potential of the approach,
but also unveil a number of issues that may arise if the knowledge graph is
noisy or incomplete. The results also illustrate that, contrary to most
sequence labeling problems, the text anonymization task may admit several
alternative solutions.
- Abstract(参考訳): 本稿では,遠隔監視に基づくテキスト匿名化モデルのブートストラップ手法を提案する。
手動でラベル付けされたトレーニングデータを必要とするのではなく、さまざまな個人について公開されていると思われる背景情報を表現した知識グラフに頼っている。
この知識グラフは、これらの個人のサブセットに関する個人データを含むテキスト文書を自動的に注釈化する。
より正確には、この方法は、テキスト文書と知識グラフで表現された背景情報の両方にアクセスする敵を仮定して、$k$-匿名性を保証するために、どのテキストスパンをマスクすべきかを決定する。
得られたラベル付き文書のコレクションは、テキスト匿名化のための訓練済み言語モデルを微調整するためのトレーニングデータとして使用される。
このアプローチをウィキデータから抽出した知識グラフとwikipediaの短い伝記テキストを用いて示す。
RoBERTaベースのモデルと手動で注釈付けした553のサマリーによる評価結果は、このアプローチの可能性を示しているが、知識グラフがノイズまたは不完全である場合に生じる可能性のあるいくつかの問題も明らかにしている。
その結果、ほとんどのシーケンスラベリング問題とは対照的に、テキスト匿名化タスクはいくつかの代替ソリューションを許容する可能性がある。
関連論文リスト
- GuideWalk: A Novel Graph-Based Word Embedding for Enhanced Text Classification [0.0]
テキストデータの処理には埋め込みが必要であり、テキストの内容を数値ベクトルに変換する方法である。
新たなテキスト埋め込み手法,すなわちガイド遷移確率行列(GTPM)モデルを提案する。
提案手法は,実世界のデータセットと8つのよく知られた,成功した埋め込みアルゴリズムを用いて検証する。
論文 参考訳(メタデータ) (2024-04-25T18:48:11Z) - Unsupervised Learning of Graph from Recipes [8.410402833223364]
本稿では,レシピから関連する情報を識別し,レシピ中のアクションのシーケンスを表すグラフを生成するモデルを提案する。
テキストを1つのシーケンスで符号化する$mathsfGNN$のグラフ構造とパラメータを反復的に学習する。
同定されたエンティティを注釈付きデータセットと比較し、入力テキストと出力テキストの差を比較し、生成したグラフとアートメソッドの状態から生成されたグラフを比較して、アプローチを評価する。
論文 参考訳(メタデータ) (2024-01-22T16:25:47Z) - Answer Candidate Type Selection: Text-to-Text Language Model for Closed
Book Question Answering Meets Knowledge Graphs [62.20354845651949]
本稿では,この問題を解決するために,事前学習されたテキスト間QAシステム上で機能する新しいアプローチを提案する。
提案手法は,Wikidataの"instance_of"プロパティの型に基づいて,生成した候補のフィルタリングと再ランク付けを行う。
論文 参考訳(メタデータ) (2023-10-10T20:49:43Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Towards Multimodal Vision-Language Models Generating Non-Generic Text [2.102846336724103]
視覚言語モデルは、画像内の視覚的コンテキストを評価し、記述的なテキストを生成することができる。
近年の研究では、画像から抽出したテキストで視覚情報を補うために光学文字認識が用いられている。
本研究では、画像から抽出できるが、現在のモデルでは使用されない付加的な情報から、視覚言語モデルが恩恵を受けることができると論じる。
論文 参考訳(メタデータ) (2022-07-09T01:56:35Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Exploiting Structured Knowledge in Text via Graph-Guided Representation
Learning [73.0598186896953]
本稿では、知識グラフからのガイダンスを用いて、生テキスト上で学習する2つの自己教師型タスクを提案する。
エンティティレベルのマスキング言語モデルに基づいて、最初のコントリビューションはエンティティマスキングスキームです。
既存のパラダイムとは対照的に,本手法では事前学習時にのみ,知識グラフを暗黙的に使用する。
論文 参考訳(メタデータ) (2020-04-29T14:22:42Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。