論文の概要: Towards Quantifying The Privacy Of Redacted Text
- arxiv url: http://arxiv.org/abs/2410.07772v1
- Date: Thu, 10 Oct 2024 10:00:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-31 15:06:11.503198
- Title: Towards Quantifying The Privacy Of Redacted Text
- Title(参考訳): テキストのプライバシーの定量化に向けて
- Authors: Vaibhav Gusain, Douglas Leith,
- Abstract要約: 我々は、アートトランスフォーマーに基づくディープラーニングネットワークの状態を用いて、オリジナルのテキストを再構築する。
このようにして、修正されたテキストと整合したフルテキストの数、多様性、品質を推定できる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we propose use of a k-anonymity-like approach for evaluating the privacy of redacted text. Given a piece of redacted text we use a state of the art transformer-based deep learning network to reconstruct the original text. This generates multiple full texts that are consistent with the redacted text, i.e. which are grammatical, have the same non-redacted words etc, and represents each of these using an embedding vector that captures sentence similarity. In this way we can estimate the number, diversity and quality of full text consistent with the redacted text and so evaluate privacy.
- Abstract(参考訳): 本稿では,k-anonymity-likeアプローチによるテキストのプライバシ評価手法を提案する。
修正されたテキストが与えられたら、最先端のトランスフォーマーベースのディープラーニングネットワークを使用して、元のテキストを再構築します。
これは、複数のフルテキストを生成し、そのテキストは文法的であり、同じ非リラクテッドな単語等を持ち、それらそれぞれを、文章の類似性をキャプチャする埋め込みベクトルを用いて表現する。
このようにして、修正されたテキストと整合したフルテキストの数、多様性、品質を推定し、プライバシーを評価することができる。
関連論文リスト
- Just Rewrite It Again: A Post-Processing Method for Enhanced Semantic Similarity and Privacy Preservation of Differentially Private Rewritten Text [3.3916160303055567]
本稿では,書き直したテキストを元のテキストと整合させることを目標とした,簡単な後処理手法を提案する。
以上の結果から,このような手法は,従来の入力よりも意味論的に類似した出力を生成するだけでなく,経験的プライバシ評価において平均的なスコアがよいテキストを生成することが示唆された。
論文 参考訳(メタデータ) (2024-05-30T08:41:33Z) - Spotting AI's Touch: Identifying LLM-Paraphrased Spans in Text [61.22649031769564]
我々は、新しいフレームワーク、パラフレーズテキストスパン検出(PTD)を提案する。
PTDは、テキスト内でパラフレーズ付きテキストを識別することを目的としている。
パラフレーズ付きテキストスパン検出のための専用データセットであるPASTEDを構築した。
論文 参考訳(メタデータ) (2024-05-21T11:22:27Z) - RealCustom: Narrowing Real Text Word for Real-Time Open-Domain
Text-to-Image Customization [57.86083349873154]
テキスト・ツー・イメージのカスタマイズは、与えられた被験者に対してテキスト駆動の画像を合成することを目的としている。
既存の作品は擬似語パラダイム、すなわち、与えられた主題を擬似語として表現し、与えられたテキストで合成する。
我々は、RealCustomを初めて、被写体の影響を関連部分のみに正確に制限することで、制御性から類似性を解き放つことを提示する。
論文 参考訳(メタデータ) (2024-03-01T12:12:09Z) - Sub-Sentence Encoder: Contrastive Learning of Propositional Semantic
Representations [102.05351905494277]
サブ文エンコーダ(Sub-sentence encoder)は、テキストの微細な意味表現のためのコンテクスト埋め込みモデルである。
文エンコーダと比較して,サブ文エンコーダは推論コストと空間複雑さのレベルが同じであることを示す。
論文 参考訳(メタデータ) (2023-11-07T20:38:30Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Guiding Text-to-Text Privatization by Syntax [0.0]
メトリック微分プライバシー(Metric Differential Privacy)は、テキストからテキストへのプライベート化というユニークな課題に対処するために設計された、差分プライバシーの一般化である。
置換後の単語の文法的カテゴリを保存するために,テキスト・テキスト・プライベート化の能力を分析する。
我々は、民営化のステップを、置換が一致した文法特性を持つ単語に向けられる候補選択問題に変換する。
論文 参考訳(メタデータ) (2023-06-02T11:52:21Z) - Text Revealer: Private Text Reconstruction via Model Inversion Attacks
against Transformers [22.491785618530397]
emphText Revealerを定式化する -- トランスフォーマーを用いたテキスト分類に対するテキスト再構成のための最初のモデル逆転攻撃。
我々の攻撃は、ターゲットモデルへのアクセスにより、トレーニングデータに含まれるプライベートテキストを忠実に再構築する。
実験により,我々の攻撃はテキスト長の異なるデータセットに対して有効であり,正確さでプライベートテキストを再構築できることが実証された。
論文 参考訳(メタデータ) (2022-09-21T17:05:12Z) - Contextual Text Block Detection towards Scene Text Understanding [85.40898487745272]
本稿では,シーン中のテキストをよりよく理解するためのコンテキストテキストブロック(CTB)を新たに検出する,コンテキストテキスト検出手法を提案する。
本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。
そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。
論文 参考訳(メタデータ) (2022-07-26T14:59:25Z) - CORE-Text: Improving Scene Text Detection with Contrastive Relational
Reasoning [65.57338873921168]
自然界におけるテキストインスタンスのローカライズは、コンピュータビジョンにおける根本的な課題であると考えられている。
本研究では,サブテキスト問題を定量的に解析し,シンプルで効果的な設計であるContrastive Relation(CORE)モジュールを提案する。
我々は、COREモジュールをMask R-CNNの2段階テキスト検出器に統合し、テキスト検出器CORE-Textを考案する。
論文 参考訳(メタデータ) (2021-12-14T16:22:25Z) - InvBERT: Text Reconstruction from Contextualized Embeddings used for
Derived Text Formats of Literary Works [1.6058099298620423]
Digital Humanities and Computational Literary Studiesは文献調査にテキストマイニング手法を適用している。
著作権の制限により、関連するデジタル化された文学作品の入手は制限されている。
BERTを逆転しようとする試みは、エンコーダのパーツをコンテキスト化された埋め込みと共に公開することが重要であることを示唆している。
論文 参考訳(メタデータ) (2021-09-21T11:35:41Z) - Privacy Guarantees for De-identifying Text Transformations [17.636430224292866]
我々は、差分プライバシーに基づいて、テキスト変換に基づく復号化手法の正式なプライバシー保証を導出する。
複数の自然言語理解タスクにおける深層学習モデルを用いた,より洗練された単語間置換手法との比較を行った。
単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることに気付きました。
論文 参考訳(メタデータ) (2020-08-07T12:06:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。