Fugu-MT 論文翻訳(概要): Text Sanitization Beyond Specific Domains: Zero-Shot Redaction & Substitution with Large Language Models

論文の概要: Text Sanitization Beyond Specific Domains: Zero-Shot Redaction & Substitution with Large Language Models

arxiv url: http://arxiv.org/abs/2311.10785v1
Date: Thu, 16 Nov 2023 18:42:37 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-22 14:39:08.716507
Title: Text Sanitization Beyond Specific Domains: Zero-Shot Redaction & Substitution with Large Language Models
Title（参考訳）: 特定のドメインを超えたテキストのサニタイズ:大言語モデルによるゼロショット冗長化と置換
Authors: Federico Albanese and Daniel Ciolek and Nicolas D'Ippolito
Abstract要約: 本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。本手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,プライバシ保護に優れることを示す。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In the context of information systems, text sanitization techniques are used to identify and remove sensitive data to comply with security and regulatory requirements. Even though many methods for privacy preservation have been proposed, most of them are focused on the detection of entities from specific domains (e.g., credit card numbers, social security numbers), lacking generality and requiring customization for each desirable domain. Moreover, removing words is, in general, a drastic measure, as it can degrade text coherence and contextual information. Less severe measures include substituting a word for a safe alternative, yet it can be challenging to automatically find meaningful substitutions. We present a zero-shot text sanitization technique that detects and substitutes potentially sensitive information using Large Language Models. Our evaluation shows that our method excels at protecting privacy while maintaining text coherence and contextual information, preserving data utility for downstream tasks.
Abstract（参考訳）: 情報システムの文脈では、セキュリティや規制要件に適合する機密データを識別および削除するために、テキスト衛生技術が使用される。プライバシー保護のための多くの方法が提案されているが、そのほとんどは特定のドメイン(クレジットカード番号、社会保障番号など)からのエンティティの検出に焦点が当てられている。さらに、単語の除去は、テキストコヒーレンスや文脈情報を分解できるため、一般的には劇的な手段である。より厳格な措置には、安全な代替品のための単語の置換が含まれるが、意味のある代替品を自動的に見つけることは困難である。本稿では,大規模言語モデルを用いて潜在的に敏感な情報を検出・置換するゼロショットテキスト衛生手法を提案する。提案手法は,テキストコヒーレンスとコンテキスト情報を維持しながら,下流タスクのためのデータユーティリティを保ちながら,プライバシ保護に優れることを示す。

関連論文リスト

Zero-Shot Privacy-Aware Text Rewriting via Iterative Tree Search [60.197239728279534]
クラウドベースのサービスにおける大規模言語モデル(LLM)は、重大なプライバシー上の懸念を引き起こしている。既存のテキスト匿名化と、ルールベースのリアクションやスクラブのような非識別技術は、プライバシー保護とテキストの自然性と実用性のバランスをとるのに苦労することが多い。我々は,一貫性,妥当性,自然性を保ちながら,秘密情報を体系的に難読化・削除するゼロショット木探索型反復文書き換えアルゴリズムを提案する。
論文参考訳（メタデータ） (2025-09-25T07:23:52Z)
The Double-edged Sword of LLM-based Data Reconstruction: Understanding and Mitigating Contextual Vulnerability in Word-level Differential Privacy Text Sanitization [53.51921540246166]
我々は,言語大モデル (LLM) がDP対応テキストの文脈的脆弱性を活用可能であることを示す。 LLM再建の二重刃剣効果がプライバシーと実用性に与える影響を実験的に明らかにした。本稿では,データ再構成を後処理のステップとして使用するための推奨事項を提案する。
論文参考訳（メタデータ） (2025-08-26T12:22:45Z)
A False Sense of Privacy: Evaluating Textual Data Sanitization Beyond Surface-level Privacy Leakage [77.83757117924995]
我々は、データリリース時の個人のプライバシーリスクを定量化するために、再識別攻撃を評価する新しいフレームワークを提案する。本手法は, 衛生データから年齢や物質使用履歴などのセンシティブな属性を推測するために, 一見無害な補助情報を利用できることを示す。
論文参考訳（メタデータ） (2025-04-28T01:16:27Z)
TextSleuth: Towards Explainable Tampered Text Detection [49.88698441048043]
本稿では,大規模なマルチモーダルモデルを用いて,自然言語による改ざんテキスト検出の基礎を説明する。このタスクのデータギャップを埋めるため,大規模な包括的データセットETTDを提案する。 GPT4oで高品質な異常記述を生成するために、共同クエリが導入された。低品質なアノテーションを自動的にフィルタリングするために、GPT4oに改ざんされたテキストを認識するよう促すことも提案する。
論文参考訳（メタデータ） (2024-12-19T13:10:03Z)
Truthful Text Sanitization Guided by Inference Attacks [2.824895388993495]
テキストサニタイズの目的は、個人を直接または間接的に識別できる文書にそれらのテキストスパンを書き換えることである。本稿では,原文のセマンティックコンテンツをサブセットする一般化に基づく自動テキスト衛生戦略を提案する。
論文参考訳（メタデータ） (2024-12-17T14:07:01Z)
Detecting Machine-Generated Long-Form Content with Latent-Space Variables [54.07946647012579]
既存のゼロショット検出器は主に、現実世界のドメインシフトに弱いトークンレベルの分布に焦点を当てている。本稿では,イベント遷移などの抽象的要素を機械対人文検出の鍵となる要因として組み込んだ,より堅牢な手法を提案する。
論文参考訳（メタデータ） (2024-10-04T18:42:09Z)
IDT: Dual-Task Adversarial Attacks for Privacy Protection [8.312362092693377]
プライバシを保護するには、センシティブな属性を検出できないモデル内の表現を使用する必要がある。補助的および解釈可能なモデルによる予測を分析し,どのトークンが変更に重要かを識別する手法であるIDTを提案する。我々は、異なるタスクに適したNLPのための異なるデータセットを評価する。
論文参考訳（メタデータ） (2024-06-28T04:14:35Z)
NAP^2: A Benchmark for Naturalness and Privacy-Preserving Text Rewriting by Learning from Human [55.20137833039499]
我々は,人間によって使用される2つの共通戦略を用いて,機密テキストの衛生化を提案する。我々は,クラウドソーシングと大規模言語モデルの利用を通じて,NAP2という最初のコーパスをキュレートする。
論文参考訳（メタデータ） (2024-06-06T05:07:44Z)
Watermarking Conditional Text Generation for AI Detection: Unveiling Challenges and a Semantic-Aware Watermark Remedy [52.765898203824975]
本研究では,条件付きテキスト生成と入力コンテキストの特性を考慮した意味認識型透かしアルゴリズムを提案する。実験結果から,提案手法は様々なテキスト生成モデルに対して大幅な改善をもたらすことが示された。
論文参考訳（メタデータ） (2023-07-25T20:24:22Z)
Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文参考訳（メタデータ） (2022-01-04T04:01:05Z)
Differential Privacy for Text Analytics via Natural Text Sanitization [44.95170585853761]
本稿では,本論文のテキスト・サニタイズへの直接的なアプローチとして,新たなローカルDP概念による感度と類似性を考察する。衛生化されたテキストは、我々の衛生に配慮した事前訓練と微調整にも貢献し、将来性のあるユーティリティを備えたBERT言語モデル上でのプライバシー保護自然言語処理を可能にします。
論文参考訳（メタデータ） (2021-06-02T15:15:10Z)
MOST: A Multi-Oriented Scene Text Detector with Localization Refinement [67.35280008722255]
シーンテキスト検出のための新しいアルゴリズムを提案し、テキストローカリゼーションの品質を大幅に向上させる一連の戦略を提案する。具体的には,テキスト・フィーチャー・アライメント・モジュール (TFAM) を提案し,特徴の受容領域を動的に調整する。信頼できないものを排除するために、位置認識非最大抑制(PA-NMS)モジュールを考案する。
論文参考訳（メタデータ） (2021-04-02T14:34:41Z)
Adversarial Watermarking Transformer: Towards Tracing Text Provenance with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。 AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文参考訳（メタデータ） (2020-09-07T11:01:24Z)
Sensitive Information Detection: Recursive Neural Networks for Encoding Context [0.20305676256390928]
機密情報の漏洩は非常にコストがかかる可能性がある。感度情報を検出するための簡易で脆いルールセットは、実際の感度情報のごく一部しか見つからないことを示す。我々は,ラベル付き事例へのアクセスのみを前提とした,機密情報検出手法の新たなファミリーを開発する。
論文参考訳（メタデータ） (2020-08-25T07:49:46Z)
Privacy Guarantees for De-identifying Text Transformations [17.636430224292866]
我々は、差分プライバシーに基づいて、テキスト変換に基づく復号化手法の正式なプライバシー保証を導出する。複数の自然言語理解タスクにおける深層学習モデルを用いた,より洗練された単語間置換手法との比較を行った。単語ごとの置換だけが、様々なタスクのパフォーマンス低下に対して堅牢であることに気付きました。
論文参考訳（メタデータ） (2020-08-07T12:06:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。