論文の概要: Comparing Feature-based and Context-aware Approaches to PII Generalization Level Prediction
- arxiv url: http://arxiv.org/abs/2407.02837v1
- Date: Wed, 3 Jul 2024 06:32:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 15:25:09.616843
- Title: Comparing Feature-based and Context-aware Approaches to PII Generalization Level Prediction
- Title(参考訳): PII一般化レベル予測に対する特徴量と文脈認識アプローチの比較
- Authors: Kailin Zhang, Xinying Qiu,
- Abstract要約: テキストデータのPIIはプライバシにとって重要であるが、現在の一般化手法では、不均一なデータ配信やコンテキスト認識の制限といった課題に直面している。
本稿では、構造化された入力の性能向上に機械学習を用いた特徴ベース手法と、原文と一般化された候補との間のより広い文脈と意味的関係を考慮したコンテキスト認識フレームワークを提案する。
WikiReplaceデータセットの実験では、両方の方法の有効性が示され、コンテキスト認識アプローチは、さまざまなスケールで機能ベースのものよりも優れています。
- 参考スコア(独自算出の注目度): 0.6138671548064356
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Protecting Personal Identifiable Information (PII) in text data is crucial for privacy, but current PII generalization methods face challenges such as uneven data distributions and limited context awareness. To address these issues, we propose two approaches: a feature-based method using machine learning to improve performance on structured inputs, and a novel context-aware framework that considers the broader context and semantic relationships between the original text and generalized candidates. The context-aware approach employs Multilingual-BERT for text representation, functional transformations, and mean squared error scoring to evaluate candidates. Experiments on the WikiReplace dataset demonstrate the effectiveness of both methods, with the context-aware approach outperforming the feature-based one across different scales. This work contributes to advancing PII generalization techniques by highlighting the importance of feature selection, ensemble learning, and incorporating contextual information for better privacy protection in text anonymization.
- Abstract(参考訳): テキストデータにおける個人識別情報(PII)の保護はプライバシにとって重要であるが,現在のPII一般化手法では,不均一なデータ配信やコンテキスト認識の制限といった課題に直面している。
これらの問題に対処するために、構造化された入力の性能を改善するための機械学習を用いた特徴ベース手法と、原文と一般化された候補の間のより広い文脈と意味的関係を考慮に入れた新しい文脈認識フレームワークを提案する。
文脈認識アプローチでは、テキスト表現、関数変換、平均二乗誤差スコアリングにMultilingual-BERTを用いる。
WikiReplaceデータセットの実験では、両方の方法の有効性が示され、コンテキスト認識アプローチは、さまざまなスケールで機能ベースのものよりも優れています。
本研究は, テキスト匿名化におけるPII一般化手法の進歩に寄与し, 特徴選択の重要性, アンサンブル学習, および, テキスト匿名化におけるプライバシー保護の促進を目的としたコンテキスト情報の導入に寄与する。
関連論文リスト
- Mind the Gap: A Generalized Approach for Cross-Modal Embedding Alignment [0.0]
Retrieval-Augmented Generation (RAG) システムは、意味的ギャップによって異なるテキストモダリティ間でコンテキストを検索する。
本稿では,これらのギャップを効率的に埋める汎用投影法を提案する。
私たちのアプローチでは、トレーニングや推論に最小限のリソースを必要とするため、スピード、正確性、データ効率を重視しています。
論文 参考訳(メタデータ) (2024-10-30T20:28:10Z) - Con-ReCall: Detecting Pre-training Data in LLMs via Contrastive Decoding [118.75567341513897]
既存のメソッドは通常、ターゲットテキストを分離して分析するか、非メンバーコンテキストでのみ分析する。
Con-ReCallは、メンバと非メンバのコンテキストによって誘導される非対称な分布シフトを利用する新しいアプローチである。
論文 参考訳(メタデータ) (2024-09-05T09:10:38Z) - How Well Do Text Embedding Models Understand Syntax? [50.440590035493074]
テキスト埋め込みモデルが幅広い構文的文脈にまたがって一般化する能力は、まだ解明されていない。
その結果,既存のテキスト埋め込みモデルは,これらの構文的理解課題に十分対応していないことが明らかとなった。
多様な構文シナリオにおけるテキスト埋め込みモデルの一般化能力を高めるための戦略を提案する。
論文 参考訳(メタデータ) (2023-11-14T08:51:00Z) - CLIP-based Synergistic Knowledge Transfer for Text-based Person
Retrieval [66.93563107820687]
個人検索(TPR)のためのCLIPベースのSynergistic Knowledge Transfer(CSKT)アプローチを提案する。
入力側でCLIPの知識を探索するために、まず、テキスト・ツー・イメージと画像・ツー・テキストの双方向プロンプトと結合プロンプトによって構築された双方向プロンプト転送(BPT)モジュールを提案する。
CSKTは、トレーニングパラメータがモデル全体の7.4%を占めるだけで、3つのベンチマークデータセットで最先端のアプローチを上回っている。
論文 参考訳(メタデータ) (2023-09-18T05:38:49Z) - Improving Mandarin Prosodic Structure Prediction with Multi-level
Contextual Information [68.89000132126536]
本研究は,音声間言語情報を用いて韻律構造予測(PSP)の性能を向上させることを提案する。
提案手法は,韻律語(PW),韻律語(PPH),国際語句(IPH)の予測におけるF1スコアの向上を実現する。
論文 参考訳(メタデータ) (2023-08-31T09:19:15Z) - Semantic Interactive Learning for Text Classification: A Constructive
Approach for Contextual Interactions [0.0]
本稿では,テキスト領域に対するセマンティック対話学習という新しいインタラクションフレームワークを提案する。
構築的および文脈的フィードバックを学習者に取り入れることで、人間と機械間のよりセマンティックなアライメントを実現するアーキテクチャを見つけることができる。
本研究では,人間の概念的修正を非外挿訓練例に翻訳するのに有効なSemanticPushという手法を提案する。
論文 参考訳(メタデータ) (2022-09-07T08:13:45Z) - Semantic Role Aware Correlation Transformer for Text to Video Retrieval [23.183653281610866]
本稿では,テキストや動画をオブジェクト,空間的コンテキスト,時間的コンテキストのセマンティックな役割へと明示的に切り離す新しいトランスフォーマーを提案する。
一般的なYouCook2の予備的な結果は、我々のアプローチが現在の最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2022-06-26T11:28:03Z) - Semantics-Preserved Distortion for Personal Privacy Protection in Information Management [65.08939490413037]
本稿では,意味的整合性を維持しつつテキストを歪ませる言語学的アプローチを提案する。
本稿では, 意味保存歪みの枠組みとして, 生成的アプローチと置換的アプローチの2つを提示する。
また、特定の医療情報管理シナリオにおけるプライバシ保護についても検討し、機密データの記憶を効果的に制限していることを示す。
論文 参考訳(メタデータ) (2022-01-04T04:01:05Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。