論文の概要: Local Language Models for Context-Aware Adaptive Anonymization of Sensitive Text
- arxiv url: http://arxiv.org/abs/2601.14683v1
- Date: Wed, 21 Jan 2026 05:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.250026
- Title: Local Language Models for Context-Aware Adaptive Anonymization of Sensitive Text
- Title(参考訳): 文脈認識による感性テキストの適応匿名化のための局所言語モデル
- Authors: Aisvarya Adeseye, Jouni Isoaho, Seppo Virtanen, Mohammad Tahir,
- Abstract要約: 本研究は, ローカルLLMを用いて, 信頼性, 再現性, コンテキスト対応の匿名化プロセスを構築する。
本稿では,適応匿名化のための構造化フレームワーク(Structured Framework for Adaptive Anonymizer, SFAA)を紹介する。
- 参考スコア(独自算出の注目度): 0.7349727826230863
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Qualitative research often contains personal, contextual, and organizational details that pose privacy risks if not handled appropriately. Manual anonymization is time-consuming, inconsistent, and frequently omits critical identifiers. Existing automated tools tend to rely on pattern matching or fixed rules, which fail to capture context and may alter the meaning of the data. This study uses local LLMs to build a reliable, repeatable, and context-aware anonymization process for detecting and anonymizing sensitive data in qualitative transcripts. We introduce a Structured Framework for Adaptive Anonymizer (SFAA) that includes three steps: detection, classification, and adaptive anonymization. The SFAA incorporates four anonymization strategies: rule-based substitution, context-aware rewriting, generalization, and suppression. These strategies are applied based on the identifier type and the risk level. The identifiers handled by the SFAA are guided by major international privacy and research ethics standards, including the GDPR, HIPAA, and OECD guidelines. This study followed a dual-method evaluation that combined manual and LLM-assisted processing. Two case studies were used to support the evaluation. The first includes 82 face-to-face interviews on gamification in organizations. The second involves 93 machine-led interviews using an AI-powered interviewer to test LLM awareness and workplace privacy. Two local models, LLaMA and Phi were used to evaluate the performance of the proposed framework. The results indicate that the LLMs found more sensitive data than a human reviewer. Phi outperformed LLaMA in finding sensitive data, but made slightly more errors. Phi was able to find over 91% of the sensitive data and 94.8% kept the same sentiment as the original text, which means it was very accurate, hence, it does not affect the analysis of the qualitative data.
- Abstract(参考訳): 質的研究は、適切に扱わなければプライバシーのリスクを引き起こす個人的、文脈的、組織的な詳細を含んでいることが多い。
手動匿名化は時間がかかり、一貫性がなく、重要な識別子を省略することが多い。
既存の自動化ツールはパターンマッチングや固定ルールに依存する傾向があり、コンテキストのキャプチャに失敗し、データの意味を変更する可能性がある。
本研究は, 局所LLMを用いて, 定性転写中の機密データを検出・匿名化するために, 信頼性, 繰り返し, 文脈に配慮した匿名化プロセスを構築する。
本稿では,適応匿名化のための構造化フレームワーク(Structured Framework for Adaptive Anonymizer, SFAA)を紹介する。
SFAAは、ルールベースの置換、コンテキスト対応の書き換え、一般化、抑圧の4つの匿名化戦略を取り入れている。
これらの戦略は識別子タイプとリスクレベルに基づいて適用される。
SFAAが処理する識別子は、GDPR、HIPAA、OECDガイドラインを含む主要な国際プライバシーおよび研究倫理基準によってガイドされている。
本研究は,手動とLLMアシスト処理を組み合わせた2次元評価を行った。
評価を支援するために2つのケーススタディが用いられた。
第1弾には、組織におけるゲーミフィケーションに関する82の対面インタビューが含まれている。
2つ目は、AIを利用したインタビュアーを使って、LLMの認識と職場のプライバシーをテストする93のマシンによるインタビューだ。
LLaMAとPhiという2つのローカルモデルを用いて,提案フレームワークの性能評価を行った。
その結果、LLMは人間のレビュアーよりも敏感なデータを発見したことが示唆された。
Phiは機密データを見つけるのにLLaMAより優れていたが、エラーはわずかに増えた。
ファイは機密データの91%以上を発見でき、94.8%は原文と同じ感情を保っているため、非常に正確であったため、定性的データの分析には影響しない。
関連論文リスト
- Semantically-Aware LLM Agent to Enhance Privacy in Conversational AI Services [0.0]
遠隔Large Language Models (LLM) を用いた場合, センシティブなPIIデータを保護するためのセマンティック・アウェア・プライバシ・エージェントを提案する。
応答品質を劣化させるような以前の作業とは異なり、我々のアプローチはユーザプロンプトのセンシティブなPIIエンティティを意味的に一貫した名前で動的に置き換える。
この結果から,LOPSIDEDは基本手法と比較して意味的ユーティリティエラーを5倍に削減できることがわかった。
論文 参考訳(メタデータ) (2025-10-30T21:34:23Z) - AgentStealth: Reinforcing Large Language Model for Anonymizing User-generated Text [8.758843436588297]
AgentStealthは、テキスト匿名化のための自己強化言語モデルである。
本手法は, 匿名化の有効性と実用性の両方において, ベースラインよりも優れていることを示す。
当社の軽量設計は、エッジデバイスへの直接的なデプロイをサポートし、クラウド依存や通信ベースのプライバシリスクを回避する。
論文 参考訳(メタデータ) (2025-06-26T02:48:16Z) - Self-Refining Language Model Anonymizers via Adversarial Distillation [48.280759014096354]
本稿では,Self-refining Anonymization with Language Model (SEAL)を紹介する。
SEALは、推論時に外部モデルに頼ることなく効果的な匿名化を行うために、小型言語モデル(SLM)をトレーニングするための新しい蒸留フレームワークである。
合成個人プロファイルとテキストコメントのデータセットであるSynthPAIの実験は、SEALでトレーニングされたSLMが匿名化機能を大幅に改善したことを示す。
論文 参考訳(メタデータ) (2025-06-02T08:21:27Z) - Can Large Language Models Really Recognize Your Name? [23.4365383606717]
現代大規模言語モデル(LLM)は、曖昧な文脈のため、短いテキストスニペットでも定期的に人名を見落としている。
AMBENCHは、明らかに不明瞭な人物名のベンチマークデータセットである。
論文 参考訳(メタデータ) (2025-05-20T16:05:05Z) - Robust Utility-Preserving Text Anonymization Based on Large Language Models [80.5266278002083]
機密情報を含む匿名化は、幅広いアプリケーションにとって不可欠である。
既存の技術は、大規模言語モデルの再識別能力の新たな課題に直面している。
本稿では,プライバシ評価器,ユーティリティ評価器,最適化コンポーネントの3つの重要なコンポーネントで構成されるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T14:28:56Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - No Intruder, no Validity: Evaluation Criteria for Privacy-Preserving
Text Anonymization [0.48733623015338234]
自動テキスト匿名化システムを開発する研究者や実践者は,その評価手法が,個人を再同定から保護するシステムの能力に本当に反映しているかどうかを慎重に評価すべきである。
本稿では,匿名化手法の技術的性能,匿名化による情報損失,不正文書の非匿名化能力を含む評価基準のセットを提案する。
論文 参考訳(メタデータ) (2021-03-16T18:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。