論文の概要: Vision Token Masking Alone Cannot Prevent PHI Leakage in Medical Document OCR: A Systematic Evaluation
- arxiv url: http://arxiv.org/abs/2511.18272v1
- Date: Sun, 23 Nov 2025 03:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.737661
- Title: Vision Token Masking Alone Cannot Prevent PHI Leakage in Medical Document OCR: A Systematic Evaluation
- Title(参考訳): 医用文書OCRにおけるPHI漏れを予防できない視覚的マスキング : システム的評価
- Authors: Richard J. Young,
- Abstract要約: 視覚言語モデル(VLM)は、医療環境における光学的文字認識(OCR)のためにますます多くデプロイされている。
本研究は、DeepSeek-OCRを用いた医療文書OCRのプライバシー保護機構として、推論時視覚トークンマスキングを初めて体系的に評価したものである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large vision-language models (VLMs) are increasingly deployed for optical character recognition (OCR) in healthcare settings, raising critical concerns about protected health information (PHI) exposure during document processing. This work presents the first systematic evaluation of inference-time vision token masking as a privacy-preserving mechanism for medical document OCR using DeepSeek-OCR. We introduce seven masking strategies (V3-V9) targeting different architectural layers (SAM encoder blocks, compression layers, dual vision encoders, projector fusion) and evaluate PHI reduction across HIPAA-defined categories using 100 synthetic medical billing statements (drawn from a corpus of 38,517 annotated documents) with perfect ground-truth annotations. All masking strategies converge to 42.9% PHI reduction, successfully suppressing long-form spatially-distributed identifiers (patient names, dates of birth, physical addresses at 100% effectiveness) while failing to prevent short structured identifiers (medical record numbers, social security numbers, email addresses, account numbers at 0% effectiveness). Ablation studies varying mask expansion radius (r=1,2,3) demonstrate that increased spatial coverage does not improve reduction beyond this ceiling, indicating that language model contextual inference - not insufficient visual masking - drives structured identifier leakage. A simulated hybrid architecture combining vision masking with NLP post-processing achieves 88.6% total PHI reduction (assuming 80% NLP accuracy on remaining identifiers). This negative result establishes boundaries for vision-only privacy interventions in VLMs, provides guidance distinguishing PHI types amenable to vision-level versus language-level redaction, and redirects future research toward decoder-level fine-tuning and hybrid defense-in-depth architectures for HIPAA-compliant medical document processing.
- Abstract(参考訳): 大規模視覚言語モデル(VLM)は、医療における光学的文字認識(OCR)のためにますます多くデプロイされており、文書処理中に保護された健康情報(PHI)の露出に関する重要な懸念を提起している。
本研究は、DeepSeek-OCRを用いた医療文書OCRのプライバシー保護機構として、推論時視覚トークンマスキングを初めて体系的に評価したものである。
我々は,異なるアーキテクチャ層(SAMエンコーダブロック,圧縮層,デュアルビジョンエンコーダ,プロジェクタ融合)をターゲットにした7つのマスキング戦略(V3-V9)を導入し,100の合成医療請求文(38,517の注釈付き文書コーパスから抽出した)を用いて,HIPAA定義カテゴリにわたるPHI削減を評価する。
全てのマスキング戦略は42.9%のPHI削減に収束し、長期に分散した識別子(患者名、生年月日、物理的アドレスを100%有効に)を抑えるのに成功し、短い構造化された識別子(医療記録番号、社会保障番号、メールアドレス、アカウント番号を0%有効に)を防ぐのに失敗した。
様々なマスク展開半径 (r=1,2,3) のアブレーション研究は、空間被覆の増加がこの天井を超えて減少を改善しないことを示した。
視覚マスクとNLP後処理を組み合わせたシミュレーションハイブリッドアーキテクチャは、88.6%のPHI削減を達成する(残りの識別子の80%のNLP精度を仮定する)。
この否定的な結果は、VLMにおける視覚のみのプライバシ介入の境界を確立し、視覚レベルと言語レベルのリアクションに対応可能なPHIタイプを区別するガイダンスを提供し、HIPAA準拠の医療文書処理のためのデコーダレベルの微調整とハイブリッドディフェンス・イン・ディープスアーキテクチャに向けた将来の研究をリダイレクトする。
関連論文リスト
- Mask What Matters: Controllable Text-Guided Masking for Self-Supervised Medical Image Analysis [2.6554246520306624]
Mask What Mattersは、自己監督型医療画像分析のためのコントロール可能なテキスト誘導マスキングフレームワークである。
既存のMIM法を一貫して上回り、分類精度で最大3.1ポイントの利得を得る。
これらの改善は、全体のマスキング比を著しく低くする。
論文 参考訳(メタデータ) (2025-09-27T02:26:56Z) - Visual-Semantic Knowledge Conflicts in Operating Rooms: Synthetic Data Curation for Surgical Risk Perception in Multimodal Large Language Models [7.916129615051081]
拡散モデルにより生成された34,000以上の合成画像からなるデータセットを提案する。
データセットには、バリデーションのためのゴールドスタンダード参照として機能する214の人間アノテーション付きイメージが含まれている。
論文 参考訳(メタデータ) (2025-06-25T07:06:29Z) - VSF-Med:A Vulnerability Scoring Framework for Medical Vision-Language Models [6.390468088226493]
VSF-Medは医療ビジョン言語モデル(VLM)のためのエンドツーエンドの脆弱性修正フレームワークである。
VSF-Medは5000個の放射線画像から3万以上の敵の変種を合成し、単一のコマンドで医療用VLMの再現可能なベンチマークを可能にする。
Llama-3.2-11B-Vision-Instructは、攻撃効果の持続性に対して1.29sigma$をピーク脆弱性として、GPT-4oは0.69sigma$を同じベクトルに対して0.28sigma$をピーク脆弱性として示す。
論文 参考訳(メタデータ) (2025-06-25T02:56:38Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - Person Recognition at Altitude and Range: Fusion of Face, Body Shape and Gait [70.00430652562012]
FarSightは、顔認識のためのエンドツーエンドシステムで、顔、歩行、体形を横断する生体計測の手がかりを統合する。
FarSightは、4つのコアモジュールにまたがる新しいアルゴリズムを組み込んでいる。
論文 参考訳(メタデータ) (2025-05-07T17:58:25Z) - Unsupervised learning of Data-driven Facial Expression Coding System (DFECS) using keypoint tracking [3.0605062268685868]
コンピュータビジョンベースの顔キーポイントトラッキングを利用して、自動顔符号化システムの教師なし学習を提案する。
結果は、disFAデータセットから推定されるDFECS AUが、テストデータセットの平均的な分散を91.29パーセントまで説明できることを示している。
DFECS AUの87.5パーセントは解釈可能であり、顔面筋運動の方向と一致している。
論文 参考訳(メタデータ) (2024-06-08T10:45:38Z) - OpticalDR: A Deep Optical Imaging Model for Privacy-Protective
Depression Recognition [66.91236298878383]
抑うつ認識(DR)は、特にプライバシー上の懸念の文脈において、大きな課題となる。
我々は,疾患関連特徴を保持しつつ,撮像した顔画像の識別情報を消去する新しいイメージングシステムを設計した。
正確なDRに必要な本態性疾患の特徴を保ちながら、アイデンティティ情報の回復には不可逆である。
論文 参考訳(メタデータ) (2024-02-29T01:20:29Z) - Privacy-Preserving Medical Image Classification through Deep Learning
and Matrix Decomposition [0.0]
近年,医学領域において深層学習(DL)ソリューションが広く研究されている。
医療関連データの利用は厳格に規制されており、病院の外部で医療記録を処理するためには、堅牢なデータ保護措置が必要である。
本稿では, 特異値分解(SVD)と主成分分析(PCA)を用いて, DL解析に使用する前に, 医用画像の難読化を行う。
保護されたデータから関連する情報を抽出するDLアルゴリズムの能力は、難読化フレームに基づく血管造影ビュー分類のタスクに基づいて評価される。
論文 参考訳(メタデータ) (2023-08-31T08:21:09Z) - Is Vertical Logistic Regression Privacy-Preserving? A Comprehensive
Privacy Analysis and Beyond [57.10914865054868]
垂直ロジスティック回帰(VLR)をミニバッチ降下勾配で訓練した。
我々は、オープンソースのフェデレーション学習フレームワークのクラスにおいて、VLRの包括的で厳密なプライバシー分析を提供する。
論文 参考訳(メタデータ) (2022-07-19T05:47:30Z) - Dual Spoof Disentanglement Generation for Face Anti-spoofing with Depth
Uncertainty Learning [54.15303628138665]
フェース・アンチ・スプーフィング(FAS)は、顔認識システムが提示攻撃を防ぐ上で重要な役割を担っている。
既存のフェース・アンチ・スプーフィング・データセットは、アイデンティティと重要なばらつきが不十分なため、多様性を欠いている。
我々は「生成によるアンチ・スプーフィング」によりこの問題に対処するデュアル・スポット・ディアンタングメント・ジェネレーション・フレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-01T15:36:59Z) - Deep Spatial Gradient and Temporal Depth Learning for Face Anti-spoofing [61.82466976737915]
深層学習は、顔の反偽造の最も効果的な方法の1つとして証明されている。
2つの洞察に基づいて,複数フレームからの提示攻撃を検出する新しい手法を提案する。
提案手法は,5つのベンチマークデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2020-03-18T06:11:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。