論文の概要: DP-DocLDM: Differentially Private Document Image Generation using Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2508.04208v1
- Date: Wed, 06 Aug 2025 08:43:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.634621
- Title: DP-DocLDM: Differentially Private Document Image Generation using Latent Diffusion Models
- Title(参考訳): DP-DocLDM:潜時拡散モデルを用いた個人用文書画像生成
- Authors: Saifullah Saifullah, Stefan Agne, Andreas Dengel, Sheraz Ahmed,
- Abstract要約: 本研究の目的は,文書画像分類の文脈における課題に対して,実際のプライベートデータを合成データに置き換えることである。
特に,条件付き潜在拡散モデル(LDM)と差分プライバシー(DP)を組み合わせて,クラス固有の合成文書画像を生成することを提案する。
提案手法は,小規模データセットの下流評価において,大幅な性能向上を実現していることを示す。
- 参考スコア(独自算出の注目度): 5.247930659596986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As deep learning-based, data-driven information extraction systems become increasingly integrated into modern document processing workflows, one primary concern is the risk of malicious leakage of sensitive private data from these systems. While some recent works have explored Differential Privacy (DP) to mitigate these privacy risks, DP-based training is known to cause significant performance degradation and impose several limitations on standard training procedures, making its direct application to downstream tasks both difficult and costly. In this work, we aim to address the above challenges within the context of document image classification by substituting real private data with a synthetic counterpart. In particular, we propose to use conditional latent diffusion models (LDMs) in combination with differential privacy (DP) to generate class-specific synthetic document images under strict privacy constraints, which can then be utilized to train a downstream classifier following standard training procedures. We investigate our approach under various pretraining setups, including unconditional, class-conditional, and layout-conditional pretraining, in combination with multiple private training strategies such as class-conditional and per-label private fine-tuning with DPDM and DP-Promise algorithms. Additionally, we evaluate it on two well-known document benchmark datasets, RVL-CDIP and Tobacco3482, and show that it can generate useful and realistic document samples across various document types and privacy levels ($\varepsilon \in \{1, 5, 10\}$). Lastly, we show that our approach achieves substantial performance improvements in downstream evaluations on small-scale datasets, compared to the direct application of DP-Adam.
- Abstract(参考訳): ディープラーニングに基づくデータ駆動型情報抽出システムが、現代文書処理ワークフローにますます統合されるにつれて、主要な関心事は、これらのシステムから機密性の高いプライベートデータが悪意ある漏洩するリスクである。
最近の研究では、これらのプライバシーリスクを軽減するために差分プライバシー(DP)について検討されているが、DPベースのトレーニングはパフォーマンスを著しく低下させ、標準的なトレーニング手順にいくつかの制限を課すことが知られており、ダウンストリームタスクへの直接適用は困難かつ費用がかかる。
本研究では,文書画像分類の文脈において,実際のプライベートデータを合成データに置き換えることによって,上記の課題に対処することを目的とする。
特に,条件付き潜在拡散モデル(LDM)と差分プライバシー(DP)を組み合わせて,厳密なプライバシー制約の下でクラス固有の合成文書画像を生成することを提案する。
我々は,非条件,クラス条件,レイアウト条件の事前訓練など,様々な事前訓練環境下でのアプローチと,DPDMアルゴリズムとDP-Promiseアルゴリズムによるクラス条件およびラベルごとの個別微調整といった複数のプライベートトレーニング戦略を併用して検討する。
さらに、よく知られた文書ベンチマークデータセットであるRVL-CDIPとTobacco3482で評価し、様々なドキュメントタイプとプライバシレベル(\varepsilon \in \{1, 5, 10\}$)にわたって有用で現実的な文書サンプルを生成することができることを示す。
最後に,本手法はDP-Adamの直接適用と比較して,小規模データセットのダウンストリーム評価において大幅な性能向上を実現していることを示す。
関連論文リスト
- Private Training & Data Generation by Clustering Embeddings [74.00687214400021]
差分プライバシー(DP)は、個々のデータを保護するための堅牢なフレームワークを提供する。
本稿では,DP合成画像埋め込み生成のための新しい原理的手法を提案する。
経験的に、合成的に生成された埋め込みに基づいて訓練された単純な2層ニューラルネットワークは、最先端(SOTA)分類の精度を達成する。
論文 参考訳(メタデータ) (2025-06-20T00:17:14Z) - Differentially Private Relational Learning with Entity-level Privacy Guarantees [17.567309430451616]
本研究は,形式的エンティティレベルDP保証を用いた関係学習の原則的枠組みを提案する。
本稿では,実体発生頻度に基づいてクリッピング閾値を変調する適応的勾配クリッピング方式を提案する。
これらの貢献により、プライバシー保証が保証されたリレーショナルデータに対して、DP-SGDの修正版が提供される。
論文 参考訳(メタデータ) (2025-06-10T02:03:43Z) - Activity Recognition on Avatar-Anonymized Datasets with Masked Differential Privacy [64.32494202656801]
プライバシを保存するコンピュータビジョンは、機械学習と人工知能において重要な問題である。
本稿では,ビデオデータセット中の感性のある被験者を文脈内の合成アバターに置き換える匿名化パイプラインを提案する。
また、匿名化されていないがプライバシーに敏感な背景情報を保護するため、MaskDPを提案する。
論文 参考訳(メタデータ) (2024-10-22T15:22:53Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - PrivacyMind: Large Language Models Can Be Contextual Privacy Protection Learners [81.571305826793]
コンテキストプライバシ保護言語モデル(PrivacyMind)を紹介する。
我々の研究はモデル設計に関する理論的分析を提供し、様々な手法をベンチマークする。
特に、肯定的な例と否定的な例の両方による命令チューニングは、有望な方法である。
論文 参考訳(メタデータ) (2023-10-03T22:37:01Z) - Synthetic Query Generation for Privacy-Preserving Deep Retrieval Systems using Differentially Private Language Models [21.66239227367523]
深層検索システムのトレーニングに先立って,クエリプライバシの確保を優先する手法を提案する。
提案手法では,DP言語モデル(LM)を用いて,元のデータを表すプライベートな合成クエリを生成する。
論文 参考訳(メタデータ) (2023-05-10T08:30:31Z) - On the Efficacy of Differentially Private Few-shot Image Classification [40.49270725252068]
パーソナライズやフェデレーション学習を含む多くのアプリケーションにおいて、数ショット設定でうまく機能することが不可欠である。
本稿では,クラス毎のショット数,プライバシレベル,モデルアーキテクチャ,下流データセット,学習可能なパラメータのサブセットなど,DP画像分類モデルの精度と脆弱性がどう影響するかを示す。
論文 参考訳(メタデータ) (2023-02-02T16:16:25Z) - Private Set Generation with Discriminative Information [63.851085173614]
異なるプライベートなデータ生成は、データプライバシの課題に対する有望な解決策である。
既存のプライベートな生成モデルは、合成サンプルの有用性に苦慮している。
我々は,最先端アプローチのサンプルユーティリティを大幅に改善する,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T10:02:55Z) - Differentially Private Diffusion Models [46.46256537222917]
我々は近年の拡散モデル(DM)の成功の上に構築され、微分プライベート拡散モデル(DPDM)を導入している。
DMのトレーニングに適したDP-SGDの強力な修正であるノイズ多重性を提案する。
我々は,新しいDPDMを画像生成ベンチマークで検証し,すべての実験で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:20:47Z) - Differentially private federated deep learning for multi-site medical
image segmentation [56.30543374146002]
フェデレートラーニング(FL)のような協調機械学習技術は、データ転送なしで効果的に大規模なデータセット上でモデルのトレーニングを可能にする。
近年のイニシアチブでは、FLで訓練されたセグメンテーションモデルが、局所的に訓練されたモデルと同様のパフォーマンスを達成できることが示されている。
しかし、FLは完全なプライバシ保護技術ではなく、プライバシ中心の攻撃は秘密の患者データを開示することができる。
論文 参考訳(メタデータ) (2021-07-06T12:57:32Z) - On Deep Learning with Label Differential Privacy [54.45348348861426]
ラベルは機密性があり、保護されるべきであるとするマルチクラス分類について検討する。
本稿では,ラベル差分プライバシを用いたディープニューラルネットワークのトレーニングアルゴリズムを提案し,いくつかのデータセットで評価を行う。
論文 参考訳(メタデータ) (2021-02-11T15:09:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。