論文の概要: Reinforcement-Guided Synthetic Data Generation for Privacy-Sensitive Identity Recognition
- arxiv url: http://arxiv.org/abs/2604.07884v1
- Date: Thu, 09 Apr 2026 06:52:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.747784
- Title: Reinforcement-Guided Synthetic Data Generation for Privacy-Sensitive Identity Recognition
- Title(参考訳): プライバシ・センシティブ・アイデンティティ認識のための強化誘導型合成データ生成
- Authors: Xuemei Jia, Jiawei Du, Hui Wei, Jun Chen, Joey Tianyi Zhou, Zheng Wang,
- Abstract要約: 高忠実度生成モデルは、プライバシーに敏感なシナリオでますます必要とされている。
限られたデータによって生成モデルは貧弱になり、データ不足を軽減できない。
汎用ドメイン生成の先行を識別タスクに適応させる,強化誘導型合成データ生成フレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.52810518437911
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: High-fidelity generative models are increasingly needed in privacy-sensitive scenarios, where access to data is severely restricted due to regulatory and copyright constraints. This scarcity hampers model development--ironically, in settings where generative models are most needed to compensate for the lack of data. This creates a self-reinforcing challenge: limited data leads to poor generative models, which in turn fail to mitigate data scarcity. To break this cycle, we propose a reinforcement-guided synthetic data generation framework that adapts general-domain generative priors to privacy-sensitive identity recognition tasks. We first perform a cold-start adaptation to align a pretrained generator with the target domain, establishing semantic relevance and initial fidelity. Building on this foundation, we introduce a multi-objective reward that jointly optimizes semantic consistency, coverage diversity, and expression richness, guiding the generator to produce both realistic and task-effective samples. During downstream training, a dynamic sample selection mechanism further prioritizes high-utility synthetic samples, enabling adaptive data scaling and improved domain alignment. Extensive experiments on benchmark datasets demonstrate that our framework significantly improves both generation fidelity and classification accuracy, while also exhibiting strong generalization to novel categories in small-data regimes.
- Abstract(参考訳): プライバシーに敏感なシナリオでは、規制や著作権の制約によりデータへのアクセスが厳しく制限される。
偶然にも、データ不足を補うために生成モデルが最も必要となる環境では、この希少なハッパーモデルが開発されます。
限られたデータによって生成モデルが貧弱になるため、データ不足が軽減されません。
このサイクルを断ち切るために、プライバシに敏感な識別タスクに一般ドメイン生成先を適応させる強化誘導型合成データ生成フレームワークを提案する。
まず,事前学習したジェネレータを対象ドメインに整列させる冷間開始適応を行い,意味的関連性と初期忠実性を確立する。
この基礎の上に構築された多目的報酬は、意味的一貫性、範囲の多様性、表現豊かさを共同で最適化し、現実的かつタスク効率の良いサンプルを生成するようにジェネレータを誘導する。
下流トレーニングにおいて、動的サンプル選択機構は、高ユーティリティな合成サンプルをさらに優先順位付けし、適応的なデータスケーリングとドメインアライメントの改善を可能にする。
ベンチマークデータセットの大規模な実験により、我々のフレームワークは、生成の忠実度と分類精度の両方を著しく改善し、同時に、小規模データ体制における新しいカテゴリへの強力な一般化も示している。
関連論文リスト
- UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation [70.2215233759276]
UtilGenは、コンピュータビジョンタスクのための新しいユーティリティ中心のデータ拡張フレームワークである。
UtilGenは、常に優れたデータセットを達成しており、平均精度は以前のSOTAよりも3.87%向上している。
データの影響と分布のさらなる分析により、UtilGenはより影響のあるタスク関連合成データを生成することが明らかになった。
論文 参考訳(メタデータ) (2025-10-28T10:17:11Z) - Privacy Auditing Synthetic Data Release through Local Likelihood Attacks [7.780592134085148]
遺伝子様比攻撃(Gen-LRA)
Gen-LRAは、サロゲートモデルによる合成データに対する局所確率比の推定において、テスト観測が与える影響を評価して攻撃を定式化する。
その結果、Gen-LRAは、合成データのリリースのためのプライバシ監査ツールとしての有効性を裏付けている。
論文 参考訳(メタデータ) (2025-08-28T18:27:40Z) - AugGen: Synthetic Augmentation using Diffusion Models Can Improve Recognition [14.525986333650417]
合成データ生成は、外部データセットや事前訓練されたモデルに代わる有望な代替手段を提供する。
AugGenは、ターゲットFRデータセットにのみ訓練されたクラス条件生成モデルから戦略的にサンプリングする。
本研究は, プライバシー制約を緩和し, 認識性能を大幅に向上できることを示す。
論文 参考訳(メタデータ) (2025-03-14T16:10:21Z) - KIPPS: Knowledge infusion in Privacy Preserving Synthetic Data
Generation [0.0]
生成的ディープラーニングモデルは、ドメイン制約のある離散的および非ガウス的特徴をモデル化するのに苦労する。
生成モデルは、プライバシーリスクであるセンシティブな機能を繰り返す合成データを生成する。
本稿では,知識グラフから知識グラフにドメインと規則的知識を注入する新しいモデルKIPPSを提案する。
論文 参考訳(メタデータ) (2024-09-25T19:50:03Z) - Model Stealing Attack against Graph Classification with Authenticity, Uncertainty and Diversity [80.16488817177182]
GNNは、クエリ許可を通じてターゲットモデルを複製するための悪行であるモデル盗難攻撃に対して脆弱である。
異なるシナリオに対応するために,3つのモデルステルス攻撃を導入する。
論文 参考訳(メタデータ) (2023-12-18T05:42:31Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Learning Consistent Deep Generative Models from Sparse Data via
Prediction Constraints [16.48824312904122]
我々は変分オートエンコーダやその他の深層生成モデルを学ぶための新しいフレームワークを開発する。
これら2つのコントリビューション -- 予測制約と一貫性制約 -- が,画像分類性能の有望な向上につながることを示す。
論文 参考訳(メタデータ) (2020-12-12T04:18:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。