論文の概要: DP-NMT: Scalable Differentially-Private Machine Translation
- arxiv url: http://arxiv.org/abs/2311.14465v1
- Date: Fri, 24 Nov 2023 13:19:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 15:14:38.642308
- Title: DP-NMT: Scalable Differentially-Private Machine Translation
- Title(参考訳): DP-NMT:スケーラブルな微分代用機械翻訳
- Authors: Timour Igamberdiev, Doan Nam Long Vu, Felix K\"unnecke, Zhuo Yu,
Jannik Holmer, Ivan Habernal
- Abstract要約: DP-SGDを用いたプライバシー保護NMTの研究を行うためのオープンソースフレームワークであるDP-NMTを紹介する。
我々のゴールは、プライバシー保護NMTシステムの開発を進めるためのプラットフォームを提供することです。
- 参考スコア(独自算出の注目度): 11.752766574632796
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural machine translation (NMT) is a widely popular text generation task,
yet there is a considerable research gap in the development of
privacy-preserving NMT models, despite significant data privacy concerns for
NMT systems. Differentially private stochastic gradient descent (DP-SGD) is a
popular method for training machine learning models with concrete privacy
guarantees; however, the implementation specifics of training a model with
DP-SGD are not always clarified in existing models, with differing software
libraries used and code bases not always being public, leading to
reproducibility issues. To tackle this, we introduce DP-NMT, an open-source
framework for carrying out research on privacy-preserving NMT with DP-SGD,
bringing together numerous models, datasets, and evaluation metrics in one
systematic software package. Our goal is to provide a platform for researchers
to advance the development of privacy-preserving NMT systems, keeping the
specific details of the DP-SGD algorithm transparent and intuitive to
implement. We run a set of experiments on datasets from both general and
privacy-related domains to demonstrate our framework in use. We make our
framework publicly available and welcome feedback from the community.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)は、広く普及しているテキスト生成タスクであるが、NMTシステムに重大なデータプライバシー上の懸念があるにもかかわらず、プライバシを保存するNMTモデルの開発にはかなりの研究ギャップがある。
DP-SGDは、具体的なプライバシー保証のある機械学習モデルをトレーニングするための一般的な方法であるが、DP-SGDでモデルをトレーニングする実装仕様は、既存のモデルでは常に明確化されていない。
これを解決するため,DP-SGDを用いてプライバシー保護NMTの研究を行うオープンソースフレームワークであるDP-NMTを導入し,多数のモデル,データセット,評価指標をひとつのソフトウェアパッケージにまとめる。
我々の目標は、DP-SGDアルゴリズムの具体的詳細を透過的かつ直感的に実装し、プライバシー保護型NMTシステムの開発を進めるためのプラットフォームを提供することです。
当社では、汎用およびプライバシ関連ドメインのデータセットに関する一連の実験を実施して、使用中のフレームワークを実演しています。
フレームワークを一般公開し、コミュニティからのフィードバックを歓迎します。
関連論文リスト
- DP-2Stage: Adapting Language Models as Differentially Private Tabular Data Generators [47.86275136491794]
差分プライベートデータ生成のための2段階微調整フレームワークを提案する。
最初のステージでは、擬似データセットで非プライベートな微調整が行われ、続いてプライベートデータセットでDP微調整が行われる。
提案手法は,DPコンテキストにおいて直接微調整されたLCMと比較して,様々な設定やメトリクスにおける性能向上を図っている。
論文 参考訳(メタデータ) (2024-12-03T14:10:09Z) - Mind the Privacy Unit! User-Level Differential Privacy for Language Model Fine-Tuning [62.224804688233]
差分プライバシ(DP)は、モデルが特定のプライバシユニットで「ほとんど区別できない」ことを保証することで、有望なソリューションを提供する。
ユーザ間でのプライバシー保護の確保に必要なアプリケーションによって動機づけられたユーザレベルのDPについて検討する。
論文 参考訳(メタデータ) (2024-06-20T13:54:32Z) - Differentially Private Prototypes for Imbalanced Transfer Learning [16.028575596905554]
本稿では,個人間移動学習の新たなパラダイムとして,DPPL(differially Private Prototype Learning)を提案する。
DPPLは、埋め込み空間内の各プライベートクラスを表すプロトタイプを生成し、推論のために公開することができる。
エンコーダの事前トレーニング以上の公開データを活用すれば,プライバシユーティリティのトレードオフをさらに改善できることを示す。
論文 参考訳(メタデータ) (2024-06-12T09:41:12Z) - LLM-based Privacy Data Augmentation Guided by Knowledge Distillation
with a Distribution Tutor for Medical Text Classification [67.92145284679623]
ノイズの多いプライベートディストリビューションをモデル化し,プライバシコストの低いサンプル生成を制御するDPベースのチュータを提案する。
理論的には、モデルのプライバシ保護を分析し、モデルを実証的に検証する。
論文 参考訳(メタデータ) (2024-02-26T11:52:55Z) - DPGOMI: Differentially Private Data Publishing with Gaussian Optimized
Model Inversion [8.204115285718437]
本稿では,ガウス最適化モデルインバージョン(DPGOMI)を用いた微分プライベートデータパブリッシングを提案し,この問題に対処する。
提案手法では, パブリックジェネレータを用いてプライベートデータを潜時空間にマッピングし, コンバージェンス特性が向上した低次元DP-GANを用いる。
以上の結果から,DPGOMIは,インセプションスコア,Freche't Inception Distance,分類性能において,標準DP-GAN法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-06T18:46:22Z) - Efficient Federated Prompt Tuning for Black-box Large Pre-trained Models [62.838689691468666]
我々は,各ローカルデータセットを最適に活用するためのフェデレートブラックボックス・プロンプト・チューニング(Fed-BBPT)を提案する。
Fed-BBPTは、ローカルユーザーがレギュラーアグリゲーションを通じてプロンプトジェネレータを協調的に訓練するのを支援する中央サーバーに重点を置いている。
大規模な微調整とは対照的に、Fed-BBPTは、PTMストレージとローカルマシンの微調整に関連するメモリの課題を、十分にサイドステップで解決している。
論文 参考訳(メタデータ) (2023-10-04T19:30:49Z) - A Unified View of Differentially Private Deep Generative Modeling [60.72161965018005]
プライバシー上の懸念のあるデータには、データアクセスとデータ共有を頻繁に禁止する厳格な規制が伴う。
これらの障害を克服することは、プライバシーに敏感なデータを含む多くの現実世界のアプリケーションシナリオにおいて、技術的進歩の鍵となる。
差分的プライベート(DP)データパブリッシングは、データの衛生化された形式のみを公開する、魅力的なソリューションを提供する。
論文 参考訳(メタデータ) (2023-09-27T14:38:16Z) - Differentially Private Diffusion Models [46.46256537222917]
我々は近年の拡散モデル(DM)の成功の上に構築され、微分プライベート拡散モデル(DPDM)を導入している。
DMのトレーニングに適したDP-SGDの強力な修正であるノイズ多重性を提案する。
我々は,新しいDPDMを画像生成ベンチマークで検証し,すべての実験で最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-10-18T15:20:47Z) - Don't Generate Me: Training Differentially Private Generative Models
with Sinkhorn Divergence [73.14373832423156]
そこで我々はDP-Sinkhornを提案する。DP-Sinkhornは個人データからデータ分布を差分プライバシで学習するための新しいトランスポートベース生成手法である。
差分的にプライベートな生成モデルを訓練するための既存のアプローチとは異なり、我々は敵の目的に頼らない。
論文 参考訳(メタデータ) (2021-11-01T18:10:21Z) - An Efficient DP-SGD Mechanism for Large Scale NLP Models [28.180412581994485]
自然言語理解(NLU)モデルを訓練するために使用されるデータは、住所や電話番号などのプライベート情報を含むことができる。
基礎となるモデルは、トレーニングデータに含まれるプライベート情報を公開しないことが望ましい。
プライバシ保護モデルを構築するメカニズムとして,DP-SGD(Fariially Private Gradient Descent)が提案されている。
論文 参考訳(メタデータ) (2021-07-14T15:23:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。