Fugu-MT 論文翻訳(概要): Differentially Private Synthetic Data via Foundation Model APIs 2: Text

論文の概要: Differentially Private Synthetic Data via Foundation Model APIs 2: Text

arxiv url: http://arxiv.org/abs/2403.01749v1
Date: Mon, 4 Mar 2024 05:57:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-06 20:08:39.128887
Title: Differentially Private Synthetic Data via Foundation Model APIs 2: Text
Title（参考訳）: Foundation Model APIによる異なるプライベートな合成データ2:テキスト
Authors: Chulin Xie, Zinan Lin, Arturs Backurs, Sivakanth Gopi, Da Yu, Huseyin A Inan, Harsha Nori, Haotian Jiang, Huishuai Zhang, Yin Tat Lee, Bo Li, Sergey Yekhanin
Abstract要約: 現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
参考スコア（独自算出の注目度）: 57.64059482750924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text data has become extremely valuable due to the emergence of machine learning algorithms that learn from it. A lot of high-quality text data generated in the real world is private and therefore cannot be shared or used freely due to privacy concerns. Generating synthetic replicas of private text data with a formal privacy guarantee, i.e., differential privacy (DP), offers a promising and scalable solution. However, existing methods necessitate DP finetuning of large language models (LLMs) on private data to generate DP synthetic data. This approach is not viable for proprietary LLMs (e.g., GPT-3.5) and also demands considerable computational resources for open-source LLMs. Lin et al. (2024) recently introduced the Private Evolution (PE) algorithm to generate DP synthetic images with only API access to diffusion models. In this work, we propose an augmented PE algorithm, named Aug-PE, that applies to the complex setting of text. We use API access to an LLM and generate DP synthetic text without any model training. We conduct comprehensive experiments on three benchmark datasets. Our results demonstrate that Aug-PE produces DP synthetic text that yields competitive utility with the SOTA DP finetuning baselines. This underscores the feasibility of relying solely on API access of LLMs to produce high-quality DP synthetic texts, thereby facilitating more accessible routes to privacy-preserving LLM applications. Our code and data are available at https://github.com/AI-secure/aug-pe.
Abstract（参考訳）: テキストデータは、そこから学習する機械学習アルゴリズムの出現によって、非常に価値の高いものになっている。現実世界で生成された多くの高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり利用したりできない。プライベートテキストデータの合成レプリカを形式的なプライバシー保証、すなわち差分プライバシー(DP)で生成することは、有望でスケーラブルなソリューションを提供する。しかし,既存の手法では,大規模言語モデル(llm)をプライベートデータに微調整してdp合成データを生成する必要がある。このアプローチはプロプライエタリなLCM(例えば GPT-3.5)には有効ではなく、オープンソースのLCMにはかなりの計算資源を必要とする。 Lin et al. (2024)は先日,拡散モデルにのみアクセス可能なDP合成画像を生成するために,Private Evolution (PE)アルゴリズムを導入した。本研究では,テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。 LLMへのAPIアクセスを使用し、モデルトレーニングなしでDP合成テキストを生成する。 3つのベンチマークデータセットで包括的な実験を行う。その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。これにより、LLMのAPIアクセスのみに頼って高品質のDP合成テキストを生成することが可能となり、プライバシー保護のLLMアプリケーションへのよりアクセスしやすいルートが実現可能になった。私たちのコードとデータはhttps://github.com/ai-secure/aug-peで入手できます。

関連論文リスト

PCEvolve: Private Contrastive Evolution for Synthetic Dataset Generation via Few-Shot Private Data and Generative APIs [39.108700932535754]
プライベート進化(PE)アルゴリズムは拡散モデルAPIを用いて差分プライバシー(DP)合成画像を生成する。実際には、医療や業界といった専門分野では、ごくわずかのプライベートデータの問題が特に多い。提案手法は,複数ショットのプライベートデータにおいて,クラス間のコントラスト関係を反復的にマイニングする,新しいAPI支援アルゴリズムであるPrivate Contrastive Evolution (PCEvolve)を提案する。
論文参考訳（メタデータ） (2025-06-04T13:33:06Z)
Private Text Generation by Seeding Large Language Model Prompts [13.407214545457778]
感性入力コーパスから個人用合成テキストコーパスを生成するDP-KPSを提案する。下流MLテキスト分類タスクにおけるDP-KPSの評価を行い、生成したコーパスが元のテキストの予測能力の多くを保持することを示す。
論文参考訳（メタデータ） (2025-02-18T16:50:38Z)
Is API Access to LLMs Useful for Generating Private Synthetic Tabular Data? [19.72500788849435]
差分プライベート(DP)合成データは、個人データの分析を可能にする汎用的なツールである。大規模言語モデル(LLM)の最近の進歩は、DP合成データ生成を改善するための多くのアルゴリズム技術にインスピレーションを与えている。あるアプローチの族は、基礎モデル重み付けにDP微調整を用いるが、最先端モデルのモデル重み付けは公開されていないかもしれない。
論文参考訳（メタデータ） (2025-02-10T15:23:52Z)
Differentially Private Synthetic Data via APIs 3: Using Simulators Instead of Foundation Model [13.28430346661924]
差分プライベート(DP)合成データは、プライバシーを損なうことなく、プライベートデータの価値を解放するための重要なツールとなっている。プライベート・エボリューション(PE)はDP合成データを生成するための有望な方法として登場した。計算機グラフィックスベースの画像合成ツールであるシミュレーターが、PEフレームワーク内で効果的なAPIとして機能することを示します。
論文参考訳（メタデータ） (2025-02-08T09:50:30Z)
Private Synthetic Text Generation with Diffusion Models [13.240347195231305]
完全オープンソース LLM はプライバシー体制における拡散モデルよりも優れていることを示す。私たちの完全なソースコード、データセット、実験的なセットアップは、将来の研究を促進するために公開されています。
論文参考訳（メタデータ） (2024-10-30T12:38:49Z)
Cool-Fusion: Fuse Large Language Models without Training [73.17551121242602]
emphCool-Fusionは、アンサンブルアプローチのようないかなるタイプのトレーニングも必要としないメソッドである。 emphCool-Fusionは3つの強力なLLMの精度を8%から17.8%向上させる。
論文参考訳（メタデータ） (2024-07-29T09:02:19Z)
Private prediction for large-scale synthetic text generation [28.488459921169905]
大規模言語モデル(LLM)を用いた微分プライベートテキスト生成手法を提案する。プライベートな予測フレームワークでは、差分プライバシー保証を満たすために出力された合成データのみを必要とする。
論文参考訳（メタデータ） (2024-07-16T18:28:40Z)
Data Augmentation for Text-based Person Retrieval Using Large Language Models [16.120524750964016]
テキストベースのPerson Retrieval (TPR)は、テキストクエリが与えられた記述と一致する人物画像の検索を目的としている。高価なアノテーションとプライバシー保護のため、大規模で高品質なTPRデータセットを構築するのは難しい。本稿では,TPRのためのLLM-DA法を提案する。
論文参考訳（メタデータ） (2024-05-20T11:57:50Z)
Differentially Private Knowledge Distillation via Synthetic Text Generation [5.201318326501886]
本研究では,差分プライベートな知識蒸留アルゴリズムであるDistilDPを提案する。 DistilDPは、差分的にプライベートなLLMによって生成された合成データを利用する。実験の結果, DistilDPは既存のベースラインよりも実用性を大幅に向上できることがわかった。
論文参考訳（メタデータ） (2024-03-01T19:22:24Z)
Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。 SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文参考訳（メタデータ） (2024-01-02T18:53:13Z)
Contrastive Transformer Learning with Proximity Data Generation for Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文参考訳（メタデータ） (2023-11-15T16:26:49Z)
Source Attribution for Large Language Model-Generated Data [57.85840382230037]
合成テキストの生成に寄与したデータプロバイダを特定することで、ソース属性を実行できることが不可欠である。我々はこの問題を透かしによって取り組めることを示した。本稿では,アルゴリズム設計により,これらの重要な特性を満足する情報源属性フレームワークを提案する。
論文参考訳（メタデータ） (2023-10-01T12:02:57Z)
LLMDet: A Third Party Large Language Models Generated Text Detection Tool [119.0952092533317]
大規模言語モデル(LLM)は、高品質な人間によるテキストに非常に近い。既存の検出ツールは、機械が生成したテキストと人間によるテキストしか区別できない。本稿では,モデル固有,セキュア,効率的,拡張可能な検出ツールであるLLMDetを提案する。
論文参考訳（メタデータ） (2023-05-24T10:45:16Z)
A Survey of Pretrained Language Models Based Text Generation [97.64625999380425]
テキスト生成は、入力データから人間の言語で可読で読みやすいテキストを生成することを目的としている。ディープラーニングは、ニューラルジェネレーションモデル、特に事前学習言語モデル(PLM)のパラダイムにより、この分野を大幅に進歩させた。 PLM上でのテキスト生成は、学術と産業の両方において有望な方向と見なされている。
論文参考訳（メタデータ） (2022-01-14T01:44:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。