論文の概要: Is API Access to LLMs Useful for Generating Private Synthetic Tabular Data?
- arxiv url: http://arxiv.org/abs/2502.06555v1
- Date: Mon, 10 Feb 2025 15:23:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-11 14:32:36.464458
- Title: Is API Access to LLMs Useful for Generating Private Synthetic Tabular Data?
- Title(参考訳): LLMへのAPIアクセスは、プライベートシンセティックタブラリデータの生成に有用か?
- Authors: Marika Swanberg, Ryan McKenna, Edo Roth, Albert Cheu, Peter Kairouz,
- Abstract要約: 差分プライベート(DP)合成データは、個人データの分析を可能にする汎用的なツールである。
大規模言語モデル(LLM)の最近の進歩は、DP合成データ生成を改善するための多くのアルゴリズム技術にインスピレーションを与えている。
あるアプローチの族は、基礎モデル重み付けにDP微調整を用いるが、最先端モデルのモデル重み付けは公開されていないかもしれない。
- 参考スコア(独自算出の注目度): 19.72500788849435
- License:
- Abstract: Differentially private (DP) synthetic data is a versatile tool for enabling the analysis of private data. Recent advancements in large language models (LLMs) have inspired a number of algorithm techniques for improving DP synthetic data generation. One family of approaches uses DP finetuning on the foundation model weights; however, the model weights for state-of-the-art models may not be public. In this work we propose two DP synthetic tabular data algorithms that only require API access to the foundation model. We adapt the Private Evolution algorithm (Lin et al., 2023; Xie et al., 2024) -- which was designed for image and text data -- to the tabular data domain. In our extension of Private Evolution, we define a query workload-based distance measure, which may be of independent interest. We propose a family of algorithms that use one-shot API access to LLMs, rather than adaptive queries to the LLM. Our findings reveal that API-access to powerful LLMs does not always improve the quality of DP synthetic data compared to established baselines that operate without such access. We provide insights into the underlying reasons and propose improvements to LLMs that could make them more effective for this application.
- Abstract(参考訳): 差分プライベート(DP)合成データは、個人データの分析を可能にする汎用的なツールである。
大規模言語モデル(LLM)の最近の進歩は、DP合成データ生成を改善するための多くのアルゴリズム技術にインスピレーションを与えている。
あるアプローチの族は、基礎モデル重み付けにDP微調整を用いるが、最先端モデルのモデル重み付けは公開されていないかもしれない。
本研究では,基礎モデルへのAPIアクセスのみを必要とする2つのDP合成表データアルゴリズムを提案する。
画像およびテキストデータ用に設計されたPrivate Evolutionアルゴリズム(Lin et al , 2023; Xie et al , 2024)を表データ領域に適用する。
プライベート・エボリューション(Private Evolution)の拡張で、クエリ・ワークロードに基づく距離測定を定義しました。
LLMへの適応クエリではなく、LLMへのワンショットAPIアクセスを利用するアルゴリズム群を提案する。
以上の結果から,強力なLCMへのAPIアクセスがDP合成データの質を必ずしも向上させるとは限らないことが判明した。
基礎となる理由に関する洞察を提供し、このアプリケーションでより効果的になるようなLLMの改善を提案します。
関連論文リスト
- Efficient Alignment of Large Language Models via Data Sampling [0.4915744683251149]
本稿では,少数の高品質サブセットを同定し,効率的なアライメントのための情報理論に基づく手法を提案する。
提案手法を用いたモデルでは,他のサンプリング手法よりも優れた性能を示し,全データセットに対応するモデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-11-15T19:36:15Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - Magpie: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing [48.07915731998946]
我々はMagpieという名の大規模アライメントデータを生成する自己合成法を提案する。
我々はこの手法を用いてLlama-3-Instructを誘導し、対応する応答とともに400万の命令を生成する。
以上の結果から,Magpieを微調整したモデルでは,公式のLlama-3-8B-インストラクトと同等に動作することが示唆された。
論文 参考訳(メタデータ) (2024-06-12T17:52:30Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - ExaRanker-Open: Synthetic Explanation for IR using Open-Source LLMs [60.81649785463651]
ExaRanker-Openを導入し、オープンソース言語モデルを適用して、説明を生成する。
以上の結果から,LLMのサイズが大きくなるにつれて,説明の組み込みが神経ランク付けを継続的に促進することが明らかとなった。
論文 参考訳(メタデータ) (2024-02-09T11:23:14Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。
各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。
ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。
品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文 参考訳(メタデータ) (2023-08-25T01:41:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。