論文の概要: Prompt Public Large Language Models to Synthesize Data for Private On-device Applications
- arxiv url: http://arxiv.org/abs/2404.04360v2
- Date: Wed, 7 Aug 2024 03:36:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 17:20:23.117203
- Title: Prompt Public Large Language Models to Synthesize Data for Private On-device Applications
- Title(参考訳): プライベートオンデバイスアプリケーションのためのデータ合成のためのプロンプト公開大言語モデル
- Authors: Shanshan Wu, Zheng Xu, Yanxiang Zhang, Yuanbo Zhang, Daniel Ramage,
- Abstract要約: 本稿では,DP と FL でトレーニングしたデバイス上での言語モデルにおいて,公開データに基づいてトレーニングした大規模言語モデル (LLM) が事前学習データの質を向上する方法について検討する。
合成データセットに事前学習したモデルでは, 単語予測精度が19.0%, 22.8%向上した。
実験では, プライベートデータにアクセスしなくても, プライベートデータに近いデータを合成する上でのLCMの強みを実証した。
- 参考スコア(独自算出の注目度): 5.713077600587505
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training on public data is an effective method to improve the performance for federated learning (FL) with differential privacy (DP). This paper investigates how large language models (LLMs) trained on public data can improve the quality of pre-training data for the on-device language models trained with DP and FL. We carefully design LLM prompts to filter and transform existing public data, and generate new data to resemble the real user data distribution. The model pre-trained on our synthetic dataset achieves relative improvement of 19.0% and 22.8% in next word prediction accuracy compared to the baseline model pre-trained on a standard public dataset, when evaluated over the real user data in Gboard (Google Keyboard, a production mobile keyboard application). Furthermore, our method achieves evaluation accuracy better than or comparable to the baseline during the DP FL fine-tuning over millions of mobile devices, and our final model outperforms the baseline in production A/B testing. Our experiments demonstrate the strengths of LLMs in synthesizing data close to the private distribution even without accessing the private data, and also suggest future research directions to further reduce the distribution gap.
- Abstract(参考訳): 公開データの事前学習は、差分プライバシー(DP)を用いた連邦学習(FL)の性能向上に有効な方法である。
本稿では,DP と FL でトレーニングしたデバイス上での言語モデルにおいて,公開データに基づいてトレーニングした大規模言語モデル (LLM) が事前学習データの質を向上する方法について検討する。
我々は、LLMプロンプトを慎重に設計し、既存の公開データをフィルタリングし変換し、実際のユーザデータ配信に類似した新しいデータを生成する。
Gboard(Google Keyboard, 製品用モバイルキーボードアプリケーション)の実際のユーザデータに対して, 標準の公開データセット上で事前学習したベースラインモデルと比較して, 単語予測精度が19.0%, 22.8%向上した。
さらに,本手法は,数百万台のモバイルデバイス上でのDP FL微調整において,ベースラインに匹敵する評価精度を達成し,本手法の最終モデルは実運用A/Bテストにおいてベースラインよりも優れていた。
実験では, プライベートデータにアクセスしなくても, プライベートデータに近いデータを合成する上でのLCMの強みを実証し, 分散ギャップをさらに軽減するための今後の研究方向を提案する。
関連論文リスト
- Privacy-Preserving Customer Churn Prediction Model in the Context of Telecommunication Industry [1.0428401220897083]
クラウド環境におけるプライバシ保護型顧客チャーン予測モデルのためのフレームワークを提案する。
我々は,GAN(Generative Adversarial Networks)とアダプティブウェイト・オブ・エビデンス(Adaptive Weight-of-Evidence,aWOE)を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-03T06:08:59Z) - MATES: Model-Aware Data Selection for Efficient Pretraining with Data Influence Models [16.654859430784825]
手作りのルールやより大きな参照モデルに依存する現在のデータ選択方法は、静的に行われ、事前訓練中に進化するデータ優先をキャプチャしない。
データ影響モデル(MATES)を用いたモデル認識データ選択を導入し、データ影響モデルが事前学習モデルの進化するデータ嗜好に継続的に適応し、現在の事前学習の進行に最も有効なデータを選択する。
C4データセット上で410Mと1Bモデルを事前訓練した実験により、MATESは広範囲な下流タスクにおいてランダムなデータ選択を著しく上回ることを示した。
論文 参考訳(メタデータ) (2024-06-10T06:27:42Z) - Aligning Large Language Models with Self-generated Preference Data [72.99676237703099]
大規模言語モデル(LLM)と人間の嗜好との整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - How to Train Data-Efficient LLMs [56.41105687693619]
事前学習言語モデル(LLM)に対するデータ効率のアプローチについて検討する。
Ask-LLMと密度サンプリングがそれぞれのカテゴリで最適であることがわかった。
何百もの評価タスクと事前学習作業を含む19個のサンプルを比較したところ,Ask-LLMと密度がそれぞれのカテゴリで最適な方法であることが判明した。
論文 参考訳(メタデータ) (2024-02-15T02:27:57Z) - Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models [52.98743860365194]
本稿では,SPIN(Self-Play fIne-tuNing)と呼ばれるファインチューニング手法を提案する。
SPINの中心には自己再生機構があり、LLMは自身のインスタンスと対戦することでその能力を洗練させる。
このことは、自己プレイの約束に光を当て、熟練した相手を必要とせずに、LSMにおける人間レベルのパフォーマンスの達成を可能にする。
論文 参考訳(メタデータ) (2024-01-02T18:53:13Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z) - Can Public Large Language Models Help Private Cross-device Federated Learning? [58.05449579773249]
言語モデルのプライベート・フェデレーション・ラーニング(FL)について検討する。
公開データは、大小両方の言語モデルのプライバシーとユーティリティのトレードオフを改善するために使われてきた。
提案手法は,プライベートなデータ分布に近い公開データをサンプリングするための理論的基盤を持つ新しい分布マッチングアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-20T07:55:58Z) - FedPDC:Federated Learning for Public Dataset Correction [1.5533842336139065]
フェデレート学習は、非IIDシナリオにおける従来の機械学習よりも分類精度が低い。
局所モデルのアグリゲーションモードと局所学習の損失関数を最適化するために,新しいアルゴリズムであるFedPDCを提案する。
多くのベンチマーク実験において、FedPDCは極めて不均衡なデータ分布の場合、グローバルモデルの精度を効果的に向上させることができる。
論文 参考訳(メタデータ) (2023-02-24T08:09:23Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。