論文の概要: Differentially Private Training of Mixture of Experts Models
- arxiv url: http://arxiv.org/abs/2402.07334v1
- Date: Sun, 11 Feb 2024 23:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-13 16:06:20.958829
- Title: Differentially Private Training of Mixture of Experts Models
- Title(参考訳): 専門家モデル混合モデルの微分プライベートトレーニング
- Authors: Pierre Tholoniat, Huseyin A. Inan, Janardhan Kulkarni, Robert Sim
- Abstract要約: 微分プライバシ(DP)の制約下でMoEモデルをトレーニングする試みとして,初めて知られている。
最初の実験では、MoEモデルがDPで効果的に訓練できることを示し、非民間モデルと競合する性能を実現した。
- 参考スコア(独自算出の注目度): 21.41229459561711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This position paper investigates the integration of Differential Privacy (DP)
in the training of Mixture of Experts (MoE) models within the field of natural
language processing. As Large Language Models (LLMs) scale to billions of
parameters, leveraging expansive datasets, they exhibit enhanced linguistic
capabilities and emergent abilities. However, this growth raises significant
computational and privacy concerns. Our study addresses these issues by
exploring the potential of MoE models, known for their computational
efficiency, and the application of DP, a standard for privacy preservation. We
present the first known attempt to train MoE models under the constraints of
DP, addressing the unique challenges posed by their architecture and the
complexities of DP integration. Our initial experimental studies demonstrate
that MoE models can be effectively trained with DP, achieving performance that
is competitive with their non-private counterparts. This initial study aims to
provide valuable insights and ignite further research in the domain of
privacy-preserving MoE models, softly laying the groundwork for prospective
developments in this evolving field.
- Abstract(参考訳): 本稿では,自然言語処理分野におけるMixture of Experts(MoE)モデルのトレーニングにおけるDP(differial Privacy)の統合について検討する。
大規模言語モデル(LLM)が数十億のパラメータにスケールし、拡張データセットを活用すると、言語能力と創発能力が向上する。
しかし、この成長は重要な計算とプライバシーの懸念を引き起こす。
本研究は,その計算効率で知られているMoEモデルの可能性と,プライバシ保護の標準であるDPの適用を探求することによって,これらの課題に対処する。
本稿では,DP の制約下で MoE モデルをトレーニングする試みとして,そのアーキテクチャや DP 統合の複雑さによる固有の課題に対処する。
最初の実験では、MoEモデルがDPで効果的に訓練できることを示し、非民間モデルと競合する性能を実現する。
この最初の研究は、価値ある洞察を提供し、プライバシー保護のMOEモデルの分野におけるさらなる研究を刺激することを目的としている。
関連論文リスト
- On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - FEDKIM: Adaptive Federated Knowledge Injection into Medical Foundation Models [54.09244105445476]
本研究は,フェデレート・ラーニング・フレームワーク内で医療基盤モデルを拡張するための新しい知識注入手法であるFedKIMを紹介する。
FedKIMは軽量なローカルモデルを活用して、プライベートデータから医療知識を抽出し、この知識を集中基盤モデルに統合する。
7つのモードで12タスクを対象に実験を行い,FedKIMの有効性について検討した。
論文 参考訳(メタデータ) (2024-08-17T15:42:29Z) - A Survey on Mixture of Experts [11.801185267119298]
モデルキャパシティを最小限のオーバーヘッドでスケールアップする有効な方法として、専門家(MoE)の混在が現れた。
MoEは、最小限のオーバーヘッドでモデルキャパシティを実質的にスケールアップする効果的な方法として登場した。
この調査は、このギャップを埋めることを目指しており、MoEの複雑さを探求する研究者にとって不可欠なリソースとなっている。
論文 参考訳(メタデータ) (2024-06-26T16:34:33Z) - What matters when building vision-language models? [52.8539131958858]
我々は、80億のパラメータを持つ効率的な基礎的視覚言語モデルであるIdefics2を開発した。
Idefics2は、様々なマルチモーダルベンチマークで、そのサイズカテゴリ内で最先端のパフォーマンスを達成する。
トレーニング用に作成されたデータセットとともに、モデル(ベース、指示、チャット)をリリースします。
論文 参考訳(メタデータ) (2024-05-03T17:00:00Z) - Membership Inference Attacks and Privacy in Topic Modeling [3.503833571450681]
トレーニングデータのメンバーを確実に識別できるトピックモデルに対する攻撃を提案する。
本稿では,DP語彙選択を前処理ステップとして組み込んだプライベートトピックモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T12:43:42Z) - Diversifying the Mixture-of-Experts Representation for Language Models with Orthogonal Optimizer [59.43462055143123]
The Mixture of Experts (MoE)は、ディープラーニングにおいて非常に成功したテクニックとして登場した。
本研究では,MoEの専門家が多様性の専門化や欠如に失敗した同質表現問題に光を当てた。
我々は,各専門家が他の専門家に分散された部分空間への方向を更新するように促す訓練戦略を交互に提案する。
論文 参考訳(メタデータ) (2023-10-15T07:20:28Z) - A Differentially Private Weighted Empirical Risk Minimization Procedure and its Application to Outcome Weighted Learning [4.322221694511603]
差分プライバシー(DP)は、データのプライバシー問題に対処するための魅力的なフレームワークである。
DPは、機密データから情報を公開する際に生じるプライバシー損失に数学的に証明可能な境界を提供する。
一般のwERMに対する最初の微分プライベートアルゴリズムを提案し、理論DPを保証する。
論文 参考訳(メタデータ) (2023-07-24T21:03:25Z) - Private Gradient Estimation is Useful for Generative Modeling [25.777591229903596]
そこで本研究では,サンプルをハミルトン力学で生成し,よく訓練されたネットワークから推定したプライベートデータセットの勾配を推定する手法を提案する。
我々のモデルは256x256の解像度でデータを生成することができる。
論文 参考訳(メタデータ) (2023-05-18T02:51:17Z) - Scaling Vision-Language Models with Sparse Mixture of Experts [128.0882767889029]
提案手法は, 等価計算コストの高密度モデルに対して, 様々なベンチマークにおいて, 最先端性能を実現することができることを示す。
我々の研究は、MoEモデルのトレーニングの安定化、モデル解釈可能性に対するMoEの影響の理解、ビジョン言語モデルをスケールする際の計算性能間のトレードオフのバランスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2023-03-13T16:00:31Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。