論文の概要: Delving into Differentially Private Transformer
- arxiv url: http://arxiv.org/abs/2405.18194v1
- Date: Tue, 28 May 2024 14:04:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 18:19:39.679827
- Title: Delving into Differentially Private Transformer
- Title(参考訳): 差動形変圧器の現況
- Authors: Youlong Ding, Xueyang Wu, Yining Meng, Yonggang Luo, Hao Wang, Weike Pan,
- Abstract要約: 本稿では,差分プライバシを用いたトランスフォーマーモデルのトレーニング問題について考察する。
我々の処理はモジュラーであり、DPトランスフォーマーをトレーニングする問題を、DPバニラニューラルネットをトレーニングするより基本的な問題に還元することである。
- 参考スコア(独自算出の注目度): 7.474126823543351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning with differential privacy (DP) has garnered significant attention over the past years, leading to the development of numerous methods aimed at enhancing model accuracy and training efficiency. This paper delves into the problem of training Transformer models with differential privacy. Our treatment is modular: the logic is to `reduce' the problem of training DP Transformer to the more basic problem of training DP vanilla neural nets. The latter is better understood and amenable to many model-agnostic methods. Such `reduction' is done by first identifying the hardness unique to DP Transformer training: the attention distraction phenomenon and a lack of compatibility with existing techniques for efficient gradient clipping. To deal with these two issues, we propose the Re-Attention Mechanism and Phantom Clipping, respectively. We believe that our work not only casts new light on training DP Transformers but also promotes a modular treatment to advance research in the field of differentially private deep learning.
- Abstract(参考訳): ディファレンシャルプライバシ(DP)による深層学習は、ここ数年で大きな注目を集めており、モデルの精度向上とトレーニング効率の向上を目的とした多くの手法が開発されている。
本稿では,差分プライバシを用いたトランスフォーマーモデルのトレーニング問題について考察する。
我々の処理はモジュラーであり、DPトランスフォーマーをトレーニングする問題を、DPバニラニューラルネットをトレーニングするより基本的な問題に「還元」することである。
後者はよく理解されており、多くのモデルに依存しない方法に順応できる。
このような「還元」は、まずDPトランスフォーマートレーニング特有の硬さ、すなわち注意散逸現象と、効率的な勾配クリッピングのための既存の技術との互換性の欠如を識別する。
これら2つの問題に対処するために,我々はそれぞれ再注意機構とファントムクリッピングを提案する。
我々は,DPトランスフォーマーのトレーニングに新たな光を当てるだけでなく,差分的な私的深層学習の分野での研究を進めるために,モジュラー処理を推進していると信じている。
関連論文リスト
- Cross-Problem Learning for Solving Vehicle Routing Problems [24.212686893913826]
既存のニューラルネットワークは、特定の車両ルーティング問題(VRP)に対して、スクラッチから深いアーキテクチャを訓練することが多い。
本稿では,異なる下流VRP変種に対するトレーニングを実証的に支援するクロスプロブレム学習を提案する。
論文 参考訳(メタデータ) (2024-04-17T18:17:50Z) - Remembering Transformer for Continual Learning [9.879896956915598]
本稿では,脳の補足学習システムにインスパイアされたリマインドトランスフォーマーを提案する。
覚えておくTransformerは、アダプタの混合アーキテクチャと、生成モデルに基づく新規性検出機構を採用している。
本研究は, 新奇性検出機構のアブレーション研究や, 適応剤のモデルキャパシティなど, 広範囲にわたる実験を行った。
論文 参考訳(メタデータ) (2024-04-11T07:22:14Z) - Unsupervised Discovery of Interpretable Directions in h-space of
Pre-trained Diffusion Models [63.1637853118899]
本稿では,事前学習した拡散モデルのh空間における解釈可能な方向を特定するための,教師なしおよび学習に基づく最初の手法を提案する。
我々は、事前訓練された拡散モデルのh-スペースで動作するシフト制御モジュールを用いて、サンプルをシフトしたバージョンに操作する。
それらを共同で最適化することで、モデルは自然に絡み合った、解釈可能な方向を発見する。
論文 参考訳(メタデータ) (2023-10-15T18:44:30Z) - PASTA: Pretrained Action-State Transformer Agents [10.654719072766495]
自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
論文 参考訳(メタデータ) (2023-07-20T15:09:06Z) - Decision S4: Efficient Sequence-Based RL via State Spaces Layers [87.3063565438089]
我々は、S4モデルの訓練効率を維持しつつ、軌道で機能する非政治的な訓練手順を提案する。
反復的に訓練され、長距離依存の恩恵を受け、新しい安定したアクター・クリティカルなメカニズムをベースとした、オンデマンドのトレーニング手順。
論文 参考訳(メタデータ) (2023-06-08T13:03:53Z) - DPFormer: Learning Differentially Private Transformer on Long-Tailed
Data [6.848321493051996]
Transformerは幅広いアプリケーションを持つ汎用的で効果的なアーキテクチャとして登場した。
高いユーティリティのTransformerモデルを、異なるプライバシ保証で効率的にトレーニングする方法は、依然として未解決の問題である。
本稿では,差分秘密変換器の学習における2つの重要な課題,すなわち,サンプルごとの勾配切り抜きや注意機構内の意図しない注意散らしによる計算オーバーヘッドについて述べる。
本稿では,これらの課題に対処するため,ファントムクリッピングとリアテンション機構を備えたDPFormerを提案する。
論文 参考訳(メタデータ) (2023-05-28T05:00:07Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z) - A Practical Survey on Faster and Lighter Transformers [0.9176056742068811]
Transformerは、入力シーケンスの任意の2つの位置を関連付けることのできるアテンションメカニズムのみに基づくモデルである。
多数のシーケンスモデリングタスクにまたがって最先端のタスクを改善した。
しかし、その有効性は、シーケンス長に関して2次計算とメモリの複雑さを犠牲にしている。
論文 参考訳(メタデータ) (2021-03-26T17:54:47Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。