論文の概要: DPFormer: Learning Differentially Private Transformer on Long-Tailed
Data
- arxiv url: http://arxiv.org/abs/2305.17633v1
- Date: Sun, 28 May 2023 05:00:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-30 17:47:49.965399
- Title: DPFormer: Learning Differentially Private Transformer on Long-Tailed
Data
- Title(参考訳): DPFormer: 長期データによる個人差分変換器の学習
- Authors: Youlong Ding, Xueyang Wu, Hao Wang and Weike Pan
- Abstract要約: Transformerは幅広いアプリケーションを持つ汎用的で効果的なアーキテクチャとして登場した。
高いユーティリティのTransformerモデルを、異なるプライバシ保証で効率的にトレーニングする方法は、依然として未解決の問題である。
本稿では,差分秘密変換器の学習における2つの重要な課題,すなわち,サンプルごとの勾配切り抜きや注意機構内の意図しない注意散らしによる計算オーバーヘッドについて述べる。
本稿では,これらの課題に対処するため,ファントムクリッピングとリアテンション機構を備えたDPFormerを提案する。
- 参考スコア(独自算出の注目度): 6.848321493051996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer has emerged as a versatile and effective architecture with
broad applications. However, it still remains an open problem how to
efficiently train a Transformer model of high utility with differential privacy
guarantees. In this paper, we identify two key challenges in learning
differentially private Transformers, i.e., heavy computation overhead due to
per-sample gradient clipping and unintentional attention distraction within the
attention mechanism. In response, we propose DPFormer, equipped with Phantom
Clipping and Re-Attention Mechanism, to address these challenges. Our
theoretical analysis shows that DPFormer can reduce computational costs during
gradient clipping and effectively mitigate attention distraction (which could
obstruct the training process and lead to a significant performance drop,
especially in the presence of long-tailed data). Such analysis is further
corroborated by empirical results on two real-world datasets, demonstrating the
efficiency and effectiveness of the proposed DPFormer.
- Abstract(参考訳): Transformerは幅広いアプリケーションを持つ汎用的で効果的なアーキテクチャとして登場した。
しかし、高ユーティリティのTransformerモデルを異なるプライバシー保証で効率的にトレーニングする方法は、まだ未解決のままである。
本稿では,差分秘密変換器の学習における2つの重要な課題,すなわち,サンプルごとの勾配切り抜きや注意機構内の意図しない注意散らしによる計算オーバーヘッドについて述べる。
そこで我々は,これらの課題に対処するため,Phantom ClippingとRe-Attention Mechanismを備えたDPFormerを提案する。
我々の理論的分析は,DPFormerが勾配クリッピングの際の計算コストを低減し,注意散逸を効果的に軽減できることを示唆している(これはトレーニング過程を阻害し,特に長期データの存在下では顕著な性能低下につながる可能性がある)。
このような分析は、2つの実世界のデータセットに対する実験結果によってさらに裏付けられ、提案したDPFormerの有効性と有効性を示す。
関連論文リスト
- CARE Transformer: Mobile-Friendly Linear Visual Transformer via Decoupled Dual Interaction [77.8576094863446]
本稿では,新しいdetextbfCoupled dutextbfAl-interactive lineatextbfR atttextbfEntion (CARE) 機構を提案する。
まず,非対称な特徴分離戦略を提案し,非対称的に学習プロセスを局所帰納バイアスと長距離依存に分解する。
分離学習方式を採用し,特徴間の相補性を完全に活用することにより,高い効率性と精度を両立させることができる。
論文 参考訳(メタデータ) (2024-11-25T07:56:13Z) - DiSK: Differentially Private Optimizer with Simplified Kalman Filter for Noise Reduction [57.83978915843095]
本稿では,微分プライベート勾配の性能を著しく向上する新しいフレームワークであるDiSKを紹介する。
大規模トレーニングの実用性を確保するため,Kalmanフィルタプロセスを簡素化し,メモリと計算要求を最小化する。
論文 参考訳(メタデータ) (2024-10-04T19:30:39Z) - Delving into Differentially Private Transformer [7.474126823543351]
本稿では,差分プライバシを用いたトランスフォーマーモデルのトレーニング問題について考察する。
我々の処理はモジュラーであり、DPトランスフォーマーをトレーニングする問題を、DPバニラニューラルネットをトレーニングするより基本的な問題に還元することである。
論文 参考訳(メタデータ) (2024-05-28T14:04:09Z) - DiffsFormer: A Diffusion Transformer on Stock Factor Augmentation [36.75453713794983]
トランスフォーマーアーキテクチャを用いたストックファクタ生成のための拡散モデル(DiffsFormer)を提案する。
特定の下流タスクを提示すると、既存のサンプルを編集してトレーニング手順を強化するためにDiffsFormerを使用します。
提案手法は,各データセットの年次リターン率の7.2%と27.8%を相対的に改善する。
論文 参考訳(メタデータ) (2024-02-05T03:54:36Z) - AGaLiTe: Approximate Gated Linear Transformers for Online Reinforcement Learning [7.886461196772644]
コンテクストに依存しない推論コストを提供するトランスフォーマー自己アテンション機構の代替を提案する。
最先端アーキテクチャであるGTrXLと比較して、我々のアプローチでの推論は少なくとも40%安価であり、メモリ使用量を50%以上削減している。
論文 参考訳(メタデータ) (2023-10-24T10:51:50Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - Leveraging the Power of Data Augmentation for Transformer-based Tracking [64.46371987827312]
トラッキング用にカスタマイズされた2つのデータ拡張手法を提案する。
まず、動的探索半径機構と境界サンプルのシミュレーションにより、既存のランダムトリミングを最適化する。
第2に,背景干渉などの問題に対するモデルを可能にする,トークンレベルの機能混在強化戦略を提案する。
論文 参考訳(メタデータ) (2023-09-15T09:18:54Z) - Sparse MoE as the New Dropout: Scaling Dense and Self-Slimmable
Transformers [107.3726071306935]
そこで我々は,SMoE-Dropoutというプラグイン・アンド・プレイ・トレーニング・フレームワークを提案する。
SMoE-Dropoutはランダムで固定されたルータネットワークで構成され、エキスパートを活性化し、トレーニングが進むにつれて、アクティベートされたエキスパート数を徐々に増加させる。
本実験では,SMoE-Dropout の高密度トレーニングベースラインと等価パラメータ数との比較により,SMoE-Dropout の優れた性能と計算精度を実証した。
論文 参考訳(メタデータ) (2023-03-02T22:12:51Z) - Analyzing the Performance of Deep Encoder-Decoder Networks as Surrogates
for a Diffusion Equation [0.0]
本研究では,エンコーダ・デコーダ畳み込みニューラルネットワーク(CNN)を定常拡散解法の代用として利用することを検討した。
その結果,トレーニングセットのサイズが大きくなると,性能変動や全体的な誤差の低減に大きく影響することが示唆された。
論文 参考訳(メタデータ) (2023-02-07T22:53:19Z) - Large Language Models Can Be Strong Differentially Private Learners [70.0317718115406]
Differentially Private(DP)学習は、テキストの大規模なディープラーニングモデルを構築する上で、限られた成功を収めている。
この性能低下は,大規模な事前学習モデルを用いることで緩和可能であることを示す。
本稿では,DP-SGDにおけるクリッピングを,サンプルごとの勾配をインスタンス化せずに実行可能にするメモリ節約手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T01:45:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。