論文の概要: Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign
Dropout
- arxiv url: http://arxiv.org/abs/2010.06808v1
- Date: Wed, 14 Oct 2020 04:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 12:53:48.339408
- Title: Just Pick a Sign: Optimizing Deep Multitask Models with Gradient Sign
Dropout
- Title(参考訳): サインを選ぶ: グラディエントサインドロップアウトによるディープマルチタスクモデルの最適化
- Authors: Zhao Chen, Jiquan Ngiam, Yanping Huang, Thang Luong, Henrik
Kretzschmar, Yuning Chai, Dragomir Anguelov
- Abstract要約: 本稿では、その一貫性レベルに基づいて、活性化層で勾配をサンプリングする確率的マスキング法であるグラディエントサインドロップアウト(GradDrop)を提案する。
GradDropは従来のマルチタスクやトランスファー学習設定において,最先端のマルチロス手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 27.43967349852987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vast majority of deep models use multiple gradient signals, typically
corresponding to a sum of multiple loss terms, to update a shared set of
trainable weights. However, these multiple updates can impede optimal training
by pulling the model in conflicting directions. We present Gradient Sign
Dropout (GradDrop), a probabilistic masking procedure which samples gradients
at an activation layer based on their level of consistency. GradDrop is
implemented as a simple deep layer that can be used in any deep net and
synergizes with other gradient balancing approaches. We show that GradDrop
outperforms the state-of-the-art multiloss methods within traditional multitask
and transfer learning settings, and we discuss how GradDrop reveals links
between optimal multiloss training and gradient stochasticity.
- Abstract(参考訳): 深層モデルの大部分は、訓練可能な重みの共有セットを更新するために、通常、複数の損失項の合計に対応する複数の勾配信号を使用する。
しかし、これらの複数の更新は、矛盾する方向にモデルを引っ張ることで最適なトレーニングを妨げる可能性がある。
本稿では,その一貫性レベルに基づいて,アクティベーション層で勾配をサンプリングする確率的マスキング法であるGradDropについて述べる。
GradDropは、どんなディープネットでも使えるシンプルなディープ層として実装され、他の勾配バランスのアプローチと相乗効果がある。
本研究では,GradDropが従来のマルチタスクと移動学習設定において最先端のマルチロス手法よりも優れており,GradDropが最適マルチロストレーニングと勾配確率の関係を明らかにする方法について論じる。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Gradient Sparsification For Masked Fine-Tuning of Transformers [6.936564049727831]
調整済みの自己教師型言語モデルが下流タスクへの変換学習に広く採用されている。
緩やかな凍結は、トレーニング中に層全体の勾配を徐々に解凍することで両者のトレードオフをもたらす。
徐々に凍結する層が、緩やかに変化して徐々に凍結する層に比べて、トレーニング全体を通して徐々に凍結する層が最適であるかどうかは不明である。
論文 参考訳(メタデータ) (2023-07-19T16:13:13Z) - Recon: Reducing Conflicting Gradients from the Root for Multi-Task
Learning [31.139346853434308]
マルチタスク学習の基本的な課題は、異なるタスクが共同で解決されたときに互いに衝突する可能性があることである。
最近の研究は、いくつかの基準に基づいて勾配を直接変更することで、矛盾する勾配の影響を緩和しようとするものである。
本稿では,根から対立する勾配を減らすために,異なるアプローチをとる。
論文 参考訳(メタデータ) (2023-02-22T11:14:16Z) - Scaling Multimodal Pre-Training via Cross-Modality Gradient
Harmonization [68.49738668084693]
自己教師付き事前学習は、最近、大規模マルチモーダルデータで成功している。
クロスモダリティアライメント(CMA)は、弱くノイズの多い監視である。
CMAは、モダリティ間の衝突や偏見を引き起こす可能性がある。
論文 参考訳(メタデータ) (2022-11-03T18:12:32Z) - Wyner-Ziv Gradient Compression for Federated Learning [4.619828919345114]
グラディエント圧縮は, 圧縮勾配を伝送することで通信負荷を低減する効果的な方法である。
本稿では、歴史的勾配を用いて勾配を圧縮するフェデレート学習のための実用的な勾配圧縮手法を提案する。
また、実際のデータセットに勾配量子化法を実装し、提案手法の性能は従来の手法よりも優れている。
論文 参考訳(メタデータ) (2021-11-16T07:55:43Z) - On Training Implicit Models [75.20173180996501]
ファントム勾配(ファントム勾配)と呼ばれる暗黙モデルに対する新しい勾配推定法を提案し、正確な勾配の計算コストを抑える。
大規模タスクの実験では、これらの軽量ファントム勾配が暗黙の訓練モデルの後方通過を約1.7倍加速することを示した。
論文 参考訳(メタデータ) (2021-11-09T14:40:24Z) - Revealing and Protecting Labels in Distributed Training [3.18475216176047]
本稿では,最終層の勾配とラベルマッピングへのIDのみから,トレーニングサンプルのラベル集合を発見する手法を提案する。
本稿では,画像分類と自動音声認識という2つの領域におけるモデル学習の有効性を示す。
論文 参考訳(メタデータ) (2021-10-31T17:57:49Z) - Layerwise Optimization by Gradient Decomposition for Continual Learning [78.58714373218118]
ディープニューラルネットワークは、様々な領域で最先端の超人的パフォーマンスを実現します。
タスクを逐次学習する場合、ネットワークは「破滅的忘れ」と呼ばれる過去のタスクの知識を忘れやすい。
論文 参考訳(メタデータ) (2021-05-17T01:15:57Z) - GuideBP: Guiding Backpropagation Through Weaker Pathways of Parallel
Logits [6.764324841419295]
提案手法は、最も弱い概念表現に沿ったバックプロパゲーションの勾配を導く。
弱点スコアは、ロジットの作成に使用される個々の経路のクラス固有のパフォーマンスを定義する。
提案手法は従来のカラムマージ手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2021-04-23T14:14:00Z) - Regularizing Meta-Learning via Gradient Dropout [102.29924160341572]
メタ学習モデルは、メタ学習者が一般化するのに十分なトレーニングタスクがない場合、過度に適合する傾向がある。
本稿では,勾配に基づくメタ学習において過度に適合するリスクを軽減するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2020-04-13T10:47:02Z) - Optimal Gradient Quantization Condition for Communication-Efficient
Distributed Training [99.42912552638168]
勾配の通信は、コンピュータビジョンアプリケーションで複数のデバイスでディープニューラルネットワークをトレーニングするのに費用がかかる。
本研究は,textbfANY勾配分布に対する二値および多値勾配量子化の最適条件を導出する。
最適条件に基づいて, 偏差BinGradと非偏差ORQの2値勾配量子化と多値勾配量子化の2つの新しい量子化手法を開発した。
論文 参考訳(メタデータ) (2020-02-25T18:28:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。