論文の概要: Recon: Reducing Conflicting Gradients from the Root for Multi-Task
Learning
- arxiv url: http://arxiv.org/abs/2302.11289v1
- Date: Wed, 22 Feb 2023 11:14:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:31:35.816997
- Title: Recon: Reducing Conflicting Gradients from the Root for Multi-Task
Learning
- Title(参考訳): Recon:マルチタスク学習のためのルートからの競合グラディエント削減
- Authors: Guangyuan Shi, Qimai Li, Wenlong Zhang, Jiaxin Chen, Xiao-Ming Wu
- Abstract要約: マルチタスク学習の基本的な課題は、異なるタスクが共同で解決されたときに互いに衝突する可能性があることである。
最近の研究は、いくつかの基準に基づいて勾配を直接変更することで、矛盾する勾配の影響を緩和しようとするものである。
本稿では,根から対立する勾配を減らすために,異なるアプローチをとる。
- 参考スコア(独自算出の注目度): 31.139346853434308
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A fundamental challenge for multi-task learning is that different tasks may
conflict with each other when they are solved jointly, and a cause of this
phenomenon is conflicting gradients during optimization. Recent works attempt
to mitigate the influence of conflicting gradients by directly altering the
gradients based on some criteria. However, our empirical study shows that
``gradient surgery'' cannot effectively reduce the occurrence of conflicting
gradients. In this paper, we take a different approach to reduce conflicting
gradients from the root. In essence, we investigate the task gradients w.r.t.
each shared network layer, select the layers with high conflict scores, and
turn them to task-specific layers. Our experiments show that such a simple
approach can greatly reduce the occurrence of conflicting gradients in the
remaining shared layers and achieve better performance, with only a slight
increase in model parameters in many cases. Our approach can be easily applied
to improve various state-of-the-art methods including gradient manipulation
methods and branched architecture search methods. Given a network architecture
(e.g., ResNet18), it only needs to search for the conflict layers once, and the
network can be modified to be used with different methods on the same or even
different datasets to gain performance improvement. The source code is
available at https://github.com/moukamisama/Recon.
- Abstract(参考訳): マルチタスク学習の基本的な課題は、異なるタスクが共同で解決されたときに互いに衝突する可能性があり、この現象の原因は最適化中の相反する勾配である。
最近の研究は、いくつかの基準に基づいて直接勾配を変化させることで、矛盾する勾配の影響を緩和しようとする。
しかし,本研究では,'gradient surgery'は相反する勾配の発生を効果的に減少させることができないことが示された。
本稿では,根からの相反する勾配を減少させるために異なるアプローチをとる。
基本的に、各共有ネットワーク層におけるタスク勾配を調査し、高い競合スコアを持つレイヤを選択し、タスク固有のレイヤに変換する。
実験の結果、このような単純な手法は、残余の共有層における矛盾する勾配の発生を大幅に低減し、多くの場合においてモデルパラメータがわずかに増加し、性能が向上することが示された。
本手法は,グラデーション操作法や分岐アーキテクチャ探索法など,様々な最先端手法の改善に容易に適用できる。
ネットワークアーキテクチャ(例: resnet18)が与えられた場合、コンフリクト層を一度だけ検索し、ネットワークを同じまたは異なるデータセット上の異なるメソッドで使用してパフォーマンス改善を行うように変更することができる。
ソースコードはhttps://github.com/moukamisama/reconで入手できる。
関連論文リスト
- Towards Layer-Wise Personalized Federated Learning: Adaptive Layer Disentanglement via Conflicting Gradients [11.269920973751244]
パーソナライズされたフェデレートラーニング(pFL)では、高データの異質性はデバイス間で大きな勾配のばらつきを引き起こす可能性がある。
グラディエント・アナリティクス(FedLAG)によるレイヤワイド・アグリゲーションを用いたフェデレート・ラーニング(Federated Learning)という,pFL設計への新たなアプローチを導入する。
FedLAGはレイヤーワイド勾配競合の程度に基づいて、パーソナライズのためのレイヤを割り当てる。
論文 参考訳(メタデータ) (2024-10-03T14:46:19Z) - LayerMerge: Neural Network Depth Compression through Layer Pruning and Merging [20.774060844559838]
既存の深度圧縮法では、冗長な非線形活性化関数を除去し、連続する畳み込み層を単一の層にマージする。
これらの手法は、マージされたレイヤのカーネルサイズが大きくなるという重大な欠点に悩まされる。
畳み込み層とアクティベーション関数を併用することにより,この問題に対処できることを示す。
本稿では,どのアクティベーション層と畳み込み層を除去するかを選択するディープ圧縮手法であるLayerMergeを提案する。
論文 参考訳(メタデータ) (2024-06-18T17:55:15Z) - How to guess a gradient [68.98681202222664]
我々は、勾配が以前考えられていたよりもより構造化されていることを示す。
この構造をエクスプロイトすると、勾配のない最適化スキームが大幅に改善される。
厳密な勾配の最適化と勾配の推測の間に大きなギャップを克服する上での新たな課題を強調した。
論文 参考訳(メタデータ) (2023-12-07T21:40:44Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Layerwise Optimization by Gradient Decomposition for Continual Learning [78.58714373218118]
ディープニューラルネットワークは、様々な領域で最先端の超人的パフォーマンスを実現します。
タスクを逐次学習する場合、ネットワークは「破滅的忘れ」と呼ばれる過去のタスクの知識を忘れやすい。
論文 参考訳(メタデータ) (2021-05-17T01:15:57Z) - Rotograd: Dynamic Gradient Homogenization for Multi-Task Learning [13.418425991857198]
共有表現を回転させることにより,すべてのタスクの勾配方向を均質化するMTL,Rotogradの新たなアプローチを提案する。
我々のアルゴリズムはStackelbergゲームとして形式化されており、安定性を保証することができる。
論文 参考訳(メタデータ) (2021-03-03T19:03:52Z) - Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文 参考訳(メタデータ) (2020-12-03T11:52:55Z) - Cream of the Crop: Distilling Prioritized Paths For One-Shot Neural
Architecture Search [60.965024145243596]
ワンショット重み共有手法は、高効率と競争性能のため、最近、ニューラルアーキテクチャ探索において大きな注目を集めている。
この問題を軽減するため, 単純で効果的な蒸留法を提案する。
本稿では、訓練中に優れた性能を示すアーキテクチャ候補を指す優先順位付けパスの概念を紹介する。
優先順位付けされた経路は、その性能や複雑さに応じて、ハエで変化するため、最終的な経路は作物のクリームである。
論文 参考訳(メタデータ) (2020-10-29T17:55:05Z) - Boosting Gradient for White-Box Adversarial Attacks [60.422511092730026]
そこで本研究では,ADV-ReLUと呼ばれる,勾配に基づくホワイトボックス攻撃アルゴリズムの性能向上を目的とした,汎用的な逆例生成手法を提案する。
提案手法では,損失関数とネットワーク入力の勾配を算出し,その値をスコアにマップし,その一部を選択して誤導勾配を更新する。
論文 参考訳(メタデータ) (2020-10-21T02:13:26Z) - Sparse Communication for Training Deep Networks [56.441077560085475]
同期勾配降下(SGD)は、ディープラーニングモデルの分散トレーニングに最もよく用いられる手法である。
このアルゴリズムでは、各ワーカーは他のワーカーと局所勾配を共有し、すべてのワーカーの平均勾配を使ってパラメータを更新する。
いくつかの圧縮スキームについて検討し、3つの重要なパラメータが性能に与える影響を同定する。
論文 参考訳(メタデータ) (2020-09-19T17:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。