論文の概要: Rotograd: Dynamic Gradient Homogenization for Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2103.02631v1
- Date: Wed, 3 Mar 2021 19:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:54:24.414526
- Title: Rotograd: Dynamic Gradient Homogenization for Multi-Task Learning
- Title(参考訳): Rotograd: マルチタスク学習のための動的勾配均質化
- Authors: Adri\'an Javaloy and Isabel Valera
- Abstract要約: 共有表現を回転させることにより,すべてのタスクの勾配方向を均質化するMTL,Rotogradの新たなアプローチを提案する。
我々のアルゴリズムはStackelbergゲームとして形式化されており、安定性を保証することができる。
- 参考スコア(独自算出の注目度): 13.418425991857198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While multi-task learning (MTL) has been successfully applied in several
domains, it still triggers challenges. As a consequence of negative transfer,
simultaneously learning several tasks can lead to unexpectedly poor results. A
key factor contributing to this undesirable behavior is the problem of
conflicting gradients. In this paper, we propose a novel approach for MTL,
Rotograd, which homogenizes the gradient directions across all tasks by
rotating their shared representation. Our algorithm is formalized as a
Stackelberg game, which allows us to provide stability guarantees. Rotograd can
be transparently combined with task-weighting approaches (e.g., GradNorm) to
mitigate negative transfer, resulting in a robust learning process. Thorough
empirical evaluation on several architectures (e.g., ResNet) and datasets
(e.g., CIFAR) verifies our theoretical results, and shows that Rotograd
outperforms previous approaches. A Pytorch implementation can be found in
https://github.com/adrianjav/rotograd .
- Abstract(参考訳): マルチタスク学習(MTL)はいくつかのドメインでうまく適用されていますが、依然として課題を引き起こします。
負の移動の結果、複数のタスクを同時に学習すると、予期せぬ結果に繋がる。
この望ましくない行動に寄与する重要な要因は、相反する勾配の問題である。
本稿では,共有表現を回転させることにより,すべてのタスクの勾配方向を均質化するMTL,Rotogradの新たなアプローチを提案する。
我々のアルゴリズムはStackelbergゲームとして形式化されており、安定性を保証することができる。
Rotogradは、タスク重み付けアプローチ(GradNormなど)と透過的に組み合わせて、負の移動を軽減し、堅牢な学習プロセスをもたらす。
いくつかのアーキテクチャ (ResNetなど) とデータセット (CIFARなど) に関する詳細な経験的評価は、我々の理論的な結果を検証し、Rotogradが以前のアプローチより優れていることを示す。
Pytorchの実装はhttps://github.com/adrianjav/rotograd で見ることができる。
関連論文リスト
- Classifier-guided Gradient Modulation for Enhanced Multimodal Learning [50.7008456698935]
Gradient-Guided Modulation (CGGM) は,マルチモーダル学習と勾配のバランスをとる新しい手法である。
UPMC-Food 101, CMU-MOSI, IEMOCAP, BraTSの4つのマルチモーダルデータセットについて広範な実験を行った。
CGGMはすべてのベースラインや最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2024-11-03T02:38:43Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - RotoGBML: Towards Out-of-Distribution Generalization for Gradient-Based
Meta-Learning [29.02293819085363]
OODタスク勾配を均質化するための新しいアプローチであるRotoGBMLを提案する。
オーバヘッドを低減するため、ネットワークパラメータではなく特徴量で勾配を均質化する。
実験の結果,RotoGBMLは様々な画像分類ベンチマークにおいて,最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-03-12T14:50:48Z) - Recon: Reducing Conflicting Gradients from the Root for Multi-Task
Learning [31.139346853434308]
マルチタスク学習の基本的な課題は、異なるタスクが共同で解決されたときに互いに衝突する可能性があることである。
最近の研究は、いくつかの基準に基づいて勾配を直接変更することで、矛盾する勾配の影響を緩和しようとするものである。
本稿では,根から対立する勾配を減らすために,異なるアプローチをとる。
論文 参考訳(メタデータ) (2023-02-22T11:14:16Z) - GDOD: Effective Gradient Descent using Orthogonal Decomposition for
Multi-Task Learning [19.6824860615578]
マルチタスク学習(MTL)は、複数のタスクを同時に解決することを目的としている。
MTLモデルは、複数のタスクを同時に学習するため、ネガティブな転送を伴うパフォーマンス劣化に悩まされることが多い。
本稿では,全タスクのスパンから分解ベースを用いて各タスクの勾配を演算する,GDODという新しいアプローチ MTL を提案する。
論文 参考訳(メタデータ) (2023-01-31T08:08:24Z) - ForkMerge: Mitigating Negative Transfer in Auxiliary-Task Learning [59.08197876733052]
補助タスク学習(ATL)は、関連するタスクから得られる知識を活用することにより、目標タスクの性能を向上させることを目的としている。
複数のタスクを同時に学習すると、ターゲットタスクのみを学習するよりも精度が低下することがある。
ForkMergeは、モデルを定期的に複数のブランチにフォークし、タスクの重みを自動的に検索する新しいアプローチである。
論文 参考訳(メタデータ) (2023-01-30T02:27:02Z) - Scaling Forward Gradient With Local Losses [117.22685584919756]
フォワード学習は、ディープニューラルネットワークを学ぶためのバックプロップに代わる生物学的に妥当な代替手段である。
重みよりも活性化に摂動を適用することにより、前方勾配のばらつきを著しく低減できることを示す。
提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-07T03:52:27Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Projective Manifold Gradient Layer for Deep Rotation Regression [49.85464297105456]
ディープニューラルネットワークを用いたSO(3)多様体上の回帰回転は重要な問題であるが未解決である。
ネットワーク重みに直接逆伝搬する多様体対応勾配を提案する。
論文 参考訳(メタデータ) (2021-10-22T08:34:15Z) - Accumulated Decoupled Learning: Mitigating Gradient Staleness in
Inter-Layer Model Parallelization [16.02377434191239]
本稿では, 定常勾配効果を緩和するために, 勾配累積法を取り入れた累積非結合学習(ADL)を提案する。
提案手法は, 非同期性にもかかわらず, 臨界点, すなわち勾配が0に収束することを示す。
ADLは分類タスクにおいていくつかの最先端技術よりも優れており、比較手法の中では最速である。
論文 参考訳(メタデータ) (2020-12-03T11:52:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。