論文の概要: GCond: Gradient Conflict Resolution via Accumulation-based Stabilization for Large-Scale Multi-Task Learning
- arxiv url: http://arxiv.org/abs/2509.07252v1
- Date: Mon, 08 Sep 2025 22:02:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-10 14:38:27.133139
- Title: GCond: Gradient Conflict Resolution via Accumulation-based Stabilization for Large-Scale Multi-Task Learning
- Title(参考訳): GCond: 大規模マルチタスク学習のための累積安定化によるグラディエント・コンフリクト・レゾリューション
- Authors: Evgeny Alves Limarenko, Anastasiia Alexandrovna Studenikina,
- Abstract要約: 勾配の衝突はマルチタスク学習において大きな課題となる。
グラディエント導電体(GCond)は,PCGradの原理に基づいて,勾配蓄積と適応的調停機構を組み合わせた手法である。
GCondはマルチタスク学習における競合問題に対するスケーラブルで効率的なソリューションを提供する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multi-task learning (MTL), gradient conflict poses a significant challenge. Effective methods for addressing this problem, including PCGrad, CAGrad, and GradNorm, in their original implementations are computationally demanding, which significantly limits their application in modern large models and transformers. We propose Gradient Conductor (GCond), a method that builds upon PCGrad principles by combining them with gradient accumulation and an adaptive arbitration mechanism. We evaluated GCond on self-supervised learning tasks using MobileNetV3-Small and ConvNeXt architectures on the ImageNet 1K dataset and a combined head and neck CT scan dataset, comparing the proposed method against baseline linear combinations and state-of-the-art gradient conflict resolution methods. The stochastic mode of GCond achieved a two-fold computational speedup while maintaining optimization quality, and demonstrated superior performance across all evaluated metrics, achieving lower L1 and SSIM losses compared to other methods on both datasets. GCond exhibited high scalability, being successfully applied to both compact models (MobileNetV3-Small) and large architectures (ConvNeXt-tiny and ConvNeXt-Base). It also showed compatibility with modern optimizers such as AdamW and Lion/LARS. Therefore, GCond offers a scalable and efficient solution to the problem of gradient conflicts in multi-task learning.
- Abstract(参考訳): マルチタスク学習(MTL)では、勾配の衝突が大きな課題となる。
PCGrad、CAGrad、GradNormを含むこの問題に対処するための効果的な手法は、計算的に要求され、現代の大規模モデルやトランスフォーマーでの応用を著しく制限している。
グラディエント導電体(GCond)は,PCGradの原理に基づいて,勾配蓄積と適応的調停機構を組み合わせた手法である。
我々は,MobileNetV3-Small と ConvNeXt アーキテクチャをImageNet 1K データセットと頭頸部CT スキャンデータセットに併用した自己教師型学習タスクにおける GCond の評価を行った。
GCondの確率モードは、最適化品質を維持しながら2倍の計算スピードアップを実現し、両データセットの他の手法と比較してL1とSSIMの損失を低く抑えながら、すべての評価指標に対して優れた性能を示した。
GCondは高いスケーラビリティを示し、コンパクトモデル(MobileNetV3-Small)と大規模アーキテクチャ(ConvNeXt-tinyとConvNeXt-Base)の両方にうまく適用された。
また、AdamWやLion/LARSといったモダンなオプティマイザとの互換性も示した。
したがって、GCondはマルチタスク学習における勾配競合問題に対するスケーラブルで効率的な解決策を提供する。
関連論文リスト
- Optimistic Gradient Learning with Hessian Corrections for High-Dimensional Black-Box Optimization [14.073853819633745]
ブラックボックスアルゴリズムは、基礎となる解析構造や勾配情報に頼ることなく、関数を最適化するように設計されている。
本研究では,高次元・複雑・非線形問題による課題に対処するための2つの新しい勾配学習変種を提案する。
論文 参考訳(メタデータ) (2025-02-07T11:03:50Z) - Fantastic Multi-Task Gradient Updates and How to Find Them In a Cone [14.702480423653984]
我々は,制約付き最適化問題として定式化された,原則付き,スケーラブルで,堅牢なMTLアプローチであるConicGradを提案する。
本手法では, 傾き更新方向を動的に調節する角度制約を導入し, 全体目標の基準勾配を中心とする円錐内に収束させる。
我々は,標準的な教師付き学習と強化学習のMTLベンチマークに関する広範な実験を行い,様々なタスクにおいて,コニックグラッドが最先端のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2025-01-31T23:11:12Z) - Linearly Convergent Mixup Learning [0.0]
より広い範囲のバイナリ分類モデルに拡張する2つの新しいアルゴリズムを提案する。
勾配に基づくアプローチとは異なり、我々のアルゴリズムは学習率のようなハイパーパラメータを必要とせず、実装と最適化を単純化する。
我々のアルゴリズムは、降下勾配法と比較して最適解への高速収束を実現し、ミックスアップデータの増大は、様々な損失関数の予測性能を一貫して改善する。
論文 参考訳(メタデータ) (2025-01-14T02:33:40Z) - Modeling Multi-Task Model Merging as Adaptive Projective Gradient Descent [72.10987117380584]
複数のエキスパートモデルをマージすることは、元のデータにアクセスせずにマルチタスク学習を実行するための有望なアプローチを提供する。
既存のメソッドは、競合を引き起こす一方で、パフォーマンスにとって重要なタスク固有の情報を捨てている。
我々の手法は従来の手法より一貫して優れており、視覚領域とNLP領域の両方において様々なアーキテクチャやタスクにまたがって最先端の結果が得られます。
論文 参考訳(メタデータ) (2025-01-02T12:45:21Z) - Towards Efficient Pareto Set Approximation via Mixture of Experts Based Model Fusion [53.33473557562837]
大規模深層ニューラルネットワークに対する多目的最適化問題を解くことは、損失ランドスケープの複雑さと高価な計算コストのために難しい課題である。
本稿では,専門家(MoE)をベースとしたモデル融合を用いて,この問題を実用的でスケーラブルに解決する手法を提案する。
特殊な単一タスクモデルの重みをまとめることで、MoEモジュールは複数の目的間のトレードオフを効果的に捉えることができる。
論文 参考訳(メタデータ) (2024-06-14T07:16:18Z) - Theoretical Study of Conflict-Avoidant Multi-Objective Reinforcement Learning [21.288881065839007]
本稿では,CA と FC という2つのサブプロデューサの選択肢に基づいて,新しい動的重み付けマルチタスク・アクター・クリティック・アルゴリズム (MTAC) を開発した。
MTAC-CAは、タスク間の最小値改善を最大化する競合回避(CA)更新方向と、MTAC-FCターゲットをはるかに高速な収束速度で見つけることを目的としている。
MT10における実験により,既存のMTRL法よりもアルゴリズムの性能が向上したことを示す。
論文 参考訳(メタデータ) (2024-05-25T05:57:46Z) - Local AdaGrad-Type Algorithm for Stochastic Convex-Concave Minimax
Problems [80.46370778277186]
大規模凸凹型ミニマックス問題は、ゲーム理論、堅牢なトレーニング、生成的敵ネットワークのトレーニングなど、多くの応用で発生する。
通信効率のよい分散外グレードアルゴリズムであるLocalAdaSientを開発した。
サーバモデル。
等質な環境と異質な環境の両方において,その有効性を実証する。
論文 参考訳(メタデータ) (2021-06-18T09:42:05Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Cogradient Descent for Bilinear Optimization [124.45816011848096]
双線形問題に対処するために、CoGDアルゴリズム(Cogradient Descent Algorithm)を導入する。
一方の変数は、他方の変数との結合関係を考慮し、同期勾配降下をもたらす。
本アルゴリズムは,空間的制約下での1変数の問題を解くために応用される。
論文 参考訳(メタデータ) (2020-06-16T13:41:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。