論文の概要: Scalable Multitask Learning Using Gradient-based Estimation of Task Affinity
- arxiv url: http://arxiv.org/abs/2409.06091v1
- Date: Mon, 9 Sep 2024 21:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 19:40:45.181511
- Title: Scalable Multitask Learning Using Gradient-based Estimation of Task Affinity
- Title(参考訳): タスク親和性評価を用いたスケーラブルマルチタスク学習
- Authors: Dongyue Li, Aneesh Sharma, Hongyang R. Zhang,
- Abstract要約: Grad-TAGは、様々なタスクの組み合わせからデータを繰り返し訓練することなく、タスク親和性を推定できる。
既存のアプローチと比較して,Grad-TAGは優れたパフォーマンスと実行時のトレードオフを実現していることを示す。
- 参考スコア(独自算出の注目度): 16.643892206707854
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multitask learning is a widely used paradigm for training models on diverse tasks, with applications ranging from graph neural networks to language model fine-tuning. Since tasks may interfere with each other, a key notion for modeling their relationships is task affinity. This includes pairwise task affinity, computed among pairs of tasks, and higher-order affinity, computed among subsets of tasks. Naively computing either of them requires repeatedly training on data from various task combinations, which is computationally intensive. We present a new algorithm Grad-TAG that can estimate task affinities without this repeated training. The key idea of Grad-TAG is to train a "base" model for all tasks and then use a linearization technique to estimate the loss of the model for a specific task combination. The linearization works by computing a gradient-based approximation of the loss, using low-dimensional projections of gradients as features in a logistic regression to predict labels for the task combination. We show that the linearized model can provably approximate the loss when the gradient-based approximation is accurate, and also empirically verify that on several large models. Then, given the estimated task affinity, we design a semi-definite program for clustering similar tasks by maximizing the average density of clusters. We evaluate Grad-TAG's performance across seven datasets, including multi-label classification on graphs, and instruction fine-tuning of language models. Our task affinity estimates are within 2.7% distance to the true affinities while needing only 3% of FLOPs in full training. On our largest graph with 21M edges and 500 labeling tasks, our algorithm delivers estimates within 5% distance to the true affinities, using only 112 GPU hours. Our results show that Grad-TAG achieves excellent performance and runtime tradeoffs compared to existing approaches.
- Abstract(参考訳): マルチタスク学習は、グラフニューラルネットワークから言語モデルの微調整まで、さまざまなタスクのモデルをトレーニングするために広く使われているパラダイムである。
タスクは互いに干渉する可能性があるため、それらの関係をモデル化するための重要な概念はタスク親和性である。
これには、タスクのペア間で計算される対のタスク親和性、タスクのサブセット間で計算される高次の親和性が含まれる。
いずれの計算も、計算集約的な様々なタスクの組み合わせからのデータに対する繰り返しの訓練を必要とする。
本稿では,この繰り返し学習を伴わずにタスク親和性を推定できる新しいアルゴリズムGrad-TAGを提案する。
Grad-TAGのキーとなるアイデアは、すべてのタスクに対して"ベース"モデルをトレーニングし、それから線形化手法を使用して、特定のタスクの組み合わせに対するモデルの損失を見積もることである。
線形化は、勾配に基づく損失の近似を計算し、勾配の低次元投影をロジスティック回帰の特徴として利用して、タスクの組み合わせのラベルを予測する。
線形化モデルは勾配に基づく近似が正確であるときの損失を確実に近似でき、また複数の大規模モデル上でそれを実証的に検証できることを示す。
そして,推定タスク親和性を考慮して,クラスタの平均密度を最大化し,類似タスクをクラスタ化する半定プログラムを設計する。
グラフ上の複数ラベル分類や言語モデルの微調整を含む7つのデータセット間でGrad-TAGの性能を評価する。
我々のタスク親和性評価は、真の親和性から2.7%以内であり、フルトレーニングでは、FLOPの3%しか必要としない。
21Mのエッジと500のラベリングタスクを持つ我々の最大のグラフでは、我々のアルゴリズムは112GPU時間のみを使用して、真の親和性から5%以内の距離で推定を行う。
以上の結果から,Grad-TAGは既存手法と比較して優れた性能と実行時トレードオフを実現していることがわかった。
関連論文リスト
- ATM: Improving Model Merging by Alternating Tuning and Merging [16.12778778313037]
タスクベクトルをマルチタスク勾配にリンクすることで、タスクベクトルの有効性を動機付ける。
単一エポックなシナリオでは、タスクベクトルは、マルチタスク設定において勾配降下によって得られる勾配と数学的に等価である。
タスクベクトルは等式が維持されたときに最適に動作し、その有効性は最初のエポック勾配によって大きく駆動される。
論文 参考訳(メタデータ) (2024-11-05T12:42:42Z) - Decoupling Weighing and Selecting for Integrating Multiple Graph
Pre-training Tasks [58.65410800008769]
本稿では、複数のグラフ事前学習タスク、Weigh And Select (WAS)を統合するための新しいインスタンスレベルフレームワークを提案する。
まず、カスタマイズされたインスタンスレベルのタスク重み付け戦略を学習したタスクプールから、各インスタンスのタスクの最適な組み合わせを適応的に学習する。
ノードレベルおよびグラフレベルのダウンストリームタスクにわたる16のグラフデータセットの実験は、WASが他の主要なタスクと同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-03-03T05:29:49Z) - Bayesian Uncertainty for Gradient Aggregation in Multi-Task Learning [39.4348419684885]
マルチタスク学習(MTL)は、複数のタスクを効率的に解決する単一のモデルを学習することを目的としている。
ベイジアン推論を用いた新しい勾配集約手法を提案する。
さまざまなデータセットで,アプローチのメリットを実証的に実証しています。
論文 参考訳(メタデータ) (2024-02-06T14:00:43Z) - Provable Multi-Task Representation Learning by Two-Layer ReLU Neural Networks [69.38572074372392]
本稿では,複数タスクにおける非線形モデルを用いたトレーニング中に特徴学習が発生することを示す最初の結果を示す。
私たちのキーとなる洞察は、マルチタスク事前トレーニングは、通常タスク間で同じラベルを持つポイントを整列する表現を好む擬似コントラスト的損失を誘導するということです。
論文 参考訳(メタデータ) (2023-07-13T16:39:08Z) - Boosting Multitask Learning on Graphs through Higher-Order Task Affinities [17.70434437597516]
与えられたグラフ上のノードラベルの予測は、コミュニティ検出や分子グラフ予測など、多くのアプリケーションにおいて広く研究されている問題である。
本稿では,グラフ上の複数のノードラベリング関数を同時に予測し,マルチタスク学習の観点からこの問題を再考する。
我々は高次タスク親和性尺度に基づいて,タスクをグループにクラスタリングするアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-06-24T15:53:38Z) - Condensing Graphs via One-Step Gradient Matching [50.07587238142548]
ネットワーク重みを訓練せずに1ステップのみの勾配マッチングを行う1ステップ勾配マッチング方式を提案する。
我々の理論的分析は、この戦略が実際のグラフの分類損失を減少させる合成グラフを生成することができることを示している。
特に、元のパフォーマンスの最大98%を近似しながら、データセットサイズを90%削減することが可能です。
論文 参考訳(メタデータ) (2022-06-15T18:20:01Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - EGL++: Extending Expected Gradient Length to Active Learning for Human
Pose Estimation [2.0305676256390934]
最先端の人間のポーズ推定モデルは、堅牢なパフォーマンスのために大量のラベル付きデータに依存する。
EGL++は、予測勾配長を離散ラベルが利用できないタスクに拡張する新しいアルゴリズムである。
論文 参考訳(メタデータ) (2021-04-19T17:56:59Z) - Multi-task Supervised Learning via Cross-learning [102.64082402388192]
我々は,様々なタスクを解くことを目的とした回帰関数の集合を適合させることで,マルチタスク学習と呼ばれる問題を考える。
我々の新しい定式化では、これらの関数のパラメータを2つに分けて、互いに近づきながらタスク固有のドメインで学習する。
これにより、異なるドメインにまたがって収集されたデータが、互いのタスクにおける学習パフォーマンスを改善するのに役立つ、クロス・ファーティライズが促進される。
論文 参考訳(メタデータ) (2020-10-24T21:35:57Z) - Adaptive Task Sampling for Meta-Learning [79.61146834134459]
数ショットの分類のためのメタラーニングの鍵となるアイデアは、テスト時に直面した数ショットの状況を模倣することである。
一般化性能を向上させるための適応型タスクサンプリング手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T03:15:53Z) - Conditional Channel Gated Networks for Task-Aware Continual Learning [44.894710899300435]
畳み込みニューラルネットワークは、一連の学習問題に最適化された場合、破滅的な忘れを経験する。
本稿では,この問題に条件付き計算で対処する新しい枠組みを提案する。
提案手法を4つの連続学習データセットで検証する。
論文 参考訳(メタデータ) (2020-03-31T19:35:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。