論文の概要: GradTS: A Gradient-Based Automatic Auxiliary Task Selection Method Based
on Transformer Networks
- arxiv url: http://arxiv.org/abs/2109.05748v1
- Date: Mon, 13 Sep 2021 07:15:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:04:57.185653
- Title: GradTS: A Gradient-Based Automatic Auxiliary Task Selection Method Based
on Transformer Networks
- Title(参考訳): GradTS: 変圧器ネットワークに基づく勾配ベース自動補助タスク選択法
- Authors: Weicheng Ma, Renze Lou, Kai Zhang, Lili Wang, Soroush Vosoughi
- Abstract要約: GradTSはトランスフォーマーモデルにおける勾配計算に基づく自動補助タスク選択法である。
これは、GLUEベンチマークの8つの自然言語理解(NLU)タスクにおいて0.33%から17.93%まで、bert-base-casedのバックエンドモデルでMT-DNNのパフォーマンスを向上させる。
- 参考スコア(独自算出の注目度): 9.913751245347429
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: A key problem in multi-task learning (MTL) research is how to select
high-quality auxiliary tasks automatically. This paper presents GradTS, an
automatic auxiliary task selection method based on gradient calculation in
Transformer-based models. Compared to AUTOSEM, a strong baseline method, GradTS
improves the performance of MT-DNN with a bert-base-cased backend model, from
0.33% to 17.93% on 8 natural language understanding (NLU) tasks in the GLUE
benchmarks. GradTS is also time-saving since (1) its gradient calculations are
based on single-task experiments and (2) the gradients are re-used without
additional experiments when the candidate task set changes. On the 8 GLUE
classification tasks, for example, GradTS costs on average 21.32% less time
than AUTOSEM with comparable GPU consumption. Further, we show the robustness
of GradTS across various task settings and model selections, e.g. mixed
objectives among candidate tasks. The efficiency and efficacy of GradTS in
these case studies illustrate its general applicability in MTL research without
requiring manual task filtering or costly parameter tuning.
- Abstract(参考訳): マルチタスク学習(MTL)研究における鍵となる問題は、高品質な補助タスクを自動的に選択する方法である。
本稿では,変圧器モデルにおける勾配計算に基づく自動補助タスク選択法GradTSを提案する。
強力なベースライン法であるAUTOSEMと比較して、GradTSは、GLUEベンチマークの8つの自然言語理解(NLU)タスクで0.33%から17.93%まで、bert-base-casedのバックエンドモデルでMT-DNNの性能を改善している。
GradTS もまた,(1) の勾配計算は単一タスク実験に基づいており,(2) 候補タスクセットが変更された場合,追加実験なしで勾配を再利用する。
例えば8つのGLUE分類タスクでは、GradTSはAUTOSEMよりも平均21.32%の時間でGPU消費に匹敵するコストがかかる。
さらに、様々なタスク設定やモデル選択、例えば候補タスク間の混合目的などにおけるGradTSの堅牢性を示す。
これらのケーススタディにおけるGradTSの有効性と有効性は、手作業のフィルタリングやコストのかかるパラメータチューニングを必要とせず、MTL研究における汎用性を示している。
関連論文リスト
- Unlearning as multi-task optimization: A normalized gradient difference approach with an adaptive learning rate [105.86576388991713]
正規化勾配差(NGDiff)アルゴリズムを導入し、目的間のトレードオフをよりよく制御できるようにする。
本研究では,TOFUおよびMUSEデータセットにおける最先端の未学習手法において,NGDiffの優れた性能を実証的に実証し,理論的解析を行った。
論文 参考訳(メタデータ) (2024-10-29T14:41:44Z) - Gradient-Mask Tuning Elevates the Upper Limits of LLM Performance [51.36243421001282]
Gradient-Mask Tuning (GMT) は、勾配情報に基づいてトレーニング中のパラメータを選択的に更新する手法である。
実験により, GMTは従来の微調整法に勝るだけでなく, LLM性能の上限も高めることを示した。
論文 参考訳(メタデータ) (2024-06-21T17:42:52Z) - Hierarchical Side-Tuning for Vision Transformers [33.536948382414316]
微調整された事前訓練された視覚変換器(ViTs)は、視覚認識タスクの強化に大きく貢献している。
PETLは、完全な微調整に比べてパラメータ更新が少なく、高いパフォーマンスを実現する可能性がある。
本稿では,多様な下流タスクへのVTモデルの転送を容易にする革新的PETL手法である階層側チューニング(HST)を紹介する。
論文 参考訳(メタデータ) (2023-10-09T04:16:35Z) - Task Difficulty Aware Parameter Allocation & Regularization for Lifelong
Learning [20.177260510548535]
本稿では,その学習困難度に基づいてパラメータ割り当てと正規化から各タスクに適した戦略を適応的に選択するAllocation & Regularization (PAR)を提案する。
提案手法はスケーラビリティが高く,モデルの冗長性を著しく低減し,モデルの性能を向上する。
論文 参考訳(メタデータ) (2023-04-11T15:38:21Z) - Prompt-MIL: Boosting Multi-Instance Learning Schemes via Task-specific
Prompt Tuning [31.0183821423397]
全スライド画像(WSI)分類は、計算病理学において重要な課題である。
技術手法の現在の状況は、通常、インスタンスを表現するために事前訓練された機能に依存するマルチインスタンス学習スキーム(MIL)に基づいている。
本稿では,WSI 分類にプロンプトを統合する MIL フレームワーク Prompt-MIL を提案する。
論文 参考訳(メタデータ) (2023-03-21T22:24:27Z) - Towards Automated Imbalanced Learning with Deep Hierarchical
Reinforcement Learning [57.163525407022966]
不均衡学習はデータマイニングにおいて基本的な課題であり、各クラスにトレーニングサンプルの不均等な比率が存在する。
オーバーサンプリングは、少数民族のための合成サンプルを生成することによって、不均衡な学習に取り組む効果的な手法である。
我々は,異なるレベルの意思決定を共同で最適化できる自動オーバーサンプリングアルゴリズムであるAutoSMOTEを提案する。
論文 参考訳(メタデータ) (2022-08-26T04:28:01Z) - Few-Shot Parameter-Efficient Fine-Tuning is Better and Cheaper than
In-Context Learning [81.3514358542452]
ICL (Few-shot in-context Learning) は、予測を行うたびにトレーニング例を全て処理するので、かなりの計算、メモリ、ストレージコストを発生させる。
パラメータ効率の良い微調整は、モデルの新たなタスクの実行を可能にするために、小さなパラメータセットをトレーニングする、代替パラダイムを提供する。
本稿では,少数ショットICLとパラメータ効率の微調整を厳密に比較し,後者が計算コストを劇的に削減できることを示す。
論文 参考訳(メタデータ) (2022-05-11T17:10:41Z) - Selecting task with optimal transport self-supervised learning for
few-shot classification [15.088213168796772]
Few-Shot分類は、トレーニングプロセスで利用可能なサンプルはわずかである、という問題を解決することを目的としている。
本稿では,Few-Shot 学習のための類似タスクを選択して学習セットを構築するために,OTTS (Optimal Transport Task Selecting) という新しいタスク選択アルゴリズムを提案する。
OTTSは最適な輸送距離を計算してタスク類似度を測定し、自己監督戦略を通じてモデルトレーニングを完了させる。
論文 参考訳(メタデータ) (2022-04-01T08:45:29Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Negative Inner-Loop Learning Rates Learn Universal Features [0.0]
メタSGDにおける学習速度がタスクごとの特徴表現に与える影響について検討する。
負の学習速度は、特徴をタスク固有の特徴から切り離し、タスクに依存しない特徴へと押し上げる。
これはメタSGDの負の学習速度が、単にタスク固有の特徴に適応するのではなく、タスクに依存しない特徴を学習させるという仮説を裏付けるものである。
論文 参考訳(メタデータ) (2022-03-18T22:43:16Z) - MT3: Meta Test-Time Training for Self-Supervised Test-Time Adaption [69.76837484008033]
ディープラーニングの未解決の問題は、ニューラルネットワークがテスト時間中のドメインシフトに対処する能力である。
メタラーニング、自己監督、テストタイムトレーニングを組み合わせて、目に見えないテスト分布に適応する方法を学びます。
この手法はcifar-10による画像分類ベンチマークの最先端結果を大幅に改善する。
論文 参考訳(メタデータ) (2021-03-30T09:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。