論文の概要: HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections
- arxiv url: http://arxiv.org/abs/2007.05891v1
- Date: Sun, 12 Jul 2020 02:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-11 05:28:38.244573
- Title: HyperGrid: Efficient Multi-Task Transformers with Grid-wise Decomposable
Hyper Projections
- Title(参考訳): HyperGrid: グリッドワイズで分解可能なハイパープロジェクションを備えた効率的なマルチタスクトランス
- Authors: Yi Tay, Zhe Zhao, Dara Bahri, Donald Metzler, Da-Cheng Juan
- Abstract要約: 我々は,マルチタスク学習を効果的に行う新しいアプローチであるtextscHyperGridを提案する。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
- 参考スコア(独自算出の注目度): 96.64246471034195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Achieving state-of-the-art performance on natural language understanding
tasks typically relies on fine-tuning a fresh model for every task.
Consequently, this approach leads to a higher overall parameter cost, along
with higher technical maintenance for serving multiple models. Learning a
single multi-task model that is able to do well for all the tasks has been a
challenging and yet attractive proposition. In this paper, we propose
\textsc{HyperGrid}, a new approach for highly effective multi-task learning.
The proposed approach is based on a decomposable hypernetwork that learns
grid-wise projections that help to specialize regions in weight matrices for
different tasks. In order to construct the proposed hypernetwork, our method
learns the interactions and composition between a global (task-agnostic) state
and a local task-specific state. We apply our proposed \textsc{HyperGrid} on
the current state-of-the-art T5 model, demonstrating strong performance across
the GLUE and SuperGLUE benchmarks when using only a single multi-task model.
Our method helps bridge the gap between fine-tuning and multi-task learning
approaches.
- Abstract(参考訳): 自然言語理解タスクで最先端のパフォーマンスを達成するには、通常、すべてのタスクで新鮮なモデルを微調整することに依存する。
このアプローチは、複数のモデルを提供するための高い技術的メンテナンスとともに、全体的なパラメータコストを高くする。
すべてのタスクでうまく機能する単一のマルチタスクモデルを学ぶことは、挑戦的で魅力的な提案でした。
本稿では,高効率マルチタスク学習のための新しいアプローチである \textsc{hypergrid} を提案する。
提案されたアプローチは、異なるタスクのために重み行列の領域を専門化するのに役立つグリッドワイズプロジェクションを学習する非コンポーザブルなハイパーネットワークに基づいている。
提案手法は,グローバルな(タスクに依存しない)状態とローカルなタスク固有状態との間の相互作用と構成を学習する。
提案した \textsc{HyperGrid} を現在の最先端 T5 モデルに適用し,単一マルチタスクモデルのみを使用する場合,GLUE と SuperGLUE ベンチマーク間で強い性能を示す。
本手法は,微調整とマルチタスク学習のギャップを埋めるのに役立つ。
関連論文リスト
- Deploying Multi-task Online Server with Large Language Model [9.118405878982383]
大規模言語モデルのための3段階のマルチタスク学習フレームワークを提案する。
タスクフィルタリング、続いて高リソースタスクの微調整、最後にすべてのタスクの微調整を行う。
我々のアプローチは、異なるベンチマークで例示され、最大90.9%のオーバーヘッドを削減しつつ、シングルタスク方式に匹敵するパフォーマンスを実現することができることを示した。
論文 参考訳(メタデータ) (2024-11-06T03:48:41Z) - HyperLoader: Integrating Hypernetwork-Based LoRA and Adapter Layers into Multi-Task Transformers for Sequence Labelling [5.955463697605461]
マルチタスク設定におけるパラメータ効率の異なる微調整手法を組み合わせたシンプルな手法であるHyperLoaderを提案する。
本手法は,全タスクの構造を捉えることで,マルチタスク学習の利点を組み合わせる。
我々は、HyperLoaderが多くのデータセットで過去のアプローチより優れているという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-01T16:00:53Z) - Parameter Efficient Multi-task Model Fusion with Partial Linearization [97.23530944186078]
パラメータ効率のよい微調整技術において,マルチタスク融合を改善する新しい手法を提案する。
提案手法は, アダプタモジュールのみを部分的に線形化し, 線形化アダプタにタスク演算を適用する。
我々の部分線形化手法は、複数のタスクをより効果的に1つのモデルに融合させることを可能にしている。
論文 参考訳(メタデータ) (2023-10-07T08:55:54Z) - OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist
Models [72.8156832931841]
ジェネリストモデルは、単一のモデル内でタスクに依存しない方法で多様なマルチモーダルタスクを実行することができる。
マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。
論文 参考訳(メタデータ) (2022-12-08T17:07:09Z) - Task Adaptive Parameter Sharing for Multi-Task Learning [114.80350786535952]
Adaptive Task Adapting Sharing(TAPS)は、階層の小さなタスク固有のサブセットを適応的に修正することで、ベースモデルを新しいタスクにチューニングする手法である。
他の手法と比較して、TAPSはダウンストリームタスクに対して高い精度を維持し、タスク固有のパラメータは少ない。
我々は,タスクやアーキテクチャ(ResNet,DenseNet,ViT)を微調整して評価し,実装が簡単でありながら最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-03-30T23:16:07Z) - Controllable Dynamic Multi-Task Architectures [92.74372912009127]
本稿では,そのアーキテクチャと重みを動的に調整し,所望のタスク選択とリソース制約に適合させる制御可能なマルチタスクネットワークを提案する。
本稿では,タスク親和性と分岐正規化損失を利用した2つのハイパーネットの非交互トレーニングを提案し,入力の嗜好を取り入れ,適応重み付き木構造モデルを予測する。
論文 参考訳(メタデータ) (2022-03-28T17:56:40Z) - Parameter-efficient Multi-task Fine-tuning for Transformers via Shared
Hypernetworks [37.2958914602899]
共有ハイパーネットワークを用いて、すべてのレイヤやタスクのアダプタパラメータを生成できることを示す。
よく知られたGLUEベンチマークの実験では、タスク当たり0.29%のパラメータしか追加することなく、マルチタスク学習のパフォーマンスが改善された。
論文 参考訳(メタデータ) (2021-06-08T16:16:40Z) - A Meta-Learning Approach for Graph Representation Learning in Multi-Task
Settings [7.025709586759655]
本稿では,マルチタスクノード組込みが可能な新しいメタ学習戦略を提案する。
また,本手法で生成した組込みは,従来のモデルと同等あるいは高い性能で複数のタスクを実行することができることを示した。
論文 参考訳(メタデータ) (2020-12-12T08:36:47Z) - Controllable Pareto Multi-Task Learning [55.945680594691076]
マルチタスク学習システムは,複数のタスクを同時に解決することを目的としている。
固定されたモデルキャパシティでは、タスクは互いに衝突し、システムは通常、それらすべてを学ぶためにトレードオフをしなければならない。
本研究では,異なるタスク間のリアルタイムなトレードオフ制御を実現するための,新しい制御可能なマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-13T11:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。