論文の概要: TADA: Efficient Task-Agnostic Domain Adaptation for Transformers
- arxiv url: http://arxiv.org/abs/2305.12717v1
- Date: Mon, 22 May 2023 04:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 18:16:36.477312
- Title: TADA: Efficient Task-Agnostic Domain Adaptation for Transformers
- Title(参考訳): TADA: 変圧器のタスク非依存ドメイン適応
- Authors: Chia-Chien Hung, Lukas Lange, Jannik Str\"otgen
- Abstract要約: 本研究では,タスクに依存しない新しいドメイン適応手法であるTADを紹介する。
TADA内では、トランスフォーマーエンコーダ用のドメイン認識型入力表現とトークン化器を学習するために埋め込みを再学習する。
メタ埋め込みと新しいメタトケナイザを用いて実験を行い、マルチドメインのユースケースでタスク毎に1つのモデルを作成する。
- 参考スコア(独自算出の注目度): 3.9379577980832843
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Intermediate training of pre-trained transformer-based language models on
domain-specific data leads to substantial gains for downstream tasks. To
increase efficiency and prevent catastrophic forgetting alleviated from full
domain-adaptive pre-training, approaches such as adapters have been developed.
However, these require additional parameters for each layer, and are criticized
for their limited expressiveness. In this work, we introduce TADA, a novel
task-agnostic domain adaptation method which is modular, parameter-efficient,
and thus, data-efficient. Within TADA, we retrain the embeddings to learn
domain-aware input representations and tokenizers for the transformer encoder,
while freezing all other parameters of the model. Then, task-specific
fine-tuning is performed. We further conduct experiments with meta-embeddings
and newly introduced meta-tokenizers, resulting in one model per task in
multi-domain use cases. Our broad evaluation in 4 downstream tasks for 14
domains across single- and multi-domain setups and high- and low-resource
scenarios reveals that TADA is an effective and efficient alternative to full
domain-adaptive pre-training and adapters for domain adaptation, while not
introducing additional parameters or complex training steps.
- Abstract(参考訳): ドメイン固有のデータに対する事前学習されたトランスフォーマーベースの言語モデルの中間トレーニングは、ダウンストリームタスクでかなりの利益をもたらす。
完全ドメイン適応型事前学習による効率の向上と壊滅的忘れを防止するため,アダプタなどのアプローチが開発されている。
しかし、これらには各層に追加のパラメータが必要であり、表現力の制限が批判されている。
本研究では,モジュール型,パラメータ効率,従ってデータ効率の新たなタスクに依存しないドメイン適応手法であるTADを紹介する。
TADA内では、埋め込みをトレーニングし、トランスフォーマーエンコーダのドメイン認識入力表現とトークン化器を学習し、モデルの他のパラメータをすべて凍結する。
そして、タスク固有の微調整を行う。
さらにメタエンベディングと新たに導入されたメタトケナイザを用いて実験を行い,マルチドメインのユースケースにおいてタスク毎にひとつのモデルを生成する。
シングルドメインとマルチドメインのセットアップと低リソースのシナリオにまたがる14のドメインに対する4つのダウンストリームタスクにおける幅広い評価は、TADがドメイン適応のための完全なドメイン適応型事前トレーニングとアダプタの効果的な代替手段であり、追加のパラメータや複雑なトレーニング手順を導入していないことを示している。
関連論文リスト
- ConvLoRA and AdaBN based Domain Adaptation via Self-Training [4.006331916849688]
マルチターゲットドメイン適応のための畳み込み低ランク適応(ConvLoRA)を提案する。
ConvLoRAはトレーニング済みのモデルウェイトを凍結し、畳み込み層にトレーニング可能な低ランク分解行列を追加し、勾配をバックプロパゲートする。
提案手法はトレーニング可能なパラメータを少なくし,大規模独立微調整ネットワークと同等あるいは同等に動作する。
論文 参考訳(メタデータ) (2024-02-07T15:43:50Z) - ViDA: Homeostatic Visual Domain Adapter for Continual Test Time
Adaptation [49.84571101331491]
目標ドメインの継続的な変更に事前訓練されたモデルを適用するために、CTTAタスクを提案する。
我々はCTTAのためのビジュアルドメインアダプタ(ViDA)を提案し、ドメイン固有知識とドメイン共有知識の両方を明示的に扱う。
提案手法は,CTTAタスクの分類とセグメント化の両方において,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-06-07T11:18:53Z) - Multi-Prompt Alignment for Multi-Source Unsupervised Domain Adaptation [93.97597757190334]
マルチプロンプトアライメント(MPA: Multi-Prompt Alignment)は,マルチソースUDAのためのシンプルかつ効率的なフレームワークである。
MPAは、学習したプロンプトを自動エンコードプロセスで認知し、再構築されたプロンプトの合意を最大化することでそれらを調整する。
実験によると、MPAは3つの一般的なデータセットで最先端の結果を達成し、DomainNetの平均精度は54.1%である。
論文 参考訳(メタデータ) (2022-09-30T03:40:10Z) - Meta-Learning the Difference: Preparing Large Language Models for
Efficient Adaptation [11.960178399478718]
大規模な事前訓練言語モデル(PLM)は、しばしば細調整やプロンプトによってドメインまたはタスク適応される。
その代わりに、一般と適応のPLMの違いを学習することで、データおよびパラメータ効率の適応のためのPLMを作成する。
論文 参考訳(メタデータ) (2022-07-07T18:00:22Z) - AdapterBias: Parameter-efficient Token-dependent Representation Shift
for Adapters in NLP Tasks [55.705355299065474]
数百万のパラメータを持つトランスフォーマーベースの事前学習モデルは、大きなストレージを必要とする。
近年のアプローチでは、アダプタをトレーニングすることでこの欠点に対処しているが、それでも比較的多くのパラメータを必要とする。
本研究では,驚くほどシンプルで効果的なアダプタアーキテクチャであるAdapterBiasを提案する。
論文 参考訳(メタデータ) (2022-04-30T16:49:41Z) - AdaStereo: An Efficient Domain-Adaptive Stereo Matching Approach [50.855679274530615]
本稿では,AdaStereoというドメイン適応型アプローチを提案する。
我々のモデルは、KITTI、Middlebury、ETH3D、DrivingStereoなど、複数のベンチマークで最先端のクロスドメイン性能を実現している。
提案手法は,様々なドメイン適応設定に対して堅牢であり,迅速な適応アプリケーションシナリオや実環境展開に容易に組み込むことができる。
論文 参考訳(メタデータ) (2021-12-09T15:10:47Z) - Unsupervised Domain Adaptation with Adapter [34.22467238579088]
本稿では、教師なしドメイン適応のためのアダプタベースの微調整手法について検討する。
いくつかのトレーニング可能なアダプタモジュールがPrLMに挿入され、元のPrLMのパラメータを固定することで、組み込みの汎用知識が保持される。
2つのベンチマークデータセットに関する実験を行い、その結果、我々のアプローチが異なるタスク、データセットサイズ、ドメインの類似性に対して有効であることを実証した。
論文 参考訳(メタデータ) (2021-11-01T02:50:53Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Parameter-Efficient Transfer from Sequential Behaviors for User Modeling
and Recommendation [111.44445634272235]
本稿では,PeterRecと呼ばれるパラメータ効率のよい移動学習アーキテクチャを提案する。
PeterRecは、トレーニング済みのパラメータを、一連の再学習ニューラルネットワークを注入することで、微調整中に修正されないようにする。
我々は5つの下流タスクにおいて学習したユーザ表現の有効性を示すために、広範囲な実験的アブレーションを行う。
論文 参考訳(メタデータ) (2020-01-13T14:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。