論文の概要: Towards Anytime Fine-tuning: Continually Pre-trained Language Models
with Hypernetwork Prompt
- arxiv url: http://arxiv.org/abs/2310.13024v1
- Date: Thu, 19 Oct 2023 06:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 02:06:41.076059
- Title: Towards Anytime Fine-tuning: Continually Pre-trained Language Models
with Hypernetwork Prompt
- Title(参考訳): 常時微調整に向けて:ハイパーネットワークプロンプトによる事前学習型言語モデル
- Authors: Gangwei Jiang, Caigao Jiang, Siqiao Xue, James Y. Zhang, Jun Zhou,
Defu Lian, Ying Wei
- Abstract要約: 継続的に事前訓練されたモデルは、事前訓練されたドメインで微調整された場合、より大きな能力を示すことが期待されている。
本稿では,ドメイン固有のプロンプトを生成するためにハイパーネットワークをトレーニングする,プロンプト誘導型連続訓練手法を提案する。
実世界の2つのデータセットで3.57%と3.4%の改善を実現した。
- 参考スコア(独自算出の注目度): 32.09029666622073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continual pre-training has been urgent for adapting a pre-trained model to a
multitude of domains and tasks in the fast-evolving world. In practice, a
continually pre-trained model is expected to demonstrate not only greater
capacity when fine-tuned on pre-trained domains but also a non-decreasing
performance on unseen ones. In this work, we first investigate such anytime
fine-tuning effectiveness of existing continual pre-training approaches,
concluding with unanimously decreased performance on unseen domains. To this
end, we propose a prompt-guided continual pre-training method, where we train a
hypernetwork to generate domain-specific prompts by both agreement and
disagreement losses. The agreement loss maximally preserves the generalization
of a pre-trained model to new domains, and the disagreement one guards the
exclusiveness of the generated hidden states for each domain. Remarkably,
prompts by the hypernetwork alleviate the domain identity when fine-tuning and
promote knowledge transfer across domains. Our method achieved improvements of
3.57% and 3.4% on two real-world datasets (including domain shift and temporal
shift), respectively, demonstrating its efficacy.
- Abstract(参考訳): 継続的な事前訓練は、急速に発展する世界の多くのドメインやタスクに事前訓練されたモデルを適応させる上で急務である。
実際には、継続的に事前訓練されたモデルが、事前訓練されたドメインで微調整された場合だけでなく、目に見えないドメインでは非減少性能を示すことが期待されている。
そこで本研究では,既存の継続事前学習手法の微調整効果について検討し,一括的に未確認領域の性能を低下させることを結論とした。
そこで我々は,合意と不一致の損失によってドメイン固有のプロンプトを生成するためにハイパーネットワークを訓練する,プロンプト誘導型連続事前学習手法を提案する。
合意損失は、事前訓練されたモデルの新たなドメインへの一般化を最大限に保ち、不一致は、生成された各ドメインの隠れた状態の排他性を守る。
驚くべきことに、ハイパーネットワークによるプロンプトによってドメインのアイデンティティが緩和され、ドメイン間の知識転送が促進される。
本手法は実世界の2つのデータセット(ドメインシフトと時間シフトを含む)で3.57%と3.4%の改善を実現し,その有効性を示した。
関連論文リスト
- SADA: Semantic adversarial unsupervised domain adaptation for Temporal Action Localization [32.35611853688068]
本稿では,Sparse TAL における Unsupervised Domain Adaptation のアプローチを初めて紹介する。
我々は、現実的なスパース動作検出ベンチマークで動作するドメイン適応モデルの開発を開拓した。
EpicKitchens100とCharadesEgoをベースとした,複数のドメインシフトを評価する新しいベンチマークセットを提案する。
論文 参考訳(メタデータ) (2023-12-20T19:08:49Z) - FusDom: Combining In-Domain and Out-of-Domain Knowledge for Continuous
Self-Supervised Learning [54.9235160379917]
FusDomはSSLベースの継続事前トレーニングのためのシンプルで斬新な方法論である。
FusDomは、過去に見られる概念を忘れずに頑健で適応的な表現を学ぶ。
論文 参考訳(メタデータ) (2023-12-20T13:50:05Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Boosting Cross-Domain Speech Recognition with Self-Supervision [35.01508881708751]
自動音声認識(ASR)のクロスドメイン性能は,トレーニングとテストのミスマッチにより著しく損なわれる可能性がある。
従来, 自己監督学習 (SSL) や擬似ラベル学習 (PL) は, 未ラベルデータの自己監督を利用してUDAに有効であることが示された。
この研究は、事前学習および微調整のパラダイムにおいて、ラベルなしデータを完全に活用する体系的なUDAフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-20T14:02:53Z) - Forget Less, Count Better: A Domain-Incremental Self-Distillation
Learning Benchmark for Lifelong Crowd Counting [51.44987756859706]
オフザシェルフ法は複数のドメインを扱うのにいくつかの欠点がある。
生涯クラウドカウンティングは、壊滅的な忘れを緩和し、一般化能力を改善することを目的としている。
論文 参考訳(メタデータ) (2022-05-06T15:37:56Z) - Omni-Training for Data-Efficient Deep Learning [80.28715182095975]
近年の進歩により、適切に訓練されたモデルが重要な特性であるトランスファービリティを持つことが明らかとなった。
事前訓練とメタトレーニングの厳密な組み合わせは、どちらの種類のトランスファー可能性も達成できない。
このことが提案されているOmni-Trainingフレームワークを,データ効率のよいディープラーニングに動機付けている。
論文 参考訳(メタデータ) (2021-10-14T16:30:36Z) - Domain Adaptation for Semantic Segmentation via Patch-Wise Contrastive
Learning [62.7588467386166]
ドメイン間で構造的に類似するラベルパッチの機能を調整することで、ドメインギャップを埋めるためにコントラスト学習を利用する。
私たちのアプローチは、常に2つの困難なドメイン適応セグメンテーションタスクにおいて、最先端の非監視および半監督メソッドを上回ります。
論文 参考訳(メタデータ) (2021-04-22T13:39:12Z) - AdaptSum: Towards Low-Resource Domain Adaptation for Abstractive
Summarization [43.024669990477214]
低リソース環境下における6つの多様な対象領域の抽象的要約タスクに対する領域適応の検討について述べる。
実験により,事前学習の有効性は,事前学習データと対象領域タスクの類似度と相関することが示された。
論文 参考訳(メタデータ) (2021-03-21T08:12:19Z) - Don't Stop Pretraining: Adapt Language Models to Domains and Tasks [81.99843216550306]
バイオメディカルおよびコンピュータサイエンスの出版物、ニュース、レビュー)と8つの分類タスクについて調査する。
ドメイン内の事前トレーニング(ドメイン適応型事前トレーニング)の第2フェーズでは、パフォーマンスが向上する。
タスクの未ラベルデータ(タスク適応事前トレーニング)に適応することで、ドメイン適応事前トレーニング後のパフォーマンスが向上する。
論文 参考訳(メタデータ) (2020-04-23T04:21:19Z) - Improve Unsupervised Domain Adaptation with Mixup Training [18.329571222689562]
本稿では,ラベルの豊富な関連するソースドメインを用いて,注釈のないターゲットドメインの予測モデルを構築するという課題について検討する。
近年の研究では、ドメイン不変の特徴を学習する一般的な敵対的アプローチは、望ましいドメイン性能を達成するには不十分である。
対象データに対する一般化性能に直接対処するために、ミックスアップ定式化を用いて、ドメイン間のトレーニング制約を強制することを提案する。
論文 参考訳(メタデータ) (2020-01-03T01:21:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。