論文の概要: QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features
- arxiv url: http://arxiv.org/abs/2206.12388v1
- Date: Fri, 24 Jun 2022 17:42:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-27 13:26:41.126420
- Title: QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features
- Title(参考訳): QAGAN: ドメイン不変言語の特徴を学習するための逆アプローチ
- Authors: Shubham Shrivastava and Kaiyue Wang
- Abstract要約: ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Training models that are robust to data domain shift has gained an increasing
interest both in academia and industry. Question-Answering language models,
being one of the typical problem in Natural Language Processing (NLP) research,
has received much success with the advent of large transformer models. However,
existing approaches mostly work under the assumption that data is drawn from
same distribution during training and testing which is unrealistic and
non-scalable in the wild.
In this paper, we explore adversarial training approach towards learning
domain-invariant features so that language models can generalize well to
out-of-domain datasets. We also inspect various other ways to boost our model
performance including data augmentation by paraphrasing sentences, conditioning
end of answer span prediction on the start word, and carefully designed
annealing function. Our initial results show that in combination with these
methods, we are able to achieve $15.2\%$ improvement in EM score and $5.6\%$
boost in F1 score on out-of-domain validation dataset over the baseline. We
also dissect our model outputs and visualize the model hidden-states by
projecting them onto a lower-dimensional space, and discover that our specific
adversarial training approach indeed encourages the model to learn domain
invariant embedding and bring them closer in the multi-dimensional space.
- Abstract(参考訳): データドメインシフトに対して堅牢なトレーニングモデルは、アカデミックと業界の両方で関心を集めています。
自然言語処理(NLP)研究における典型的な問題の1つである質問回答言語モデルは、大きなトランスフォーマーモデルの出現で大きな成功を収めている。
しかしながら、既存のアプローチは、トレーニングやテスト中にデータが同じ分布から引き出されるという仮定の下で機能する。
本稿では、言語モデルがドメイン外データセットにうまく一般化できるように、ドメイン不変の特徴を学習するための敵対的トレーニングアプローチを検討する。
また,文のパラフレーズ化によるデータ拡張,開始語に対する応答範囲予測の条件付け,アニーリング関数を慎重に設計するなど,モデル性能を向上させるためのさまざまな方法についても検討する。
最初の結果は、これらの方法と組み合わせて、emスコアの15.2\%$改善と、ベースライン上のドメイン外のバリデーションデータセットのf1スコアの5.6\%$ boostを達成できることを示しています。
また、モデル出力を分解し、低次元空間に投影することでモデル隠れ状態の可視化を行い、我々の特定の対角トレーニングアプローチが実際にモデルにドメイン不変の埋め込みを学習させ、多次元空間に近づけるよう促すことを発見した。
関連論文リスト
- Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - Learning to Augment via Implicit Differentiation for Domain
Generalization [107.9666735637355]
ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。
本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。
AugLearnは、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで効果を示す。
論文 参考訳(メタデータ) (2022-10-25T18:51:51Z) - Understanding Domain Learning in Language Models Through Subpopulation
Analysis [35.16003054930906]
現代のニューラルネットワークアーキテクチャにおいて、異なるドメインがどのようにコード化されているかを調べる。
我々は、自然言語領域、モデルサイズ、使用したトレーニングデータ量との関係を分析する。
論文 参考訳(メタデータ) (2022-10-22T21:12:57Z) - CLIN-X: pre-trained language models and a study on cross-task transfer
for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。
本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。
本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文 参考訳(メタデータ) (2021-12-16T10:07:39Z) - Efficient Domain Adaptation of Language Models via Adaptive Tokenization [5.058301279065432]
ドメイン固有のサブワードシーケンスは,ベースおよびドメイン固有のコーパスの条件付きトークン分布の分岐から,直接的に決定可能であることを示す。
我々の手法は、トークン化器の強化を用いた他の手法よりも、より小さなモデルで、トレーニングや推論の時間が少なくなります。
論文 参考訳(メタデータ) (2021-09-15T17:51:27Z) - Source-Free Open Compound Domain Adaptation in Semantic Segmentation [99.82890571842603]
SF-OCDAでは、ターゲットモデルを学習するために、ソース事前訓練されたモデルとターゲットデータのみが利用可能である。
そこで我々は,Cross-Patch Style Swap (CPSS)を提案する。
提案手法は,C-Drivingデータセット上で最先端の結果を生成する。
論文 参考訳(メタデータ) (2021-06-07T08:38:41Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。