論文の概要: Understanding Domain Learning in Language Models Through Subpopulation
Analysis
- arxiv url: http://arxiv.org/abs/2210.12553v1
- Date: Sat, 22 Oct 2022 21:12:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 14:13:48.502927
- Title: Understanding Domain Learning in Language Models Through Subpopulation
Analysis
- Title(参考訳): サブポピュレーション分析による言語モデルにおけるドメイン学習の理解
- Authors: Zheng Zhao, Yftah Ziser, Shay B. Cohen
- Abstract要約: 現代のニューラルネットワークアーキテクチャにおいて、異なるドメインがどのようにコード化されているかを調べる。
我々は、自然言語領域、モデルサイズ、使用したトレーニングデータ量との関係を分析する。
- 参考スコア(独自算出の注目度): 35.16003054930906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We investigate how different domains are encoded in modern neural network
architectures. We analyze the relationship between natural language domains,
model size, and the amount of training data used. The primary analysis tool we
develop is based on subpopulation analysis with Singular Vector Canonical
Correlation Analysis (SVCCA), which we apply to Transformer-based language
models (LMs). We compare the latent representations of such a language model at
its different layers from a pair of models: a model trained on multiple domains
(an experimental model) and a model trained on a single domain (a control
model). Through our method, we find that increasing the model capacity impacts
how domain information is stored in upper and lower layers differently. In
addition, we show that larger experimental models simultaneously embed
domain-specific information as if they were conjoined control models. These
findings are confirmed qualitatively, demonstrating the validity of our method.
- Abstract(参考訳): 現代のニューラルネットワークアーキテクチャにおいて、異なるドメインがどのようにコード化されているかを調べる。
我々は、自然言語領域、モデルサイズ、使用するトレーニングデータの量との関係を分析する。
私たちが開発している主要な分析ツールは、single vector canonical correlation analysis (svcca) を用いたサブポピュレーション分析に基づいており、これはtransformer-based language models (lms) に適用する。
複数のドメインで訓練されたモデル(実験モデル)と1つのドメインで訓練されたモデル(制御モデル)を比較した。
提案手法により,モデル容量の増加は,上層と下層にドメイン情報を格納する方法に異なる影響を与えることがわかった。
さらに, より大きな実験モデルでは, ドメイン固有情報を結合制御モデルのように同時に埋め込むことを示した。
これらの結果は定性的に確認され,本手法の有効性が示された。
関連論文リスト
- Learning to Generalize Unseen Domains via Multi-Source Meta Learning for Text Classification [71.08024880298613]
テキスト分類の多元的領域一般化について検討する。
本稿では、複数の参照ドメインを使用して、未知のドメインで高い精度を達成可能なモデルをトレーニングするフレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-20T07:46:21Z) - Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - Improving Domain Generalization with Domain Relations [77.63345406973097]
本稿では、モデルがトレーニングされたドメインと異なる新しいドメインに適用されたときに発生するドメインシフトに焦点を当てる。
ドメイン固有モデルを学習するためのD$3$Gという新しい手法を提案する。
以上の結果から,D$3$Gは最先端の手法より一貫して優れていた。
論文 参考訳(メタデータ) (2023-02-06T08:11:16Z) - QAGAN: Adversarial Approach To Learning Domain Invariant Language
Features [0.76146285961466]
ドメイン不変の特徴を学習するための敵対的学習手法について検討する。
EMスコアが15.2%改善され、ドメイン外の検証データセットでF1スコアが5.6%向上しました。
論文 参考訳(メタデータ) (2022-06-24T17:42:18Z) - Encoding Domain Knowledge in Multi-view Latent Variable Models: A
Bayesian Approach with Structured Sparsity [7.811916700683125]
MuVI はドメインインフォームド・マルチビュー潜在変数モデルのための新しいアプローチである。
私たちのモデルは、機能セットの形でノイズの多いドメインの専門知識を統合することができることを実証しています。
論文 参考訳(メタデータ) (2022-04-13T08:22:31Z) - Model-agnostic multi-objective approach for the evolutionary discovery
of mathematical models [55.41644538483948]
現代のデータ科学では、どの部分がより良い結果を得るために置き換えられるかというモデルの性質を理解することがより興味深い。
合成データ駆動型モデル学習において,多目的進化最適化を用いてアルゴリズムの所望特性を求める。
論文 参考訳(メタデータ) (2021-07-07T11:17:09Z) - Towards Trustworthy Deception Detection: Benchmarking Model Robustness
across Domains, Modalities, and Languages [10.131671217810581]
我々は、ドメイン外データ、モダリティ特化特徴、および英語以外の言語に対するモデルロバスト性を評価する。
我々は、追加の画像コンテンツを入力として、ELMo埋め込みはBERTまたはGLoVeと比較して大幅に少ないエラーをもたらすことを発見しました。
論文 参考訳(メタデータ) (2021-04-23T18:05:52Z) - Pruning-then-Expanding Model for Domain Adaptation of Neural Machine
Translation [9.403585397617865]
ドメイン適応はニューラルネットワーク翻訳の実践的応用に広く用いられている。
既存のドメイン適応法は、通常、破滅的な忘れ、ドメインの分岐、そしてモデル爆発に苦しむ。
本研究では、翻訳モデルにおけるニューロンやパラメータの重要性に基づいた「分割・征服」手法を提案する。
論文 参考訳(メタデータ) (2021-03-25T08:57:09Z) - Reprogramming Language Models for Molecular Representation Learning [65.00999660425731]
本稿では,分子学習タスクのための事前学習言語モデルに対して,辞書学習(R2DL)による表現再プログラミングを提案する。
対比プログラムは、k-SVDソルバを用いて、高密度ソースモデル入力空間(言語データ)とスパースターゲットモデル入力空間(例えば、化学および生物学的分子データ)との間の線形変換を学習する。
R2DLは、ドメイン固有のデータに基づいて訓練されたアート毒性予測モデルの状態によって確立されたベースラインを達成し、限られたトレーニングデータ設定でベースラインを上回る。
論文 参考訳(メタデータ) (2020-12-07T05:50:27Z) - Interpretable Multi-dataset Evaluation for Named Entity Recognition [110.64368106131062]
本稿では,名前付きエンティティ認識(NER)タスクに対する一般的な評価手法を提案する。
提案手法は,モデルとデータセットの違いと,それらの間の相互作用を解釈することを可能にする。
分析ツールを利用可能にすることで、将来の研究者が同様の分析を実行し、この分野の進歩を促進することができる。
論文 参考訳(メタデータ) (2020-11-13T10:53:27Z) - Unsupervised Domain Clusters in Pretrained Language Models [61.832234606157286]
大規模事前学習型言語モデルでは,教師なしのドメインによってクラスタ化される文表現を暗黙的に学習する。
このようなモデルに基づくドメインデータ選択手法を提案する。
我々は5つの異なる領域にわたるニューラルネットワーク翻訳のためのデータ選択手法を評価する。
論文 参考訳(メタデータ) (2020-04-05T06:22:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。