論文の概要: How transfer learning impacts linguistic knowledge in deep NLP models?
- arxiv url: http://arxiv.org/abs/2105.15179v1
- Date: Mon, 31 May 2021 17:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 17:20:05.608867
- Title: How transfer learning impacts linguistic knowledge in deep NLP models?
- Title(参考訳): 深層nlpモデルにおける言語知識の伝達学習の影響
- Authors: Nadir Durrani and Hassan Sajjad and Fahim Dalvi
- Abstract要約: ディープNLPモデルは、モデルの異なる層でキャプチャされた、非自明な量の言語知識を学習する。
下流のNLPタスクに対する微調整が学習言語知識に与える影響について検討する。
- 参考スコア(独自算出の注目度): 22.035813865470956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning from pre-trained neural language models towards downstream
tasks has been a predominant theme in NLP recently. Several researchers have
shown that deep NLP models learn non-trivial amount of linguistic knowledge,
captured at different layers of the model. We investigate how fine-tuning
towards downstream NLP tasks impacts the learned linguistic knowledge. We carry
out a study across popular pre-trained models BERT, RoBERTa and XLNet using
layer and neuron-level diagnostic classifiers. We found that for some GLUE
tasks, the network relies on the core linguistic information and preserve it
deeper in the network, while for others it forgets. Linguistic information is
distributed in the pre-trained language models but becomes localized to the
lower layers post fine-tuning, reserving higher layers for the task specific
knowledge. The pattern varies across architectures, with BERT retaining
linguistic information relatively deeper in the network compared to RoBERTa and
XLNet, where it is predominantly delegated to the lower layers.
- Abstract(参考訳): トレーニング済みのニューラルネットワークモデルから下流タスクへの移行学習は、最近NLPの主要なテーマとなっている。
いくつかの研究者は、深部NLPモデルはモデルの異なる層で捉えた、非自明な量の言語知識を学習することを示した。
下流のNLPタスクに対する微調整が学習言語知識に与える影響について検討する。
我々は, BERT, RoBERTa, XLNetの各モデルに対して, 階層およびニューロンレベルの診断分類器を用いて検討を行った。
いくつかのGLUEタスクでは、ネットワークはコア言語情報に依存し、ネットワーク内でより深く保存するが、他のタスクではそれを忘れている。
言語情報は事前訓練された言語モデルに分散されるが、タスク固有の知識のために上位層を保存する微調整後、下位層にローカライズされる。
このパターンはアーキテクチャによって異なり、BERT は RoBERTa や XLNet に比べて比較的深い言語情報をネットワーク上に保持している。
関連論文リスト
- Gradient Localization Improves Lifelong Pretraining of Language Models [32.29298047707914]
WebスケールのテキストコーパスでトレーニングされたLarge Language Models (LLM) は、それらのパラメータの世界の知識をキャプチャする。
本研究では,時間的に敏感なエンティティに関する2種類の知識について検討し,それぞれのタイプがLLM内の異なるパラメータ集合に局所化されていることを示す。
論文 参考訳(メタデータ) (2024-11-07T05:43:50Z) - Exploring transfer learning for Deep NLP systems on rarely annotated languages [0.0]
本論文はヒンディー語とネパール語間のPOSタグ付けにおける移動学習の適用について考察する。
ヒンディー語におけるマルチタスク学習において,ジェンダーや単数/複数タグ付けなどの補助的なタスクがPOSタグ付け精度の向上に寄与するかどうかを評価する。
論文 参考訳(メタデータ) (2024-10-15T13:33:54Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Improving Interpretability via Explicit Word Interaction Graph Layer [28.28660926203816]
本稿では,単語間のグローバルな相互作用グラフを学習し,さらに情報的な単語を選択するトレーニング可能なニューラルネットワーク層を提案する。
私たちのレイヤはWIGRAPHと呼ばれ、ワード埋め込みレイヤーのすぐ後に、ニューラルネットワークベースのNLPテキスト分類器をプラグインできます。
論文 参考訳(メタデータ) (2023-02-03T21:56:32Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Discovering Salient Neurons in Deep NLP Models [31.18937787704794]
本稿では,モデル内のサルエントニューロンを抽出する言語相関解析法を提案する。
我々のデータ駆動量分析は興味深い発見を照らす。
我々のコードはNeuroXツールキットの一部として公開されています。
論文 参考訳(メタデータ) (2022-06-27T13:31:49Z) - Initial Study into Application of Feature Density and
Linguistically-backed Embedding to Improve Machine Learning-based
Cyberbullying Detection [54.83707803301847]
この研究は、自動サイバーバブル検出に関するKaggleコンペティションで提供されたFormspringデータセットで実施された。
本研究は,サイバブリング検出におけるニューラルネットワークの有効性と分類器性能と特徴密度の相関性を確認した。
論文 参考訳(メタデータ) (2022-06-04T03:17:15Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Analyzing Individual Neurons in Pre-trained Language Models [41.07850306314594]
言語的タスクを予測できるニューロンのサブセットは、より少ないニューロンに局所化される低いレベルタスクと、より高いレベルの構文予測タスクとがある。
例えば、XLNet のニューロンは、BERT などの特性を予測する際により局所化され、解離し、より分散され、結合される。
論文 参考訳(メタデータ) (2020-10-06T13:17:38Z) - Information-Theoretic Probing for Linguistic Structure [74.04862204427944]
本稿では,相互情報を推定するための情報理論による探索運用手法を提案する。
我々は,NLP研究でしばしば不足している10の型的多様言語について評価した。
論文 参考訳(メタデータ) (2020-04-07T01:06:36Z) - Cross-lingual, Character-Level Neural Morphological Tagging [57.0020906265213]
文字レベルのリカレントなニューラルタグをトレーニングし、高リソース言語と低リソース言語を併用して形態的タグ付けを予測する。
複数の関連言語間の共同文字表現の学習は、高リソース言語から低リソース言語への知識伝達を成功させ、モノリンガルモデルの精度を最大30%向上させる。
論文 参考訳(メタデータ) (2017-08-30T08:14:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。