論文の概要: How does the pre-training objective affect what large language models
learn about linguistic properties?
- arxiv url: http://arxiv.org/abs/2203.10415v1
- Date: Sun, 20 Mar 2022 00:02:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-26 14:11:46.393335
- Title: How does the pre-training objective affect what large language models
learn about linguistic properties?
- Title(参考訳): 事前学習の目的は、大きな言語モデルが言語特性について学んだことにどのように影響しますか?
- Authors: Ahmed Alajrami and Nikolaos Aletras
- Abstract要約: BERTが言語特性について学んでいることに対して,事前学習の目的がどう影響するかを検討する。
2つの言語的動機と3つの非言語的動機を持つBERTを事前訓練した。
2つの異なる目的によって学習された表現の間には,性能の差が小さいという強い証拠がある。
- 参考スコア(独自算出の注目度): 30.699644290131044
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Several pre-training objectives, such as masked language modeling (MLM), have
been proposed to pre-train language models (e.g. BERT) with the aim of learning
better language representations. However, to the best of our knowledge, no
previous work so far has investigated how different pre-training objectives
affect what BERT learns about linguistics properties. We hypothesize that
linguistically motivated objectives such as MLM should help BERT to acquire
better linguistic knowledge compared to other non-linguistically motivated
objectives that are not intuitive or hard for humans to guess the association
between the input and the label to be predicted. To this end, we pre-train BERT
with two linguistically motivated objectives and three non-linguistically
motivated ones. We then probe for linguistic characteristics encoded in the
representation of the resulting models. We find strong evidence that there are
only small differences in probing performance between the representations
learned by the two different types of objectives. These surprising results
question the dominant narrative of linguistically informed pre-training.
- Abstract(参考訳): マスク言語モデリング(MLM)のような事前学習の目的は、より良い言語表現を学ぶことを目的として、事前訓練言語モデル(例えばBERT)に提案されている。
しかしながら、我々の知る限りでは、bertが言語学特性について学んだことに対して、事前学習目標の違いがどのように影響するか、これまでの研究は行われていない。
MLMのような言語的動機付けの目的は、人間が予測すべき入力とラベルの関係を推測することが困難で直感的でない他の非言語的動機付けの目的と比較して、BERTがより良い言語的知識を得るのに役立つと仮定する。
この目的のために,2つの言語的モチベーションと3つの非言語的モチベーションを持つBERTを事前訓練した。
次に,結果のモデル表現で符号化された言語特性について検討する。
2つの異なる目的によって学習された表現の間には,性能の差が小さいという強い証拠がある。
これらの驚くべき結果は、言語的にインフォームドされた事前学習における支配的な物語に疑問を呈する。
関連論文リスト
- Holmes: A Benchmark to Assess the Linguistic Competence of Language Models [59.627729608055006]
言語モデル(LM)の言語能力を評価するための新しいベンチマークであるHolmesを紹介する。
我々は、計算に基づく探索を用いて、異なる言語現象に関するLMの内部表現を調べる。
その結果,近年,他の認知能力からLMの言語能力を引き離す声が上がっている。
論文 参考訳(メタデータ) (2024-04-29T17:58:36Z) - Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - Sabi\'a: Portuguese Large Language Models [14.801853435122908]
対象言語における単言語事前学習は,すでに多種多様なコーパスで訓練されているモデルを大幅に改善することを示した。
ポルトガルの14のデータセットからなるスイートであるPoetaに関するわずかな評価によると、我々のモデルは、英語と多言語で比較すると、かなり差がある。
論文 参考訳(メタデータ) (2023-04-16T20:11:19Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - LERT: A Linguistically-motivated Pre-trained Language Model [67.65651497173998]
本稿では,3種類の言語特徴を学習する事前学習型言語モデルLERTを提案する。
我々は,中国における10のNLUタスクについて広範な実験を行い,LERTが大きな改善をもたらすことを示す実験結果を得た。
論文 参考訳(メタデータ) (2022-11-10T05:09:16Z) - An Empirical Revisiting of Linguistic Knowledge Fusion in Language
Understanding Tasks [33.765874588342285]
構文的・意味的知識を持つ言語モデルの構築は,多くの言語理解タスクにおいて改善されている。
GLUEベンチマークにおいて,解析されたグラフや木を簡単なタスクに置き換える実験的検討を行った。
このことは、利得は明示的な言語的先行によるものではなく、融合層によってもたらされるより機能的な相互作用によるものであることを明らかにしている。
論文 参考訳(メタデータ) (2022-10-24T07:47:32Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - DICT-MLM: Improved Multilingual Pre-Training using Bilingual
Dictionaries [8.83363871195679]
主要な言語学習目的としてのマスケプド・モデリング(MLM)の目的。
DICT-MLMは、オリジナルのマスキングされた単語だけでなく、言語間の同義語も予測できるようにモデルにインセンティブを与える。
30以上の言語にまたがる複数の下流タスクに関する実証分析により,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2020-10-23T17:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。