論文の概要: Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and
Simplicity Bias in MLMs
- arxiv url: http://arxiv.org/abs/2309.07311v3
- Date: Thu, 28 Sep 2023 21:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 10:25:04.504968
- Title: Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and
Simplicity Bias in MLMs
- Title(参考訳): 損失の急落:MLMにおける構文獲得、相転移、単純性バイアス
- Authors: Angelica Chen, Ravid Shwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt,
Naomi Saphra
- Abstract要約: マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。
本研究では,特定のトランスフォーマーヘッドが特定の構文的関係に焦点をあてる,アクセシビリティの自然発生特性である構文的注意構造(SAS)について検討する。
学習中にSASを操作することでSASの因果的役割を解明し,SASが文法的能力の発達に必要であることを示す。
- 参考スコア(独自算出の注目度): 50.5783641817253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most interpretability research in NLP focuses on understanding the behavior
and features of a fully trained model. However, certain insights into model
behavior may only be accessible by observing the trajectory of the training
process. We present a case study of syntax acquisition in masked language
models (MLMs) that demonstrates how analyzing the evolution of interpretable
artifacts throughout training deepens our understanding of emergent behavior.
In particular, we study Syntactic Attention Structure (SAS), a naturally
emerging property of MLMs wherein specific Transformer heads tend to focus on
specific syntactic relations. We identify a brief window in pretraining when
models abruptly acquire SAS, concurrent with a steep drop in loss. This
breakthrough precipitates the subsequent acquisition of linguistic
capabilities. We then examine the causal role of SAS by manipulating SAS during
training, and demonstrate that SAS is necessary for the development of
grammatical capabilities. We further find that SAS competes with other
beneficial traits during training, and that briefly suppressing SAS improves
model quality. These findings offer an interpretation of a real-world example
of both simplicity bias and breakthrough training dynamics.
- Abstract(参考訳): NLPにおけるほとんどの解釈可能性の研究は、完全に訓練されたモデルの振る舞いと特徴を理解することに焦点を当てている。
しかし、モデル行動に関する特定の洞察は、トレーニングプロセスの軌跡を観察することによってのみアクセス可能である。
本稿では,学習を通して解釈可能なアーティファクトの進化を分析することによって,創発的行動の理解を深める方法を示す,マスキング言語モデル(MLM)の構文習得事例について述べる。
特に,特定のトランスフォーマーヘッドが特定の構文関係に注目しやすいmlmsの自然発生的性質である構文的注意構造(sas)について検討した。
モデルが突然SASを取得し,損失が急激に減少する場合には,事前訓練において短時間の窓を識別する。
この突破口はその後の言語能力の獲得に拍車をかけた。
次に, SAS を訓練中に操作することで SAS の因果的役割を解明し, 文法能力の発達に SAS が不可欠であることを示す。
さらに、SASはトレーニング中に他の有益な特性と競合し、SASを一時的に抑制することでモデル品質が向上することがわかった。
これらの発見は、単純さバイアスとブレークスルートレーニングダイナミクスの両方の実例の解釈を提供する。
関連論文リスト
- Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Advances in Self-Supervised Learning for Synthetic Aperture Sonar Data
Processing, Classification, and Pattern Recognition [0.36700088931938835]
本稿では,SASデータ処理,分類,パターン認識に自己教師付き学習を活用するMoCo-SASを提案する。
実験の結果,MoCo-SASは従来の教師あり学習法よりも優れていた。
これらの知見は、SASデータ処理における最先端の進歩におけるSSLの可能性を強調し、水中物体の検出と分類を強化するための有望な道を提供する。
論文 参考訳(メタデータ) (2023-08-12T20:59:39Z) - Concept-aware Training Improves In-context Learning Ability of Language
Models [0.0]
トランスフォーマーファミリーの最近の言語モデル(LM)の多くは、いわゆるインコンテキスト学習(ICL)能力を示している。
テキスト内情報をよりよく活用できるLMを作成する手法を提案する。
概念認識トレーニングのデータサンプリングはモデルの推論能力を継続的に改善する。
論文 参考訳(メタデータ) (2023-05-23T07:44:52Z) - Explaining Emergent In-Context Learning as Kernel Regression [61.57151500616111]
大規模言語モデル(LLM)は、伝達学習のパラダイムシフトを開始した。
本稿では,トランスフォーマーに基づく言語モデルが事前学習後に文脈内学習を達成できる理由について検討する。
ICL中、LLMの注意と隠れた特徴は、カーネル回帰の挙動と一致していることがわかった。
論文 参考訳(メタデータ) (2023-05-22T06:45:02Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。