論文の概要: Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and
Simplicity Bias in MLMs
- arxiv url: http://arxiv.org/abs/2309.07311v2
- Date: Wed, 27 Sep 2023 14:25:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 18:38:41.047872
- Title: Sudden Drops in the Loss: Syntax Acquisition, Phase Transitions, and
Simplicity Bias in MLMs
- Title(参考訳): 損失の急落:MLMにおける構文獲得、相転移、単純性バイアス
- Authors: Angelica Chen, Ravid Shwartz-Ziv, Kyunghyun Cho, Matthew L. Leavitt,
Naomi Saphra
- Abstract要約: マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。
本研究は,学習を通して解釈可能な人工物の進化を分析することによって,創発的行動の理解が深まることを示すものである。
これらの結果は、不利な単純さバイアスと解釈可能なブレークスルートレーニングダイナミクスの関係の現実的な例を示している。
- 参考スコア(独自算出の注目度): 50.5783641817253
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most interpretability research in NLP focuses on understanding the behavior
and features of a fully trained model. However, certain insights into model
behavior may only be accessible by observing the trajectory of the training
process. In this paper, we present a case study of syntax acquisition in masked
language models (MLMs). Our findings demonstrate how analyzing the evolution of
interpretable artifacts throughout training deepens our understanding of
emergent behavior. In particular, we study Syntactic Attention Structure (SAS),
a naturally emerging property of MLMs wherein specific Transformer heads tend
to focus on specific syntactic relations. We identify a brief window in
training when models abruptly acquire SAS and find that this window is
concurrent with a steep drop in loss. Moreover, SAS precipitates the subsequent
acquisition of linguistic capabilities. We then examine the causal role of SAS
by introducing a regularizer to manipulate SAS during training, and demonstrate
that SAS is necessary for the development of grammatical capabilities. We
further find that SAS competes with other beneficial traits and capabilities
during training, and that briefly suppressing SAS can improve model quality.
These findings reveal a real-world example of the relationship between
disadvantageous simplicity bias and interpretable breakthrough training
dynamics.
- Abstract(参考訳): NLPにおけるほとんどの解釈可能性の研究は、完全に訓練されたモデルの振る舞いと特徴を理解することに焦点を当てている。
しかし、モデル行動に関する特定の洞察は、トレーニングプロセスの軌跡を観察することによってのみアクセス可能である。
本稿では,マスキング言語モデル(MLM)における構文習得のケーススタディを提案する。
本研究は,学習を通して解釈可能な人工物の進化を分析することで,創発的行動の理解を深めることを示す。
特に,特定のトランスフォーマーヘッドが特定の構文関係に注目しやすいmlmsの自然発生的性質である構文的注意構造(sas)について検討した。
モデルが突然SASを取得すると、トレーニング中の短いウィンドウを識別し、このウィンドウは損失の急激な減少と同時であることを示す。
さらに、SASはその後の言語能力の獲得を早める。
次に,SASの因果的役割について,トレーニング中にSASを操作するための正規化器を導入し,文法能力の発達にSASが必要であることを示す。
さらに、SASはトレーニング中に他の有益な特性や能力と競合し、SASを短時間抑制することでモデル品質が向上することがわかった。
これらの結果は、不利な単純さバイアスと解釈可能なブレークスルートレーニングダイナミクスの関係の実際の例を示している。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Latent Causal Probing: A Formal Perspective on Probing with Causal Models of Data [3.376269351435396]
構造因果モデル(SCM)を用いた探索の形式的視点を開発する。
我々は,合成グリッドワールドナビゲーションタスクの文脈において,最近のLMの研究を拡張した。
我々の手法は、LMがテキストの根底にある潜在概念を誘発する能力を示す、堅牢な実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-07-18T17:59:27Z) - Advances in Self-Supervised Learning for Synthetic Aperture Sonar Data
Processing, Classification, and Pattern Recognition [0.36700088931938835]
本稿では,SASデータ処理,分類,パターン認識に自己教師付き学習を活用するMoCo-SASを提案する。
実験の結果,MoCo-SASは従来の教師あり学習法よりも優れていた。
これらの知見は、SASデータ処理における最先端の進歩におけるSSLの可能性を強調し、水中物体の検出と分類を強化するための有望な道を提供する。
論文 参考訳(メタデータ) (2023-08-12T20:59:39Z) - An Explanation of In-context Learning as Implicit Bayesian Inference [117.19809377740188]
In-context Learning の出現における事前学習分布の役割について検討した。
本研究では,潜在概念のベイズ的推論を通じて,文脈内学習が暗黙的に起こることを証明した。
我々は,事前学習損失が同じであっても,スケーリングモデルのサイズがコンテキスト内精度を向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2021-11-03T09:12:33Z) - On the Transferability of Pre-trained Language Models: A Study from
Artificial Datasets [74.11825654535895]
大規模未ラベルテキストデータ上での事前学習言語モデル(LM)により、ダウンストリームのパフォーマンスが極めて容易になる。
我々は,事前学習データに含まれる特定の特徴について,セマンティクス以外では,下流タスクのスクラッチからトレーニングしたデータよりも,事前学習したLMを優れているか検討した。
論文 参考訳(メタデータ) (2021-09-08T10:39:57Z) - Did the Cat Drink the Coffee? Challenging Transformers with Generalized
Event Knowledge [59.22170796793179]
Transformers Language Models (TLMs) を数学的適合のテクトダイナミックな評価のためのベンチマークで検証した。
以上の結果から, TLM は SDM に匹敵する性能が得られることが示された。
しかし、さらなる分析は、TLMがイベント知識の重要な側面を捉えていないことを一貫して示唆している。
論文 参考訳(メタデータ) (2021-07-22T20:52:26Z) - Masked Language Modeling and the Distributional Hypothesis: Order Word
Matters Pre-training for Little [74.49773960145681]
マスク言語モデル(MLM)トレーニングの印象的なパフォーマンスの可能な説明は、そのようなモデルがNLPパイプラインで広く普及している構文構造を表現することを学びました。
本稿では,先行訓練がダウンストリームタスクでほぼ完全に成功する理由として,高次単語共起統計をモデル化できることを挙げる。
以上の結果から,純粋分布情報は,事前学習の成功を主に説明し,深い言語知識を必要とする難易度評価データセットのキュレーションの重要性を強調する。
論文 参考訳(メタデータ) (2021-04-14T06:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。