論文の概要: Language Models Grow Less Humanlike beyond Phase Transition
- arxiv url: http://arxiv.org/abs/2502.18802v1
- Date: Wed, 26 Feb 2025 04:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:58:01.160510
- Title: Language Models Grow Less Humanlike beyond Phase Transition
- Title(参考訳): 言語モデルは相転移を超えて人間らしく成長する
- Authors: Tatsuya Aoyama, Ethan Wilcox,
- Abstract要約: ヒトの読解行動(サイコメトリック予測力; PPP)との整合性(LM)は、先端まで前訓練中に改善することが知られている。
単語頻度、注意の傾向バイアス、文脈サイズなど、様々な要因がPPPに影響を与えるように理論化されている。
本研究は,特定の注意点の急激な出現を特徴とし,基礎となる因子が事前学習相転移であると仮定する。
- 参考スコア(独自算出の注目度): 6.517734516157329
- License:
- Abstract: LMs' alignment with human reading behavior (i.e. psychometric predictive power; PPP) is known to improve during pretraining up to a tipping point, beyond which it either plateaus or degrades. Various factors, such as word frequency, recency bias in attention, and context size, have been theorized to affect PPP, yet there is no current account that explains why such a tipping point exists, and how it interacts with LMs' pretraining dynamics more generally. We hypothesize that the underlying factor is a pretraining phase transition, characterized by the rapid emergence of specialized attention heads. We conduct a series of correlational and causal experiments to show that such a phase transition is responsible for the tipping point in PPP. We then show that, rather than producing attention patterns that contribute to the degradation in PPP, phase transitions alter the subsequent learning dynamics of the model, such that further training keeps damaging PPP.
- Abstract(参考訳): ヒトの読解行動(サイコメトリック予測力; PPP)との整合性(LMs'saligned with human reading behavior)は、先進点まで前訓練で改善することが知られている。
単語頻度、注意の傾向バイアス、文脈サイズなどの様々な要因がPPPに影響を与えるように理論化されてきたが、なぜそのような転換点が存在するのか、そしてそれがLMの事前学習力学とどのように相互作用するかを説明する現在の説明はない。
本研究は,特定の注意点の急激な出現を特徴とし,基礎となる因子が事前学習相転移であると仮定する。
このような相転移がPPPの先端に寄与することを示すための一連の相関および因果実験を行う。
そして、PPPの劣化に寄与する注意パターンを生成する代わりに、相転移がその後の学習力学を変化させることで、PPPのさらなるトレーニングが損なわれ続けることを示す。
関連論文リスト
- Emergence of Episodic Memory in Transformers: Characterizing Changes in Temporal Structure of Attention Scores During Training [1.1417805445492082]
我々は,様々な大きさのGPT-2モデルの注意点と出力を分析した。
注意点全体では,時間的連続性,優性,再発など,ヒトのエピソード記憶に特徴的な効果が観察された。
トランスフォーマーは、コンテキスト内学習中に情報を時間的に整理し、その類似点と人間の記憶と学習の違いに光を当てる。
論文 参考訳(メタデータ) (2025-02-09T20:20:37Z) - How far can bias go? -- Tracing bias from pretraining data to alignment [54.51310112013655]
本研究では, 事前学習データにおける性別占有バイアスと, LLMにおける性別占有バイアスの相関について検討した。
その結果,事前学習データに存在するバイアスがモデル出力に増幅されることが判明した。
論文 参考訳(メタデータ) (2024-11-28T16:20:25Z) - Investigating Critical Period Effects in Language Acquisition through Neural Language Models [70.6367059367609]
第二言語 (L2) の習得は幼少期以降難しくなる。
この期間以降、第1言語(L1)への露出を緩和することは、通常、L1の習熟度を著しく低下させることはない。
これらのCP効果が自然に決定された脳の成熟によるものなのか、または経験によって自然に誘発される神経接続の安定化であるのかは不明である。
論文 参考訳(メタデータ) (2024-07-27T19:17:10Z) - TransFeat-TPP: An Interpretable Deep Covariate Temporal Point Processes [14.095247928114675]
古典的時間点過程(TPP)は、発生時間を考慮して強度関数を構成する。
本稿では,Transformer-based covariate temporal point process (TransFeat-TPP)モデルを提案する。
合成データセットと実データセットの実験的結果は、予測精度の向上と、常に解釈可能な特徴の重要性を示している。
論文 参考訳(メタデータ) (2024-07-23T04:05:29Z) - Challenges in Variable Importance Ranking Under Correlation [6.718144470265263]
本稿では,特徴相関が変数重要度評価に与える影響を総合シミュレーションで検討する。
ノックオフ変数と対応する予測変数の間には相関関係は常に存在しないが、相関関係が予測変数間の特定の相関しきい値を超えて線形に増加することを証明している。
論文 参考訳(メタデータ) (2024-02-05T19:02:13Z) - Cumulative Distribution Function based General Temporal Point Processes [49.758080415846884]
CuFunモデルは、累積分布関数(CDF)を中心に回転するTPPに対する新しいアプローチを表す
提案手法は従来のTPPモデリングに固有のいくつかの重要な問題に対処する。
コントリビューションには、先駆的なCDFベースのTPPモデルの導入、過去の事象情報を将来の事象予測に組み込む方法論の開発が含まれている。
論文 参考訳(メタデータ) (2024-02-01T07:21:30Z) - What Happens During Finetuning of Vision Transformers: An Invariance
Based Investigation [7.432224771219168]
Pretrain-finetuneパラダイムは、通常、同じタスクでモデルをスクラッチからトレーニングするよりも、下流のパフォーマンスを改善する。
本研究では,事前学習した視覚変換器とそれに対応する微調整バージョンとの関係を,複数のベンチマークデータセットとタスクで検討する。
論文 参考訳(メタデータ) (2023-07-12T08:35:24Z) - Rethinking Importance Weighting for Transfer Learning [71.81262398144946]
教師あり学習における主要な前提は、トレーニングとテストデータが同じ確率分布に従うことである。
現実の機械学習タスクはますます複雑になりつつあるため、このような課題に対処するための新しいアプローチが検討されている。
論文 参考訳(メタデータ) (2021-12-19T14:35:25Z) - Catastrophic Fisher Explosion: Early Phase Fisher Matrix Impacts
Generalization [111.57403811375484]
学習開始当初から,勾配降下がフィッシャー情報マトリックスの痕跡を暗黙的にペナルティ化することを示す。
暗黙的あるいは明示的な正規化がない場合、FIMの痕跡は訓練の早い段階で大きな値に増加する可能性があることを強調する。
論文 参考訳(メタデータ) (2020-12-28T11:17:46Z) - The Break-Even Point on Optimization Trajectories of Deep Neural
Networks [64.7563588124004]
この軌道上の「破滅的な」点の存在を論じる。
トレーニングの初期段階での大きな学習率を用いることで、勾配のばらつきが軽減されることを示す。
また, バッチ正規化層を有するニューラルネットワークにおいても, 低学習率を用いることで損失面の条件が悪くなることを示す。
論文 参考訳(メタデータ) (2020-02-21T22:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。