論文の概要: Echoes of BERT: Do Modern Language Models Rediscover the Classical NLP Pipeline?
- arxiv url: http://arxiv.org/abs/2506.02132v4
- Date: Wed, 15 Oct 2025 23:03:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 16:37:10.392821
- Title: Echoes of BERT: Do Modern Language Models Rediscover the Classical NLP Pipeline?
- Title(参考訳): BERTのエコー: 現代言語モデルは古典的なNLPパイプラインを発見するか?
- Authors: Michael Li, Nishant Subramani,
- Abstract要約: 従来のBERTologyに基づいて、古典的アーキテクチャ(BERT, DeBERTa, GPT-2)から現代の大規模言語モデル(Pythia, OLMo-2, Gemma-2, Qwen2.5, Llama-3.1)にまたがる25のモデルを分析する。
階層的な組織は現代のモデルに留まり、初期レイヤは構文をキャプチャし、中間レイヤはセマンティクスとエンティティレベルの情報を扱い、後のレイヤは談話現象をエンコードしている。
語彙情報は初期層で直線的に集中するが、ネットワークでは非線形に深くなっているのに対して、屈折情報はすべての層で直線的にアクセス可能である。
- 参考スコア(独自算出の注目度): 4.991808275998526
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformer-based language models dominate modern NLP, yet our understanding of how they encode linguistic information relies primarily on studies of early models like BERT and GPT-2. Building on classic BERTology work, we analyze 25 models spanning from classical architectures (BERT, DeBERTa, GPT-2) to modern large language models (Pythia, OLMo-2, Gemma-2, Qwen2.5, Llama-3.1), probing layer-by-layer representations across eight linguistic tasks in English. Consistent with earlier findings, we find that hierarchical organization persists in modern models: early layers capture syntax, middle layers handle semantics and entity-level information, and later layers encode discourse phenomena. We dive deeper, conducting an in-depth multilingual analysis of two specific linguistic properties - lexical identity and inflectional morphology - that help disentangle form from meaning. We find that lexical information concentrates linearly in early layers but becomes increasingly nonlinear deeper in the network, while inflectional information remains linearly accessible throughout all layers. Additional analyses of attention mechanisms, steering vectors, and pretraining checkpoints reveal where this information resides within layers, how it can be functionally manipulated, and how representations evolve during pretraining. Taken together, our findings suggest that, even with substantial advances in LLM technologies, transformer models learn to organize linguistic information in similar ways, regardless of model architecture, size, or training regime, indicating that these properties are important for next token prediction. Our code is available at https://github.com/ml5885/model_internal_sleuthing
- Abstract(参考訳): 大規模なトランスフォーマーベース言語モデルは現代のNLPを支配しているが、言語情報をエンコードする方法の理解は、BERTやGPT-2といった初期のモデルの研究に大きく依存している。
従来のBERTologyの作業に基づいて,古典的アーキテクチャ(BERT, DeBERTa, GPT-2)から現代大言語モデル(Pythia, OLMo-2, Gemma-2, Qwen2.5, Llama-3.1)にまたがる25のモデルを解析した。
初期のレイヤは構文をキャプチャし、中間レイヤは意味論やエンティティレベルの情報を扱い、後のレイヤは談話現象をエンコードする。
我々はより深く掘り下げ、意味から形を切り離すのに役立つ2つの特定の言語特性(語彙的アイデンティティと屈折形態学)を深く多言語で分析する。
語彙情報は初期層で直線的に集中するが、ネットワークでは非線形に深くなっているのに対して、屈折情報はすべての層で直線的にアクセス可能である。
注意機構、ステアリングベクトル、および事前学習チェックポイントのさらなる分析は、この情報が階層内に存在する場所、どのように機能的に操作できるか、事前学習中にどのように表現が進化するかを明らかにする。
その結果,LLM技術が大幅に進歩しても,トランスフォーマーモデルは,モデルアーキテクチャやサイズ,トレーニング体制に関わらず,同様の方法で言語情報を整理し,これらの特性が次のトークン予測に重要であることを示唆している。
私たちのコードはhttps://github.com/ml5885/model_internal_sleuthingで利用可能です。
関連論文リスト
- The more polypersonal the better -- a short look on space geometry of fine-tuned layers [0.0]
我々は、追加の文法モジュールで訓練されたBERTモデルの内部表現の変化を分析する。
単一の文法層を追加することで、モデルが新しい文法層と古い文法層をその内部で分離することを発見した。
論文 参考訳(メタデータ) (2025-01-09T18:50:47Z) - Scaling Laws for Linear Complexity Language Models [18.787664489713332]
線形複雑性言語モデルのスケーリング法則を提示し、その拡張性の基礎を確立する。
この研究は、既存の線形複雑性言語モデルが従来のトランスフォーマーベースモデルと同様のスケーリング能力を示すことを示した。
論文 参考訳(メタデータ) (2024-06-24T14:51:31Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Decoding Probing: Revealing Internal Linguistic Structures in Neural Language Models using Minimal Pairs [0.873811641236639]
本稿では,ニューラルネットワークモデル層の内部言語特性を層単位で探索する新しい復号探索手法を提案する。
言語モデルを脳として扱い、その表現をニューラルアクティベーションとして扱うことにより、中間層の表現から最小対の文法ラベルをデコードする。
論文 参考訳(メタデータ) (2024-03-26T00:56:06Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Unveiling Multilinguality in Transformer Models: Exploring Language
Specificity in Feed-Forward Networks [12.7259425362286]
多言語モデルがキー値記憶をどのように活用するかを検討する。
2つ以上の言語で訓練された自己回帰モデルに対して、すべてのニューロン(層全体)は全ての言語に等しく反応するのか?
その結果,ネットワークの入力や出力に最も近い層は,中間層に比べて言語固有の振る舞いを示す傾向があることがわかった。
論文 参考訳(メタデータ) (2023-10-24T06:45:00Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Is neural language acquisition similar to natural? A chronological
probing study [0.0515648410037406]
本稿では,MultiBERTやT5といったトランスフォーマー英語モデルの時系列探索について述べる。
コーパスの学習過程において,モデルが学習した言語に関する情報を比較した。
その結果,1)訓練の初期段階に言語情報を取得すること,2)両言語モデルが様々な言語レベルから様々な特徴を捉える能力を示した。
論文 参考訳(メタデータ) (2022-07-01T17:24:11Z) - A Unified Understanding of Deep NLP Models for Text Classification [88.35418976241057]
我々は、テキスト分類のためのNLPモデルの統一的な理解を可能にする視覚解析ツールDeepNLPVisを開発した。
主要なアイデアは相互情報に基づく尺度であり、モデルの各レイヤがサンプル内の入力語の情報をどのように保持するかを定量的に説明する。
コーパスレベル、サンプルレベル、単語レベルビジュアライゼーションで構成されるマルチレベルビジュアライゼーションは、全体トレーニングセットから個々のサンプルまでの分析をサポートする。
論文 参考訳(メタデータ) (2022-06-19T08:55:07Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。