論文の概要: Model Internal Sleuthing: Finding Lexical Identity and Inflectional Morphology in Modern Language Models
- arxiv url: http://arxiv.org/abs/2506.02132v1
- Date: Mon, 02 Jun 2025 18:01:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.922021
- Title: Model Internal Sleuthing: Finding Lexical Identity and Inflectional Morphology in Modern Language Models
- Title(参考訳): モデル内部スルーシング:現代言語モデルにおける語彙的アイデンティティと屈折形態の発見
- Authors: Michael Li, Nishant Subramani,
- Abstract要約: 現代における大規模言語モデルがどのように語彙的同一性や屈折形態を表現しているかを考察する。
モデルは、初期層に線形に語彙情報を集中し、後期層に非線形に集中することを発見した。
注目すべきは、これらのパターンは、アーキテクチャ、サイズ、トレーニング体制の違いにもかかわらず、私たちがテストする16のモデルすべてに現れます。
- 参考スコア(独自算出の注目度): 5.317065202153858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large transformer-based language models dominate modern NLP, yet our understanding of how they encode linguistic information is rooted in studies of early models like BERT and GPT-2. To better understand today's language models, we investigate how both classical architectures (BERT, DeBERTa, GPT-2)and contemporary large language models (Pythia, OLMo-2, Gemma-2, Qwen2.5, Llama-3.1) represent lexical identity and inflectional morphology. We train linear and nonlinear classifiers on layer-wise activations to predict word lemmas and inflectional features. We discover that models concentrate lexical information linearly in early layers and increasingly nonlinearly in later layers, while keeping inflectional information uniformly accessible and linearly separable throughout the layers. Further analysis reveals that these models encode inflectional morphology through generalizable abstractions, but rely predominantly on memorization to encode lexical identity. Remarkably, these patterns emerge across all 16 models we test, despite differences in architecture, size, and training regime (including pretrained and instruction-tuned variants). This consistency suggests that, despite substantial advances in LLM technologies, transformer models organize linguistic information in similar ways, indicating that these properties could be fundamental for next token prediction and are learned early during pretraining. Our code is available at https://github.com/ml5885/model_internal_sleuthing.
- Abstract(参考訳): 大規模なトランスフォーマーベース言語モデルは現代のNLPを支配しているが、言語情報をエンコードする方法の理解は、BERTやGPT-2といった初期のモデルの研究に根ざしている。
現在の言語モデルをよりよく理解するために,古典的アーキテクチャ (BERT, DeBERTa, GPT-2) と現代大言語モデル (Pythia, OLMo-2, Gemma-2, Qwen2.5, Llama-3.1) の両方が,語彙的同一性および屈折形態を表すかを検討する。
線形および非線形の分類器を階層的アクティベーションで訓練し、単語の補題と屈折の特徴を予測する。
モデルでは, 初期層に線形に, 後層に非線形に集中する一方で, インフレクショナル情報を均一にアクセスし, 線形に分離可能な状態に保ちながら, 後層に非線形に集中することが判明した。
さらなる分析により、これらのモデルは一般化可能な抽象化を通じて屈折形態を符号化するが、語彙的アイデンティティを符号化するために記憶に大きく依存することが明らかとなった。
注目すべきは、これらのパターンが、アーキテクチャ、サイズ、トレーニング体制(事前訓練済みおよび命令調整済みの亜種を含む)が異なるにもかかわらず、私たちがテストする16のモデルすべてに現れます。
この一貫性は、LLM技術の大幅な進歩にもかかわらず、トランスフォーマーモデルは同様の方法で言語情報を整理し、これらの特性が次のトークン予測の基本となり、事前訓練中に早期に学習されることを示唆している。
私たちのコードはhttps://github.com/ml5885/model_internal_sleuthing.comから入手可能です。
関連論文リスト
- The more polypersonal the better -- a short look on space geometry of fine-tuned layers [0.0]
我々は、追加の文法モジュールで訓練されたBERTモデルの内部表現の変化を分析する。
単一の文法層を追加することで、モデルが新しい文法層と古い文法層をその内部で分離することを発見した。
論文 参考訳(メタデータ) (2025-01-09T18:50:47Z) - Scaling Laws for Linear Complexity Language Models [18.787664489713332]
線形複雑性言語モデルのスケーリング法則を提示し、その拡張性の基礎を確立する。
この研究は、既存の線形複雑性言語モデルが従来のトランスフォーマーベースモデルと同様のスケーリング能力を示すことを示した。
論文 参考訳(メタデータ) (2024-06-24T14:51:31Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - On the Origins of Linear Representations in Large Language Models [51.88404605700344]
我々は,次のトークン予測の概念力学を定式化するために,単純な潜在変数モデルを導入する。
実験により、潜在変数モデルと一致するデータから学習すると線形表現が現れることが示された。
また、LLaMA-2大言語モデルを用いて、理論のいくつかの予測を検証した。
論文 参考訳(メタデータ) (2024-03-06T17:17:36Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - Better Language Model with Hypernym Class Prediction [101.8517004687825]
クラスベース言語モデル (LM) は、コンテキストの疎結合に$n$-gramのLMで対処するために長年開発されてきた。
本研究では,このアプローチをニューラルLMの文脈で再考する。
論文 参考訳(メタデータ) (2022-03-21T01:16:44Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Multi-timescale Representation Learning in LSTM Language Models [69.98840820213937]
言語モデルは、非常に短いから非常に長いまでの時間スケールで単語間の統計的依存関係を捉えなければならない。
我々は、長期記憶言語モデルにおけるメモリゲーティング機構が、パワーローの減衰を捉えることができるかの理論を導出した。
実験の結果,自然言語で学習したLSTM言語モデルは,この理論分布を近似することがわかった。
論文 参考訳(メタデータ) (2020-09-27T02:13:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。