論文の概要: Emergent effects of scaling on the functional hierarchies within large language models
- arxiv url: http://arxiv.org/abs/2501.07359v1
- Date: Mon, 13 Jan 2025 14:27:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:28:57.284226
- Title: Emergent effects of scaling on the functional hierarchies within large language models
- Title(参考訳): 大規模言語モデルにおける関数的階層に対するスケーリングの創発的効果
- Authors: Paul C. Bogdan,
- Abstract要約: 小型モデルによる解析(Llama-3.2-3b; 28層)
アイテムレベルのセマンティクスは、最も早く強く表される(層2-7)、次に2-item関係(層8-12)、続いて4-item類似(層10-15)
深いレイヤは、意味のある抽象化なしで、コンテキストウィンドウの初期部分から情報を圧縮する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Large language model (LLM) architectures are often described as functionally hierarchical: Early layers process syntax, middle layers begin to parse semantics, and late layers integrate information. The present work revisits these ideas. This research submits simple texts to an LLM (e.g., "A church and organ") and extracts the resulting activations. Then, for each layer, support vector machines and ridge regressions are fit to predict a text's label and thus examine whether a given layer encodes some information. Analyses using a small model (Llama-3.2-3b; 28 layers) partly bolster the common hierarchical perspective: Item-level semantics are most strongly represented early (layers 2-7), then two-item relations (layers 8-12), and then four-item analogies (layers 10-15). Afterward, the representation of items and simple relations gradually decreases in deeper layers that focus on more global information. However, several findings run counter to a steady hierarchy view: First, although deep layers can represent document-wide abstractions, deep layers also compress information from early portions of the context window without meaningful abstraction. Second, when examining a larger model (Llama-3.3-70b-Instruct), stark fluctuations in abstraction level appear: As depth increases, two-item relations and four-item analogies initially increase in their representation, then markedly decrease, and afterward increase again momentarily. This peculiar pattern consistently emerges across several experiments. Third, another emergent effect of scaling is coordination between the attention mechanisms of adjacent layers. Across multiple experiments using the larger model, adjacent layers fluctuate between what information they each specialize in representing. In sum, an abstraction hierarchy often manifests across layers, but large models also deviate from this structure in curious ways.
- Abstract(参考訳): 大きな言語モデル(LLM)アーキテクチャは、しばしば機能的に階層的であると説明される: 初期層は、プロセスの構文、中間層は、意味論を解析し始め、後期層は、情報を統合します。
本研究はこれらの考え方を再考する。
本研究は, LLM (eg , "A church and organ") に簡単なテキストを提出し,その結果の活性化を抽出する。
そして、各層に対して、サポートベクターマシンとリッジレグレッションは、テキストのラベルを予測し、与えられた層が何らかの情報をエンコードするかどうかを調べるのに適している。
小さなモデル (Llama-3.2-3b; 28 層) を用いた分析は、共通の階層的視点を部分的に強化する: アイテムレベルの意味論は、最も強く表される(レイヤ2-7)。
その後、アイテムの表現と単純な関係は、よりグローバルな情報に焦点を当てたより深い層で徐々に減少していく。
まず、深いレイヤはドキュメント全体の抽象化を表現することができるが、深いレイヤは意味のある抽象化なしでコンテキストウィンドウの初期部分から情報を圧縮する。
第2に、より大きなモデル(Llama-3.3-70b-Instruct)を調べると、抽象化レベルのスターク変動が現れる。
この特異なパターンは、いくつかの実験で一貫して現れる。
第三に、スケーリングの別の創発的な効果は、隣り合う層の注意機構の調整である。
より大きなモデルを用いた複数の実験において、隣り合うレイヤは、それぞれが表現する情報の間に変動する。
要約すると、抽象階層は層にまたがって現れることが多いが、大きなモデルも好奇心をそそる方法でこの構造から逸脱する。
関連論文リスト
- Learning Visual Hierarchies with Hyperbolic Embeddings [28.35250955426006]
本稿では,ハイパーボリック空間におけるユーザ定義のマルチレベル視覚階層を,明示的な階層ラベルを必要とせずに符号化できる学習パラダイムを提案する。
階層的検索タスクの大幅な改善を示し、視覚的階層を捉える上でのモデルの有効性を示す。
論文 参考訳(メタデータ) (2024-11-26T14:58:06Z) - Looking into Black Box Code Language Models [2.5324062203985935]
私たちは、最先端の2つのコードLM、Codegen-MonoとPloycoderを使用し、Java、Go、Pythonの3つの広く使われているプログラミング言語を使用します。
CodeLMの性能を損なうことなく、フィードフォワード層内で興味ある概念を編集できることを示す。
論文 参考訳(メタデータ) (2024-07-05T21:13:41Z) - Talking Heads: Understanding Inter-layer Communication in Transformer Language Models [32.2976613483151]
2つのLMで用いられるメカニズムを分析し、1つのタスクでコンテキスト内のアイテムを選択的に抑制する。
モデルが残ストリームの低ランクな部分空間に書き込まれて,後続のレイヤで読み出される特徴を表現することが分かりました。
論文 参考訳(メタデータ) (2024-06-13T18:12:01Z) - How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model [4.215221129670858]
生成的階層的データモデルに空間性を導入することで、スムーズな変換の離散バージョンである空間変換に対する非感受性を得ることを示す。
SRHMを学習するCNNのサンプルの複雑さが、タスクのスパーシリティと階層構造の両方に依存するかを定量化する。
論文 参考訳(メタデータ) (2024-04-16T17:01:27Z) - Exploring Concept Depth: How Large Language Models Acquire Knowledge at Different Layers? [57.04803703952721]
大規模言語モデル(LLM)は、幅広いタスクで顕著なパフォーマンスを示している。
しかし、これらのモデルが様々な複雑さのタスクを符号化するメカニズムは、いまだに理解されていない。
我々は、より複雑な概念が一般的により深い層で取得されることを示すために、概念深さの概念を紹介します。
論文 参考訳(メタデータ) (2024-04-10T14:56:40Z) - Fantastic Semantics and Where to Find Them: Investigating Which Layers of Generative LLMs Reflect Lexical Semantics [50.982315553104975]
本稿では,Llama2という人気言語モデルに対する語彙意味論のボトムアップ進化について検討する。
実験の結果,下位層の表現は語彙的意味論を符号化しているが,上位層はより弱い意味帰納的帰納的帰納的帰納的帰納的帰納的帰納的帰属的帰属的帰属的帰属的存在であることがわかった。
これは、高層層がより良い語彙意味論を得るマスク言語モデリングのような差別的な目的を持つモデルとは対照的である。
論文 参考訳(メタデータ) (2024-03-03T13:14:47Z) - Implant Global and Local Hierarchy Information to Sequence based Code
Representation Models [25.776540440893257]
完全な階層構造がコードシーケンスのトークンに与える影響を分析し、階層埋め込みと呼ばれるコードトークンの特性として、この影響を抽象化する。
ソースコードの完全な階層化をトランスフォーマーモデルに組み込むための,単純かつ効果的なシーケンスモデルである階層変換器(HiT)を提案する。
論文 参考訳(メタデータ) (2023-03-14T12:01:39Z) - TopicNet: Semantic Graph-Guided Topic Discovery [51.71374479354178]
既存の階層的なトピックモデルでは、教師なしの方法でテキストコーパスから意味論的意味のあるトピックを抽出することができる。
TopicNetを階層的なトピックモデルとして導入し、学習に影響を与えるための帰納的バイアスとして、事前構造知識を注入する。
論文 参考訳(メタデータ) (2021-10-27T09:07:14Z) - Exploring the Hierarchy in Relation Labels for Scene Graph Generation [75.88758055269948]
提案手法は,Recall@50において,複数の最先端ベースラインを大きなマージン(最大33%の相対利得)で改善することができる。
実験により,提案手法により,最先端のベースラインを大きなマージンで改善できることが示された。
論文 参考訳(メタデータ) (2020-09-12T17:36:53Z) - Fine-grained Video-Text Retrieval with Hierarchical Graph Reasoning [72.52804406378023]
ビデオとテキスト間のクロスモーダル検索は、Web上のビデオの急速な出現により、注目を集めている。
微細なビデオテキスト検索を改善するために,ビデオテキストマッチングをグローバル-ローカルレベルに分解する階層グラフ推論モデルを提案する。
論文 参考訳(メタデータ) (2020-03-01T03:44:19Z) - Cross-layer Feature Pyramid Network for Salient Object Detection [102.20031050972429]
本稿では,有能な物体検出における進行的融合を改善するために,新しいクロス層特徴ピラミッドネットワークを提案する。
レイヤごとの分散機能は、他のすべてのレイヤからセマンティクスと健全な詳細の両方を同時に所有し、重要な情報の損失を減らします。
論文 参考訳(メタデータ) (2020-02-25T14:06:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。