論文の概要: Diversity of Transformer Layers: One Aspect of Parameter Scaling Laws
- arxiv url: http://arxiv.org/abs/2505.24009v2
- Date: Fri, 06 Jun 2025 19:28:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.164607
- Title: Diversity of Transformer Layers: One Aspect of Parameter Scaling Laws
- Title(参考訳): 変圧器層の多様性:パラメータスケーリング則の一考察
- Authors: Hidetaka Kamigaito, Ying Zhang, Jingun Kwon, Katsuhiko Hayashi, Manabu Okumura, Taro Watanabe,
- Abstract要約: トランスフォーマーは、幅広いタスクにわたって優れたパフォーマンスを提供します。
タスク解決性能はパラメータサイズの増加によって向上する。
本研究では,トランスフォーマーのパラメータサイズを決定するレイヤとそのサイズに着目した。
- 参考スコア(独自算出の注目度): 42.926341529639274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers deliver outstanding performance across a wide range of tasks and are now a dominant backbone architecture for large language models (LLMs). Their task-solving performance is improved by increasing parameter size, as shown in the recent studies on parameter scaling laws. Although recent mechanistic-interpretability studies have deepened our understanding of the internal behavior of Transformers by analyzing their residual stream, the relationship between these internal mechanisms and the parameter scaling laws remains unclear. To bridge this gap, we focus on layers and their size, which mainly decide the parameter size of Transformers. For this purpose, we first theoretically investigate the layers within the residual stream through a bias-diversity decomposition. The decomposition separates (i) bias, the error of each layer's output from the ground truth, and (ii) diversity, which indicates how much the outputs of each layer differ from each other. Analyzing Transformers under this theory reveals that performance improves when individual layers make predictions close to the correct answer and remain mutually diverse. We show that diversity becomes especially critical when individual layers' outputs are far from the ground truth. Finally, we introduce an information-theoretic diversity and show our main findings that adding layers enhances performance only when those layers behave differently, i.e., are diverse. We also reveal the performance gains from increasing the number of layers exhibit submodularity: marginal improvements diminish as additional layers increase, mirroring the logarithmic convergence predicted by the parameter scaling laws. Experiments on multiple semantic-understanding tasks with various LLMs empirically confirm the theoretical properties derived in this study.
- Abstract(参考訳): トランスフォーマーは幅広いタスクにわたって優れたパフォーマンスを提供しており、現在では大規模言語モデル(LLM)のバックボーンアーキテクチャとして支配的な存在である。
パラメータスケーリング法則に関する最近の研究で示されているように、パラメータサイズの増加によりタスク解決性能が向上する。
近年の機械論的・解釈可能性研究は, 変圧器の内部挙動を解析することによって理解を深めているが, これらの内部機構とパラメータスケーリング法則との関係はいまだ不明である。
このギャップを埋めるために、主にトランスフォーマーのパラメータサイズを決定するレイヤとそのサイズに注目します。
この目的のために、まず、偏微分分解により残留流中の層を理論的に検討する。
分解は分離する
一 バイアス、各層の真理からの出力の誤差、及び
(ii)各層の出力がどの程度異なるかを示す多様性。
この理論の下でトランスフォーマーを解析すると、個々の層が正しい解に近づき、相互に多様であり続けると、性能が向上することがわかる。
個々のレイヤのアウトプットが根本から遠く離れている場合、多様性は特に重要になる。
最後に、情報理論の多様性を導入し、レイヤーを追加することで、層が異なる振る舞いをする場合、すなわち多様な振る舞いをする場合にのみ、パフォーマンスが向上する、という主な知見を示します。
パラメータスケーリング法則によって予測される対数収束を反映して、余分な改善が増加するにつれて減少する。
種々のLLMを用いた複数の意味理解タスクの実験は,本研究で得られた理論的特性を実証的に確認する。
関連論文リスト
- Does Representation Matter? Exploring Intermediate Layers in Large Language Models [22.704926222438456]
大規模言語モデル(LLM)における中間表現の品質について検討する。
中間層は、最終層よりも下流のタスクに対してより情報的な表現をもたらすことがよくあります。
本研究は,LLMの内部力学とアーキテクチャ最適化とトレーニングのためのガイド戦略を照らしたものである。
論文 参考訳(メタデータ) (2024-12-12T18:48:51Z) - What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
トランスフォーマーと他のアーキテクチャを区別する点について、基本的な理解を提供する。
この結果から,トランスフォーマーにおける様々なアーキテクチャと最適化の選択は,その非線形な依存関係に遡ることができることが示唆された。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。
この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文 参考訳(メタデータ) (2024-09-28T13:24:11Z) - Residual Stream Analysis with Multi-Layer SAEs [21.142967037533175]
各トランス層からの残ストリーム活性化ベクトルをトレーニングした単一SAEであるMLSAE(Multi-layer SAE)を導入する。
個々のラテントが与えられたトークンやプロンプトの単一層でアクティブになることが多いが、個々のラテントがアクティブである層は異なるトークンやプロンプトで異なる場合がある。
この結果は,トランスを流れるとき,表現がどのように変化するかを理解するための新しいアプローチを示す。
論文 参考訳(メタデータ) (2024-09-06T11:01:55Z) - How Transformers Utilize Multi-Head Attention in In-Context Learning? A Case Study on Sparse Linear Regression [19.64743851296488]
本研究では、疎線形回帰問題を考察し、訓練されたマルチヘッドトランスがコンテキスト内学習を行う方法を検討する。
マルチヘッドの利用は層間における異なるパターンを示すことが実験的に明らかになった。
このような前処理列最適化アルゴリズムは、直交勾配勾配とリッジ回帰アルゴリズムを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-08-08T15:33:02Z) - Entropy Guided Extrapolative Decoding to Improve Factuality in Large Language Models [55.45444773200529]
大きな言語モデル(LLM)は印象的な自然言語能力を示すが、幻覚に苦しむ。
最近の研究は推論時の事実性を改善するための復号化技術に焦点を当てている。
論文 参考訳(メタデータ) (2024-04-14T19:45:35Z) - On the Long Range Abilities of Transformers [69.3021852589771]
トランスアーキテクチャの変更を最小限に抑えることで,Long Range Arenaベンチマークの性能を大幅に向上させることができることを示す。
長距離タスクの2つの鍵となる原理(すなわち、滑らか性に対する帰納的バイアス)と局所性(すなわち、局所性)である。
以下に示すように、これらのアイデアを注意機構に組み込むことで、追加の計算量や追加のトレーニング可能なパラメータなしで結果を改善することができる。
論文 参考訳(メタデータ) (2023-11-28T09:21:48Z) - Revisiting Over-smoothing in BERT from the Perspective of Graph [111.24636158179908]
近年,トランスフォーマーモデルにおける過度に平滑化現象が視覚と言語の両方で観測されている。
層正規化はトランスフォーマーモデルにおける過度に平滑な問題において重要な役割を果たす。
異なる層からの表現を適応的に組み合わせ、出力をより多様にする階層的融合戦略を考察する。
論文 参考訳(メタデータ) (2022-02-17T12:20:52Z) - Deriving Differential Target Propagation from Iterating Approximate
Inverses [91.3755431537592]
本稿では,各層が学習した逆数に依存するターゲット伝搬の特定の形態が,ガウス-ニュートン勾配に基づく近似最適化に対応する更新規則を導出することを示す。
そこで我々は,各層における局所的自動エンコーダに基づく反復計算について検討し,より正確な目標伝搬のインバージョンを実現する。
論文 参考訳(メタデータ) (2020-07-29T22:34:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。