論文の概要: Transformer Block Coupling and its Correlation with Generalization in LLMs
- arxiv url: http://arxiv.org/abs/2407.07810v3
- Date: Sun, 22 Dec 2024 06:54:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:55:01.212271
- Title: Transformer Block Coupling and its Correlation with Generalization in LLMs
- Title(参考訳): LLMにおける変圧器ブロック結合と一般化との関係
- Authors: Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げている。
変換器ブロックを通過する個々のトークンの軌跡を辿り、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。
トークンと深さをまたいだ頂点特異ベクトルのカップリングを特徴とする,様々な LLM における $textbftransformer block coupling$ 現象を明らかにする。
- 参考スコア(独自算出の注目度): 3.007031501305338
- License:
- Abstract: Large Language Models (LLMs) have made significant strides in natural language processing, and a precise understanding of the internal mechanisms driving their success is essential. In this work, we trace the trajectories of individual tokens as they pass through transformer blocks, and linearize the system along these trajectories through their Jacobian matrices. By examining the relationships between these Jacobians, we uncover a $\textbf{transformer block coupling}$ phenomenon in a variety of LLMs, characterized by the coupling of their top singular vectors across tokens and depth. Our findings reveal that coupling $\textit{positively correlates}$ with model performance, and that this relationship is stronger than with other hyperparameters, namely parameter budget, model depth, and embedding dimension. We further investigate the emergence of these properties through training, noting the development of coupling, as well as an increase in linearity and layer-wise exponential growth in the token trajectories. These collective insights provide a novel perspective on the interactions between token embeddings, and prompt further approaches to study training and generalization in LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、その成功を導く内部メカニズムの正確な理解が不可欠である。
本研究では,各トークンが変圧器ブロックを通過するときに,個々のトークンの軌跡を辿り,ジャコビアン行列を通じてこれらの軌跡に沿って系を線形化する。
これらのヤコビアン間の関係を調べることで、トークンと深さをまたいだ最高特異ベクトルのカップリングを特徴とする、様々な LLM において $\textbf{transformer block coupling}$ 現象が発見された。
以上の結果から,$\textit{ positively correlates}$とモデル性能の関係が明らかとなり,パラメータ予算,モデル深さ,埋め込み次元など,他のハイパーパラメータよりも強いことが示唆された。
さらに,これらの特性の出現について,結合の発達,およびトークン軌道の線形性および層ワイド指数的成長の増大について考察する。
これらの集合的な洞察は、トークンの埋め込み間の相互作用に関する新しい視点を与え、LLMのトレーニングと一般化を研究するためのさらなるアプローチを促す。
関連論文リスト
- Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Graph-based Unsupervised Disentangled Representation Learning via Multimodal Large Language Models [42.17166746027585]
複素データ内の因子化属性とその相互関係を学習するための双方向重み付きグラフベースフレームワークを提案する。
具体的には、グラフの初期ノードとして要素を抽出する$beta$-VAEベースのモジュールを提案する。
これらの相補的加群を統合することで、我々は細粒度、実用性、教師なしの絡み合いをうまく達成できる。
論文 参考訳(メタデータ) (2024-07-26T15:32:21Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.68829963458408]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Extending Token Computation for LLM Reasoning [5.801044612920816]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な要素である。
LLMは、非効率な注意分布のため、複雑な推論タスクに苦しむことが多い。
本稿では,アテンション機構の最適化を利用して,計算トークンをChain-of-Thoughtプロセスで拡張する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-22T03:23:58Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Language Models as Hierarchy Encoders [22.03504018330068]
階層変換器エンコーダ(HiTs)として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
予め訓練したLM, 標準微調整されたLM, およびいくつかの双曲埋め込みベースラインに対するHiTsの評価を行った。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z) - Going Beyond Linear Mode Connectivity: The Layerwise Linear Feature
Connectivity [62.11981948274508]
LLFCの超越についての研究は,特徴学習の視点を取り入れることでLCCの理解を深める。
LLFCの総合的な実証的証拠として,2つの訓練ネットワークがLCCを満たす場合,ほぼすべての層でLLFCを満足することを示す。
論文 参考訳(メタデータ) (2023-07-17T07:16:28Z) - Multilinear Compressive Learning with Prior Knowledge [106.12874293597754]
マルチリニア圧縮学習(MCL)フレームワークは、マルチリニア圧縮センシングと機械学習をエンドツーエンドシステムに統合する。
MCLの背後にある主要なアイデアは、下流学習タスクの信号から重要な特徴を捉えることのできるテンソル部分空間の存在を仮定することである。
本稿では、上記の要件、すなわち、関心の信号が分離可能なテンソル部分空間をどうやって見つけるかという、2つの要件に対処する新しい解決策を提案する。
論文 参考訳(メタデータ) (2020-02-17T19:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。