論文の概要: Transformer Alignment in Large Language Models
- arxiv url: http://arxiv.org/abs/2407.07810v1
- Date: Wed, 10 Jul 2024 16:30:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-11 15:53:02.119471
- Title: Transformer Alignment in Large Language Models
- Title(参考訳): 大規模言語モデルにおけるトランスフォーマーアライメント
- Authors: Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan,
- Abstract要約: 我々は,大規模言語モデル (LLM) を,高次元の離散的,結合的,非線形,動的システムによる埋め込みの変換とみなす。
この観点は、変換器ブロックを通過する個々のトークンの軌跡の追跡を動機付け、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。
公開されている38個の LLM の解析において、残余ヤコビアンの上と右の特異ベクトルのアライメント、および線形性および層ワイド指数的成長の出現を明らかにする。
- 参考スコア(独自算出の注目度): 3.007031501305338
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have made significant strides in natural language processing, and a precise understanding of the internal mechanisms driving their success is essential. We regard LLMs as transforming embeddings via a discrete, coupled, nonlinear, dynamical system in high dimensions. This perspective motivates tracing the trajectories of individual tokens as they pass through transformer blocks, and linearizing the system along these trajectories through their Jacobian matrices. In our analysis of 38 openly available LLMs, we uncover the alignment of top left and right singular vectors of Residual Jacobians, as well as the emergence of linearity and layer-wise exponential growth. Notably, we discover that increased alignment $\textit{positively correlates}$ with model performance. Metrics evaluated post-training show significant improvement in comparison to measurements made with randomly initialized weights, highlighting the significant effects of training in transformers. These findings reveal a remarkable level of regularity that has previously been overlooked, reinforcing the dynamical interpretation and paving the way for deeper understanding and optimization of LLM architectures.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げており、その成功を導く内部メカニズムの正確な理解が不可欠である。
我々は,LSMを高次元の離散的,結合的,非線形,動的システムによる埋め込み変換とみなす。
この観点は、変換器ブロックを通過する個々のトークンの軌跡の追跡を動機付け、ジャコビアン行列を通してこれらの軌跡に沿って系を線形化する。
公開されている38個の LLM の解析において、残余ヤコビアンの上と右の特異ベクトルのアライメント、および線形性および層ワイド指数的成長の出現を明らかにする。
注目すべきは、アライメントの増大$\textit{ positively correlates}$とモデルのパフォーマンスが相関していることである。
トレーニング後の指標は,無作為初期化重みによる測定に比べて有意に改善し,変圧器のトレーニングが有意な影響を浮き彫りにした。
これらの知見は、これまで見過ごされてきた顕著な規則性のレベルを明らかにし、動的解釈を強化し、LLMアーキテクチャのより深い理解と最適化の道を開いた。
関連論文リスト
- Building on Efficient Foundations: Effectively Training LLMs with Structured Feedforward Layers [16.253898272659242]
大規模言語モデル(LLM)における最先端の結果は、しばしばスケールに依存し、計算コストがかかる。
このことが、これらのモデルのパラメータ数と計算コストを、性能に大きな影響を及ぼすことなく削減する研究の議題となった。
我々は,効率的な低ランク行列とブロック対角行列を組み合わせることで,FFNの線形層近似を3つの候補として検討する。
論文 参考訳(メタデータ) (2024-06-24T08:43:21Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Revisiting Zeroth-Order Optimization for Memory-Efficient LLM Fine-Tuning: A Benchmark [166.40879020706151]
本稿では、微調整時のメモリコスト低減のためのソリューションとして、BPフリーゼロオーダー最適化(ZO)への移行を提案する。
従来のZO-SGD法とは異なり、我々の研究はより広い範囲のZO最適化手法に探索を広げる。
本研究は,タスクアライメントの重要性,前方勾配法の役割,アルゴリズムの複雑さと微調整性能のバランスについて,これまで見過ごされてきた最適化原理を明らかにした。
論文 参考訳(メタデータ) (2024-02-18T14:08:48Z) - Language Models as Hierarchy Encoders [24.071698413762388]
階層変換器エンコーダ (HiTs) として再学習トランスフォーマーエンコーダを用いたLMを提案する。
本手法は, 埋込次元に適応する曲率を持つポアンカー球内に, 予め学習したLMの出力埋め込み空間を定めている。
我々は,Hitsを事前学習および微調整のLMに対して評価し,過渡的推論のシミュレーション,仮定の予測,階層間の知識の伝達に焦点をあてた。
論文 参考訳(メタデータ) (2024-01-21T02:29:12Z) - The Truth is in There: Improving Reasoning in Language Models with
Layer-Selective Rank Reduction [22.659005954676598]
重み行列の高次成分を選択的に除去することにより,大規模言語モデルの性能を大幅に向上させることができることを示す。
LAER(Layer-Selective Rank reduction)と呼ばれるこの単純な介入は、トレーニングが完了した後、モデル上で行うことができる。
言語モデルとデータセットにまたがって、この発見の汎用性を実証する広範な実験を示す。
論文 参考訳(メタデータ) (2023-12-21T03:51:08Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - CRaSh: Clustering, Removing, and Sharing Enhance Fine-tuning without
Full Large Language Model [22.870512676002463]
本稿では,集中型LCMと下流エミュレータ間でトランスフォーマブロックを転送する代表的手法であるOffsite-Tuning(OFT)に焦点を当てる。
これらの観測にインスパイアされたCRaShは、LCMから改善エミュレータを導出するトレーニングフリー戦略であるClustering、Removing、Sharingを含む。
以上の結果から,CRaShとOFTの有効性が明らかとなった。
論文 参考訳(メタデータ) (2023-10-24T03:08:58Z) - How Do Transformers Learn In-Context Beyond Simple Functions? A Case
Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。
合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。
理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文 参考訳(メタデータ) (2023-10-16T17:40:49Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。