論文の概要: Small Singular Values Matter: A Random Matrix Analysis of Transformer Models
- arxiv url: http://arxiv.org/abs/2410.17770v3
- Date: Thu, 06 Nov 2025 13:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.075511
- Title: Small Singular Values Matter: A Random Matrix Analysis of Transformer Models
- Title(参考訳): 小さな特異値が重要:変圧器モデルのランダム行列解析
- Authors: Max Staats, Matthias Thamm, Bernd Rosenow,
- Abstract要約: この研究は、事前訓練された変圧器モデルにおける重み行列の特異値スペクトルを分析する。
ランダム行列論(RMT)からの逸脱をランダム性と偏差の証拠として,学習の証拠として観察する。
本研究は,SVDを用いた大規模言語モデルのプルーニングと圧縮のための理論的,実践的なガイダンスを提供する。
- 参考スコア(独自算出の注目度): 5.352699766206808
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work analyzes singular-value spectra of weight matrices in pretrained transformer models to understand how information is stored at both ends of the spectrum. Using Random Matrix Theory (RMT) as a zero information hypothesis, we associate agreement with RMT as evidence of randomness and deviations as evidence for learning. Surprisingly, we observe pronounced departures from RMT not only among the largest singular values -- the usual outliers -- but also among the smallest ones. A comparison of the associated singular vectors with the eigenvectors of the activation covariance matrices shows that there is considerable overlap wherever RMT is violated. Thus, significant directions in the data are captured by small singular values and their vectors as well as by the large ones. We confirm this empirically: zeroing out the singular values that deviate from RMT raises language-model perplexity far more than removing values from the bulk, and after fine-tuning the smallest decile can be the third most influential part of the spectrum. To explain how vectors linked to small singular values can carry more information than those linked to larger values, we propose a linear random-matrix model. Our findings highlight the overlooked importance of the low end of the spectrum and provide theoretical and practical guidance for SVD-based pruning and compression of large language models.
- Abstract(参考訳): この研究は、事前訓練されたトランスフォーマーモデルにおける重み行列の特異値スペクトルを分析し、情報のスペクトルの両端にどのように格納されているかを理解する。
ランダム行列理論(RMT)をゼロ情報仮説として、ランダム性と偏差の証拠として、RMTとの合意を学習の証拠として関連付ける。
意外なことに、RTTからの顕著な離脱は、最大の特異値(通常の外れ値)だけでなく、最も小さな値も観察します。
アクティベーション共分散行列の固有ベクトルと関連する特異ベクトルの比較は、RTTが違反する場合にはかなりの重複が存在することを示している。
このように、データの重要な方向は、小さな特異値とそのベクトルと大きな値によってキャプチャされる。
RMTから逸脱する特異値のゼロ化は、バルクから値を取り除くことよりも言語モデルパープレキシティを高める。
小さい特異値にリンクされたベクトルが、より大きな値にリンクされたベクトルよりも多くの情報を運ぶことができるかを説明するために、線形ランダム行列モデルを提案する。
本研究は,SVDを用いた大規模言語モデルのプルーニングと圧縮のための理論的,実践的なガイダンスを提供する。
関連論文リスト
- Efficient Adaptation of Pre-trained Vision Transformer underpinned by Approximately Orthogonal Fine-Tuning Strategy [57.54306942529943]
約直交微調整(AOFT)による低ランク重量行列の表現法を提案する。
本手法は,下流画像分類タスクにおける競合性能を実現する。
論文 参考訳(メタデータ) (2025-07-17T16:09:05Z) - Eigenspectrum Analysis of Neural Networks without Aspect Ratio Bias [4.503999875371634]
近年、重量行列の固有スペクトルによるディープニューラルネットワーク(DNN)の診断が活発な研究領域となっている。
重量行列のアスペクト比が重み度推定値に与える影響を考察する。
固定アスペクト比のサブサンプリングによる重み行列の正規化手法であるFARMSを提案する。
論文 参考訳(メタデータ) (2025-06-06T17:59:28Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Low-Rank Matrix Factorizations with Volume-based Constraints and Regularizations [2.6687460222685226]
この論文は、解釈可能性と特異性を高めるために設計されたボリュームベースの制約と正規化に焦点を当てている。
ブラインドソース分離やデータ計算の欠如といったアプリケーションによって動機付けられたこの論文は、効率的なアルゴリズムも提案している。
論文 参考訳(メタデータ) (2024-12-09T10:58:23Z) - Reducing the Transformer Architecture to a Minimum [5.352839075466439]
トランスフォーマーは、特に自然言語処理(NLP)とコンピュータビジョン(CV)において、広く成功しているモデルアーキテクチャである。
注意機構自体は、その内部的な類似度測定によって非線形である。
MNISTとCIFAR-10という,広範なCVベンチマークを試験して,その基盤を築き上げた。
論文 参考訳(メタデータ) (2024-10-17T16:36:14Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Transformers are Minimax Optimal Nonparametric In-Context Learners [36.291980654891496]
大規模言語モデルのコンテキスト内学習は、いくつかの実証的な例から新しいタスクを学ぶのに驚くほど効果的な方法であることが証明されている。
我々は,ディープニューラルネットワークと1つの線形アテンション層からなる変圧器の近似および一般化誤差境界を開発する。
十分に訓練されたトランスフォーマーは、文脈における最小推定リスクを達成し、改善できることを示す。
論文 参考訳(メタデータ) (2024-08-22T08:02:10Z) - Entrywise error bounds for low-rank approximations of kernel matrices [55.524284152242096]
切り抜き固有分解を用いて得られたカーネル行列の低ランク近似に対するエントリーワイド誤差境界を導出する。
重要な技術的革新は、小さな固有値に対応するカーネル行列の固有ベクトルの非局在化結果である。
我々は、合成および実世界のデータセットの集合に関する実証的研究により、我々の理論を検証した。
論文 参考訳(メタデータ) (2024-05-23T12:26:25Z) - Implicit Regularization of Gradient Flow on One-Layer Softmax Attention [10.060496091806694]
一層ソフトマックスアテンションモデルを用いた分類問題に対する指数損失の勾配流について検討した。
データ上の分離性仮定では、勾配流が最小損失値を達成すると、鍵とクエリの重み行列の積の核ノルムを暗黙的に最小化する。
論文 参考訳(メタデータ) (2024-03-13T17:02:27Z) - Weakly supervised covariance matrices alignment through Stiefel matrices
estimation for MEG applications [64.20396555814513]
本稿では,Mixing Model Stiefel Adaptation (MSA)と呼ばれる時系列データに対する新しいドメイン適応手法を提案する。
我々は、ドメイン間の等価な信号分散とペアの対応を確立することにより、ターゲット領域における豊富なラベルのないデータを利用して効果的な予測を行う。
MSAは、Cam-CANデータセットのMEG信号を用いて、タスクの変動を伴う脳年齢回帰の最近の手法より優れている。
論文 参考訳(メタデータ) (2024-01-24T19:04:49Z) - Unleashing the Power of Pre-trained Language Models for Offline
Reinforcement Learning [54.682106515794864]
オフライン強化学習(RL)は、事前コンパイルされたデータセットを使用して、ほぼ最適ポリシーを見つけることを目的としている。
本稿では、オフラインRLに事前学習言語モデル(LM)を使用するための決定変換器に基づく一般的なフレームワークである、$textbfMo$tion Control用の$textbfLanguage Models(textbfLaMo$)を紹介する。
経験的な結果から、$textbfLaMo$はスパース・リワードタスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-10-31T16:24:17Z) - Large-scale gradient-based training of Mixtures of Factor Analyzers [67.21722742907981]
本稿では,勾配降下による高次元学習を効果的に行うための理論解析と新しい手法の両立に寄与する。
MFAトレーニングと推論/サンプリングは,学習終了後の行列逆変換を必要としない精度行列に基づいて行うことができることを示す。
理論解析と行列の他に,SVHNやMNISTなどの画像データセットにMFAを適用し,サンプル生成と外乱検出を行う能力を示す。
論文 参考訳(メタデータ) (2023-08-26T06:12:33Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z) - Fitting a Directional Microstructure Model to Diffusion-Relaxation MRI
Data with Self-Supervised Machine Learning [2.8167227950959206]
教師付き学習の魅力的な代替手段として、自己教師型機械学習が登場している。
本稿では,指向性マイクロ構造モデルに適用可能な自己教師型機械学習モデルを実証する。
提案手法は, パラメータ推定と計算時間において, 通常の非線形最小二乗整合と比較して明らかに改善されている。
論文 参考訳(メタデータ) (2022-10-05T15:51:39Z) - Random matrix analysis of deep neural network weight matrices [0.0]
ランダム行列理論(RMT)を用いた訓練深層ニューラルネットワークの重み行列について検討する。
特異値の大半の統計は普遍的なRTT予測に従うことを示す。
これは、それらはランダムであり、システム固有の情報を含んでいないことを示唆している。
論文 参考訳(メタデータ) (2022-03-28T11:22:12Z) - CNN-based Realized Covariance Matrix Forecasting [0.0]
本稿では,CNN と Conal LSTM (ConvLSTM) を用いたエンドツーエンドトレーニングモデルを提案する。
局所構造と相関に焦点をあて、歴史的に実現された共分散行列と将来の行列を結びつける非線形写像を学ぶ。
人工的および実世界のデータセットに関する実証研究は、いくつかの高度なボラティリティモデルと比較して優れた予測能力を示している。
論文 参考訳(メタデータ) (2021-07-22T12:02:24Z) - SparseBERT: Rethinking the Importance Analysis in Self-attention [107.68072039537311]
トランスフォーマーベースのモデルは、その強力な能力のために自然言語処理(NLP)タスクに人気がある。
事前学習モデルの注意マップの可視化は,自己着脱機構を理解するための直接的な方法の一つである。
本研究では,sparsebert設計の指導にも適用可能な微分可能アテンションマスク(dam)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-25T14:13:44Z) - Sparse Quantized Spectral Clustering [85.77233010209368]
このような非線形変換の下で行列の固有スペクトルがどのように変化するのかを、ランダム行列理論のツールを用いて正確に述べる。
急激なスペーシング/量子化の下でも,情報的固有構造にはほとんど変化は見られなかった。
論文 参考訳(メタデータ) (2020-10-03T15:58:07Z) - FLAMBE: Structural Complexity and Representation Learning of Low Rank
MDPs [53.710405006523274]
この研究は、表現学習の問題に焦点を当てている。
基礎となる(未知の)力学が低階遷移行列に対応するという仮定の下で、表現学習問題と特定の非線形行列分解問題との関連性を示す。
低階遷移モデルにおけるRLの探索と表現学習を行うFLAMBEを開発した。
論文 参考訳(メタデータ) (2020-06-18T19:11:18Z) - Efficient MCMC Sampling for Bayesian Matrix Factorization by Breaking
Posterior Symmetries [1.3858051019755282]
本稿では、これらの対称性を確実に破り、精度を維持/改善する事前選択に対する簡単な修正を提案する。
非ゼロ線形独立先行手段を用いることで,MCMC試料の自己相関が著しく低下し,再建誤差の低減につながる可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-08T00:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。