論文の概要: A Reproduction Study: The Kernel PCA Interpretation of Self-Attention Fails Under Scrutiny
- arxiv url: http://arxiv.org/abs/2505.07908v1
- Date: Mon, 12 May 2025 12:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.277463
- Title: A Reproduction Study: The Kernel PCA Interpretation of Self-Attention Fails Under Scrutiny
- Title(参考訳): 生殖調査 : 精査下の自己注意障害のカーネルPCA解釈
- Authors: Karahan Sarıtaş, Çağatay Yıldız,
- Abstract要約: 我々は自己注意がカーネル主成分分析(KPCA)を実装していると主張する。
学習した自己注意値ベクトルとKPCAの視点での提案との間には3つの重要な矛盾点がある。
10以上の変圧器アーキテクチャにおいて,KPCAによる自己注意の解釈には実証的支援が欠如している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this reproduction study, we revisit recent claims that self-attention implements kernel principal component analysis (KPCA) (Teo et al., 2024), positing that (i) value vectors $V$ capture the eigenvectors of the Gram matrix of the keys, and (ii) that self-attention projects queries onto the principal component axes of the key matrix $K$ in a feature space. Our analysis reveals three critical inconsistencies: (1) No alignment exists between learned self-attention value vectors and what is proposed in the KPCA perspective, with average similarity metrics (optimal cosine similarity $\leq 0.32$, linear CKA (Centered Kernel Alignment) $\leq 0.11$, kernel CKA $\leq 0.32$) indicating negligible correspondence; (2) Reported decreases in reconstruction loss $J_\text{proj}$, arguably justifying the claim that the self-attention minimizes the projection error of KPCA, are misinterpreted, as the quantities involved differ by orders of magnitude ($\sim\!10^3$); (3) Gram matrix eigenvalue statistics, introduced to justify that $V$ captures the eigenvector of the gram matrix, are irreproducible without undocumented implementation-specific adjustments. Across 10 transformer architectures, we conclude that the KPCA interpretation of self-attention lacks empirical support.
- Abstract(参考訳): 本稿では, 自己注意がカーネル主成分分析(KPCA, Teo et al , 2024)を実装しているという最近の主張を再考する。
(i)値ベクトル$V$はキーのグラム行列の固有ベクトルをキャプチャし、
(II) 自己アテンション計画がキー行列の主成分軸に対して、特徴空間において$K$ を問うこと。
1 学習した自己注意値ベクトルと KPCA の観点では一致しない 平均的類似度(最適コサイン類似度 $\leq 0.32$, 線形CKA (Centered Kernel Alignment) $\leq 0.11$, kernel CKA $\leq 0.32$) 無視可能な対応を示す (2) 再構成損失 $J_\text{proj}$, 自己注意が KPCA の予測誤差を最小化するという主張を正当に正当化する が、KPCA の予測誤差を最小化するという主張を誤解釈する。
10^3$); (3) グラム行列固有値統計は、$V$がグラム行列の固有ベクトルを捉えることを正当化するために導入され、文書化されていない実装固有の調整なしでは再現できない。
10以上の変圧器アーキテクチャにおいて,KPCAによる自己注意の解釈には実証的支援が欠如している。
関連論文リスト
- Complexity of Vector-valued Prediction: From Linear Models to Stochastic Convex Optimization [27.33243506775655]
凸とリプシッツ損失関数の基本的な場合に焦点を当てる。
本稿では,この問題の複雑さと関連する学習モデルとの関連性に光を当てた,いくつかの新たな理論的結果を示す。
結果は,ベクトル値線形予測の設定を,広範に研究されている2つの異なる学習モデル間のブリッジングとして表現した。
論文 参考訳(メタデータ) (2024-12-05T15:56:54Z) - A Generalized Mean Approach for Distributed-PCA [0.0]
本稿では,行列$beta$-meanを用いて固有値情報を用いて局所的な結果を集約するDPCA手法を提案する。
$beta$-DPCAは、$beta$値の調整可能な選択を通じて、柔軟で堅牢なアグリゲーションを提供する。
論文 参考訳(メタデータ) (2024-10-01T04:39:40Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Sparse PCA with Oracle Property [115.72363972222622]
新規な正規化を伴うスパースPCAの半定緩和に基づく推定器群を提案する。
我々は、家族内の別の推定器が、スパースPCAの標準半定緩和よりも、より急激な収束率を達成することを証明した。
論文 参考訳(メタデータ) (2023-12-28T02:52:54Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Learning Low-Rank Representations for Model Compression [6.721845345130468]
本稿では,従来のVQアルゴリズムを様々なタスクやアーキテクチャで上回る低ランク表現ベクトル量子化(textLR2textVQ$)手法を提案する。
本手法では,圧縮率を直接$m$で制御することができ,最終的な精度は$tilded$で決定される。
適切な$tilded$で、ImageNet分類データセット上でResNet-18/ResNet-50で$textLR2textVQ$を評価します。
論文 参考訳(メタデータ) (2022-11-21T12:15:28Z) - Optimal policy evaluation using kernel-based temporal difference methods [78.83926562536791]
カーネルヒルベルト空間を用いて、無限水平割引マルコフ報酬過程の値関数を推定する。
我々は、関連するカーネル演算子の固有値に明示的に依存した誤差の非漸近上界を導出する。
MRP のサブクラスに対する minimax の下位境界を証明する。
論文 参考訳(メタデータ) (2021-09-24T14:48:20Z) - An $\ell_p$ theory of PCA and spectral clustering [23.90245234027558]
主成分分析は統計と機械学習において強力なツールである。
本稿では、ヒルベルト空間におけるPCAの中空バージョンに対する$ell_p$理論を開発する。
文脈的コミュニティ検出のために、$ell_p$理論は、正確な回復のための情報しきい値を達成する単純なスペクトルアルゴリズムに導かれる。
論文 参考訳(メタデータ) (2020-06-24T21:30:28Z) - Estimating Principal Components under Adversarial Perturbations [25.778123431786653]
本研究では,高次元統計的推定問題に対するロバストネスの自然なモデルについて検討する。
我々のモデルは、低精度機械学習や対人訓練といった新しいパラダイムによって動機付けられている。
論文 参考訳(メタデータ) (2020-05-31T20:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。