論文の概要: Attention-based PCA
- arxiv url: http://arxiv.org/abs/2605.18315v1
- Date: Mon, 18 May 2026 12:34:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.605786
- Title: Attention-based PCA
- Title(参考訳): 注意に基づくPCA
- Authors: Rodrigo Maulen-Soto, Claire Boyer,
- Abstract要約: 正準非教師付き問題のレンズによる注意機構の研究:主成分分析(PCA)
有限プロンプト法では、有限プロンプト法では、サンプリング効果によって同じ挙動が生じることを示す一方、無限プロンプト法では、主スペクトル方向に沿った大域最適解に収束することが証明される。
これらの結果から、注意は本来、教師なしの目的の下でPCAライクな計算を行い、その表現学習能力の理論的基盤を提供することが示された。
- 参考スコア(独自算出の注目度): 6.467090475885798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study attention mechanisms through the lens of a canonical unsupervised problem: principal component analysis (PCA). We show that, when trained on Gaussian data, both softmax and linear attention layers learn parameters that align with the principal eigenvectors of the covariance matrix, thereby establishing a direct and explicit connection with PCA. Our analysis covers both finite and infinite prompt regimes. In the infinite-prompt limit, we prove convergence to globally optimal solutions aligned with the leading spectral direction, while in the finiteprompt setting we show that the same behavior emerges up to sampling effects. We further extend the analysis to an in-context setting with spiked Wishart covariances, where attention successfully recovers the underlying signal direction. These results demonstrate that attention inherently performs PCA-like computations under unsupervised objectives, providing a theoretical foundation for its representation-learning capabilities.
- Abstract(参考訳): 主成分分析 (PCA) と呼ばれる正準非教師付き問題のレンズによる注意機構について検討した。
ガウスデータを用いて学習すると、ソフトマックス層と線形アテンション層は共分散行列の主固有ベクトルと整合するパラメータを学習し、PCAと直接的かつ明示的な接続を確立する。
我々の分析は、有限かつ無限のプロンプトレギュレーションの両方をカバーしている。
無限プロンプト極限では、先導スペクトル方向に沿った大域最適解への収束を証明し、有限プロンプト設定では、同じ挙動がサンプリング効果に現れることを示す。
我々はさらに解析をスパイクされたウィッシュアート共分散を伴うコンテキスト内設定に拡張し、そこで注意が基礎となる信号方向を回復する。
これらの結果から、注意は本来、教師なしの目的の下でPCAライクな計算を行い、その表現学習能力の理論的基盤を提供することが示された。
関連論文リスト
- Curvature-Aware PCA with Geodesic Tangent Space Aggregation for Semi-Supervised Learning [52.452902154360565]
GTSA-PCAは主成分分析の幾何学的拡張である。
曲率認識と測地的整合性を統合されたスペクトルフレームワークに統合する。
以上の結果から,GTSA-PCAは次元減少に対する統計的および幾何学的アプローチの原則的ブリッジとして位置づけられた。
論文 参考訳(メタデータ) (2026-04-20T20:36:36Z) - On Multi-Step Theorem Prediction via Non-Parametric Structural Priors [50.16583672681106]
本研究では,インコンテキスト学習(ICL)のレンズによる学習自由な定理予測について検討する。
本稿では,過去の解の時間的依存関係を有向グラフとしてエンコードし,推論中に探索空間を効果的に引き起こす明示的なトポロジ的制約を課すTheorem Precedence Graphsを提案する。
FormalGeo7kベンチマークの実験から,本手法は89.29%の精度を実現し,ICLベースラインを著しく上回り,最先端の教師付きモデルに適合することがわかった。
論文 参考訳(メタデータ) (2026-03-05T06:08:50Z) - Sycophancy Hides Linearly in the Attention Heads [26.373090085794036]
正誤シコファンシー信号は、マルチヘッドアテンションアクティベーションにおいて最も線形に分離可能である。
我々は、残留ストリーム、多層パーセプトロン(MLP)、アテンション層を横断する線形プローブを訓練し、これらの信号がどこに現れるかを分析する。
論文 参考訳(メタデータ) (2026-01-23T11:04:04Z) - Towards A Unified PAC-Bayesian Framework for Norm-based Generalization Bounds [63.47271262149291]
PAC-Bayesianノルムに基づく一般化のための統一的なフレームワークを提案する。
提案手法の鍵となるのは、構造的重み摂動に関してネットワーク出力を定量化する感度行列である。
我々は、いくつかの既存のPAC-ベイジアン結果を特殊ケースとして回復する一般化境界の族を導出する。
論文 参考訳(メタデータ) (2026-01-13T00:42:22Z) - Hallucination Detection in LLMs with Topological Divergence on Attention Graphs [60.83579255387347]
幻覚(Halucination)、すなわち、事実的に誤ったコンテンツを生成することは、大きな言語モデルにとって重要な課題である。
本稿では,TOHA (Topology-based HAllucination detector) をRAG設定に導入する。
論文 参考訳(メタデータ) (2025-04-14T10:06:27Z) - Do algorithms and barriers for sparse principal component analysis
extend to other structured settings? [9.339550283840769]
スパイクされたウィッシュアートモデルに基づく主成分分析問題について検討する。
問題インスタンスの幾何学に依存する基本的な限界を確立する。
自然射影パワー法は,解の統計的に最適に近い近傍に局所収束を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T14:30:00Z) - Contrastive Learning Can Find An Optimal Basis For Approximately
View-Invariant Functions [18.440569330385323]
本稿では,複数のコントラスト学習手法を,固定正対カーネルを近似した学習カーネル関数として再解釈できることを示す。
このカーネルとPCAを組み合わせることで得られる単純な表現は、線形予測器の最悪の近似誤差を確実に最小化する。
論文 参考訳(メタデータ) (2022-10-04T20:02:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。