論文の概要: Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures
- arxiv url: http://arxiv.org/abs/2501.02931v1
- Date: Mon, 06 Jan 2025 11:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:06:32.484171
- Title: Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures
- Title(参考訳): パラメトリックエンドファンクタとしての自己認識 - トランスフォーマーアーキテクチャのカテゴリ化フレームワーク
- Authors: Charles O'Neill,
- Abstract要約: 自己認識機構はディープラーニングアーキテクチャに革命をもたらしたが、数学的基礎はいまだに完全には理解されていない。
これらの機構は分類代数学によって定式化でき、自己注意の線形成分に焦点をあてる枠組みを提示する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Self-attention mechanisms have revolutionised deep learning architectures, but their mathematical foundations remain incompletely understood. We establish that these mechanisms can be formalised through categorical algebra, presenting a framework that focuses on the linear components of self-attention. We prove that the query, key, and value maps in self-attention naturally form a parametric endofunctor in the 2-category $\mathbf{Para}(\mathbf{Vect})$ of parametric morphisms. We show that stacking multiple self-attention layers corresponds to constructing the free monad on this endofunctor. For positional encodings, we demonstrate that strictly additive position embeddings constitute monoid actions on the embedding space, while standard sinusoidal encodings, though not additive, possess a universal property among faithful position-preserving functors. We establish that the linear portions of self-attention exhibit natural equivariance properties with respect to permutations of input tokens. Finally, we prove that the ``circuits'' identified in mechanistic interpretability correspond precisely to compositions of parametric morphisms in our framework. This categorical perspective unifies geometric, algebraic, and interpretability-based approaches to transformer analysis, while making explicit the mathematical structures underlying attention mechanisms. Our treatment focuses exclusively on linear maps, setting aside nonlinearities like softmax and layer normalisation, which require more sophisticated categorical structures. Our results extend recent work on categorical foundations for deep learning while providing insights into the algebraic structure of attention mechanisms.
- Abstract(参考訳): 自己認識機構はディープラーニングアーキテクチャに革命をもたらしたが、数学的基礎はいまだに完全には理解されていない。
これらのメカニズムは分類代数学によって定式化でき、自己注意の線形成分に焦点をあてる枠組みを提示する。
自己アテンションにおける問合せ、キー、および値写像が、パラメトリック射の 2-圏 $\mathbf{Para}(\mathbf{Vect})$ において、自然にパラメトリック完備化を成すことを証明する。
複数の自己注意層を積み重ねることが、このエンドファンクター上の自由モナドを構成することに対応することを示す。
位置エンコーディングでは、厳密な加法的位置埋め込みが埋め込み空間上のモノイド作用を構成することを示したが、標準正弦波符号化は加法的ではないが、忠実な位置保存関手の間で普遍性を持っている。
自己アテンションの線形部分は入力トークンの置換に関して自然な等値性を示す。
最後に、機械的解釈可能性において同定された ``circuits'' が、我々のフレームワークにおけるパラメトリックな射の構成と正確に一致することを証明した。
この分類学的観点は、幾何学的、代数的、解釈可能性に基づくトランスフォーマー解析のアプローチを統一し、注意機構の基礎となる数学的構造を明確にする。
我々の処理は、より洗練された分類構造を必要とするソフトマックスや層正規化のような非線形性を除いて線形写像にのみ焦点をあてる。
本研究は,注目機構の代数的構造に関する洞察を提供しながら,ディープラーニングのための分類的基礎に関する最近の研究を拡張した。
関連論文リスト
- Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry [63.694184882697435]
グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
本稿では、リーマン幾何学の観点から行列対数とパワーの包括的かつ統一的な理解を提供する。
論文 参考訳(メタデータ) (2024-07-15T07:11:44Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Understanding Imbalanced Semantic Segmentation Through Neural Collapse [81.89121711426951]
セマンティックセグメンテーションは自然に文脈的相関とクラス間の不均衡分布をもたらすことを示す。
機能中心にレギュレータを導入し、ネットワークが魅力ある構造に近い機能を学ぶことを奨励する。
我々の手法は、ScanNet200テストリーダーボードで1位にランクインし、新しい記録を樹立する。
論文 参考訳(メタデータ) (2023-01-03T13:51:51Z) - Mathematical Foundations for a Compositional Account of the Bayesian
Brain [0.0]
現代応用圏論のツールを用いて、近似推論のための関手意味論を提供する。
統計ゲームのフィブレーションを定義し、統計的推論の様々な問題を対応する部分として分類する。
我々は,自由エネルギー原理の下で,予測符号化ニューラルネットワークの構成構造を説明する関手を構築した。
論文 参考訳(メタデータ) (2022-12-23T18:58:17Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Deep Invertible Approximation of Topologically Rich Maps between
Manifolds [17.60434807901964]
位相的に興味深い多様体間の写像を安定に近似できるニューラルネットワークの設計法を示す。
局所ビリプシッツ写像、被覆空間、局所同相写像の間の位相的平行性を利用して、$mathcalT circ p circ MathcalE$ という形の新しいネットワークが局所微分同相の普遍近似器であることが分かる。
また、分子の分子イメージングを対称性で処理するためのアーキテクチャの拡張の可能性についても概説する。
論文 参考訳(メタデータ) (2022-10-02T17:14:43Z) - Intersection Regularization for Extracting Semantic Attributes [72.53481390411173]
本稿では,ネットワーク抽出した特徴が意味属性のセットと一致するように,教師付き分類の問題を考える。
例えば、鳥類のイメージを種に分類することを学ぶとき、動物学者が鳥類を分類するために使用する特徴の出現を観察したい。
本稿では,複数層パーセプトロン(MLP)と並列決定木を併用した,離散的なトップレベルアクティベーションを持つニューラルネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:44Z) - Categories of Br\`egman operations and epistemic (co)monads [0.0]
我々は、適切な反射的バナッハ空間の凸閉集合を対象として、非線形後量子推論のための分類的枠組みを構築する。
これはチェンコフの状態空間間の線型正の写像の圏の研究プログラムの非線形凸解析アナログを提供する。
ブレグマン的アプローチは、この設定の特別なケースを提供することを示す。
論文 参考訳(メタデータ) (2021-03-13T23:10:29Z) - Building powerful and equivariant graph neural networks with structural
message-passing [74.93169425144755]
本稿では,2つのアイデアに基づいた,強力かつ同変なメッセージパッシングフレームワークを提案する。
まず、各ノードの周囲の局所的コンテキスト行列を学習するために、特徴に加えてノードの1ホット符号化を伝搬する。
次に,メッセージのパラメトリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-06-26T17:15:16Z) - Equivariant Maps for Hierarchical Structures [17.931059591895984]
階層構造の対称性は、ビルディングブロックの対称性の「死積」であることを示す。
点雲を酸化することにより、データに翻訳と置換の対称性の階層を課す。
私たちは、Semantic3D、S3DIS、vKITTIに関する最新の技術について報告します。
論文 参考訳(メタデータ) (2020-06-05T18:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。