論文の概要: Geometry of Lightning Self-Attention: Identifiability and Dimension
- arxiv url: http://arxiv.org/abs/2408.17221v1
- Date: Fri, 30 Aug 2024 12:00:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 15:28:41.248958
- Title: Geometry of Lightning Self-Attention: Identifiability and Dimension
- Title(参考訳): 照明自己注意の幾何学:識別可能性と次元
- Authors: Nathan W. Henry, Giovanni Luca Marchetti, Kathlén Kohn,
- Abstract要約: 任意の層数に対するパラメトリゼーションの一般的な繊維の表現を提供することにより、深い注意の識別可能性について検討する。
単層モデルでは特異点と境界点を特徴付ける。
最後に,本研究の結果を正規化された自己注意ネットワークに拡張し,単一層として証明し,深部ケースで数値的に検証する。
- 参考スコア(独自算出の注目度): 2.9816332334719773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We consider function spaces defined by self-attention networks without normalization, and theoretically analyze their geometry. Since these networks are polynomial, we rely on tools from algebraic geometry. In particular, we study the identifiability of deep attention by providing a description of the generic fibers of the parametrization for an arbitrary number of layers and, as a consequence, compute the dimension of the function space. Additionally, for a single-layer model, we characterize the singular and boundary points. Finally, we formulate a conjectural extension of our results to normalized self-attention networks, prove it for a single layer, and numerically verify it in the deep case.
- Abstract(参考訳): 正規化のない自己アテンションネットワークで定義される関数空間を考察し,その幾何学的解析を行う。
これらのネットワークは多項式であるため、代数幾何学の道具に依存する。
特に,任意の数の層に対してパラメトリゼーションの一般繊維を記述し,結果として関数空間の次元を計算することにより,深い注意の識別可能性について検討する。
さらに、単層モデルでは特異点と境界点を特徴付ける。
最後に,本研究の結果を正規化された自己注意ネットワークに拡張し,単一層として証明し,深部ケースで数値的に検証する。
関連論文リスト
- Geometry Distributions [51.4061133324376]
本稿では,分布として幾何学をモデル化する新しい幾何学的データ表現を提案する。
提案手法では,新しいネットワークアーキテクチャを用いた拡散モデルを用いて表面点分布の学習を行う。
本研究では,多種多様な対象に対して質的かつ定量的に表現を評価し,その有効性を実証した。
論文 参考訳(メタデータ) (2024-11-25T04:06:48Z) - On the Geometry and Optimization of Polynomial Convolutional Networks [2.9816332334719773]
単項活性化機能を持つ畳み込みニューラルネットワークについて検討する。
我々は、モデルの表現力を測定するニューロマニフォールドの次元と度合いを計算する。
一般的な大規模データセットに対して、回帰損失の最適化に起因した臨界点の数を定量化する明示的な公式を導出する。
論文 参考訳(メタデータ) (2024-10-01T14:13:05Z) - Data Topology-Dependent Upper Bounds of Neural Network Widths [52.58441144171022]
まず、3層ニューラルネットワークがコンパクトな集合上のインジケータ関数を近似するように設計可能であることを示す。
その後、これは単純複体へと拡張され、その位相構造に基づいて幅の上界が導かれる。
トポロジカルアプローチを用いて3層ReLUネットワークの普遍近似特性を証明した。
論文 参考訳(メタデータ) (2023-05-25T14:17:15Z) - Differential geometry with extreme eigenvalues in the positive
semidefinite cone [1.9116784879310025]
本稿では,超一般化固有値の効率に基づくSPD値データの解析と処理のためのスケーラブルな幾何学的枠組みを提案する。
我々は、この幾何学に基づいて、SPD行列の新たな反復平均を定義し、与えられた有限個の点の集合に対するその存在と特異性を証明する。
論文 参考訳(メタデータ) (2023-04-14T18:37:49Z) - Function Space and Critical Points of Linear Convolutional Networks [4.483341215742946]
一次元畳み込み層を有する線形ネットワークの幾何学について検討する。
我々は,ネットワークアーキテクチャが関数空間の次元,境界,特異点に与える影響を分析する。
論文 参考訳(メタデータ) (2023-04-12T10:15:17Z) - Towards a mathematical understanding of learning from few examples with
nonlinear feature maps [68.8204255655161]
トレーニングセットがわずか数個のデータポイントから構成されるデータ分類の問題を考える。
我々は、AIモデルの特徴空間の幾何学、基礎となるデータ分布の構造、モデルの一般化能力との間の重要な関係を明らかにする。
論文 参考訳(メタデータ) (2022-11-07T14:52:58Z) - Holographic properties of superposed quantum geometries [0.0]
離散幾何学データの重ね合わせを特徴とする量子幾何状態のクラスにおけるホログラフィック特性について検討する。
このクラスにはスピンネットワーク、格子ゲージ理論の運動状態、離散量子重力が含まれる。
論文 参考訳(メタデータ) (2022-07-15T17:37:47Z) - Superposed Random Spin Tensor Networks and their Holographic Properties [0.0]
投影対状態(PEPS)に類似して定義されるスピンネットワーク状態のクラスにおける境界-境界ホログラフィーについて検討する。
グラフ上のよく定義された離散幾何学に対応する状態の重ね合わせを考える。
論文 参考訳(メタデータ) (2022-05-19T12:24:57Z) - A singular Riemannian geometry approach to Deep Neural Networks I.
Theoretical foundations [77.86290991564829]
ディープニューラルネットワークは、音声認識、機械翻訳、画像解析など、いくつかの科学領域で複雑な問題を解決するために広く使われている。
我々は、リーマン計量を備えた列の最後の多様体で、多様体間の写像の特定の列を研究する。
このようなシーケンスのマップの理論的性質について検討し、最終的に実践的な関心を持つニューラルネットワークの実装間のマップのケースに焦点を当てる。
論文 参考訳(メタデータ) (2021-12-17T11:43:30Z) - Primal-Dual Mesh Convolutional Neural Networks [62.165239866312334]
本稿では,グラフ・ニューラル・ネットワークの文献からトライアングル・メッシュへ引き起こされた原始双対のフレームワークを提案する。
提案手法は,3次元メッシュのエッジと顔の両方を入力として特徴付け,動的に集約する。
メッシュ単純化の文献から得られたツールを用いて、我々のアプローチに関する理論的知見を提供する。
論文 参考訳(メタデータ) (2020-10-23T14:49:02Z) - Convex Geometry and Duality of Over-parameterized Neural Networks [70.15611146583068]
有限幅2層ReLUネットワークの解析のための凸解析手法を開発した。
正規化学習問題に対する最適解が凸集合の極点として特徴づけられることを示す。
高次元では、トレーニング問題は無限に多くの制約を持つ有限次元凸問題としてキャストできることが示される。
論文 参考訳(メタデータ) (2020-02-25T23:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。