論文の概要: Coinductive guide to inductive transformer heads
- arxiv url: http://arxiv.org/abs/2302.01834v1
- Date: Fri, 3 Feb 2023 16:19:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-06 15:43:30.176168
- Title: Coinductive guide to inductive transformer heads
- Title(参考訳): インダクティブ変圧器ヘッドのインダクティブガイド
- Authors: Adam Nemecek
- Abstract要約: 変換モデルのすべての構成要素は、ホップ代数(Hopf algebra)という単一の概念で表現できると主張する。
変換学習はホップ代数の代数的操作と合図的操作の間の相互作用の結果現れる。
この性質は、ホップ代数が繰り返しスクアリングによって固有値を計算する驚くべき性質を持つという事実の結果である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We argue that all building blocks of transformer models can be expressed with
a single concept: combinatorial Hopf algebra. Transformer learning emerges as a
result of the subtle interplay between the algebraic and coalgebraic operations
of the combinatorial Hopf algebra. Viewed through this lens, the transformer
model becomes a linear time-invariant system where the attention mechanism
computes a generalized convolution transform and the residual stream serves as
a unit impulse. Attention-only transformers then learn by enforcing an
invariant between these two paths. We call this invariant Hopf coherence. Due
to this, with a degree of poetic license, one could call combinatorial Hopf
algebras "tensors with a built-in loss function gradient". This loss function
gradient occurs within the single layers and no backward pass is needed. This
is in contrast to automatic differentiation which happens across the whole
graph and needs a explicit backward pass. This property is the result of the
fact that combinatorial Hopf algebras have the surprising property of
calculating eigenvalues by repeated squaring.
- Abstract(参考訳): 我々は、トランスフォーマーモデルの全ての構成要素は単一の概念:組合せホップ代数で表現できると主張する。
トランスフォーマー学習は、組合せホップ代数の代数的操作と代数的操作の間の微妙な相互作用の結果生じる。
このレンズを通して見たトランスモデルは、注意機構が一般化畳み込み変換を計算し、残ストリームが単位インパルスとして機能する線形時間不変システムとなる。
注意のみのトランスフォーマーは、これら2つのパスの間に不変性を持たせることによって学習する。
これを不変ホップコヒーレンスと呼ぶ。
このため、ある程度の詩的ライセンスがあれば、組合せホップ代数を「損失関数勾配を内蔵したテンソル」と呼ぶことができる。
この損失関数勾配は単一の層内で発生し、後方通過は不要である。
これはグラフ全体にわたって発生し、明示的な後方通過を必要とする自動微分とは対照的である。
この性質は、組合せホップ代数が繰り返しスパーリングによって固有値を計算する驚くべき性質を持つという事実の結果である。
関連論文リスト
- How Transformers Learn Causal Structure with Gradient Descent [49.808194368781095]
自己注意はトランスフォーマーが因果構造をエンコードすることを可能にする。
我々は、潜在因果構造を学習する必要があるコンテキスト内学習タスクを導入する。
我々は、文脈内学習タスクで訓練されたトランスフォーマーが、様々な因果構造を回復できることを示す。
論文 参考訳(メタデータ) (2024-02-22T17:47:03Z) - Towards Understanding Inductive Bias in Transformers: A View From
Infinity [10.117509279024041]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - Unsupervised Learning of Invariance Transformations [105.54048699217668]
近似グラフ自己同型を見つけるためのアルゴリズムフレームワークを開発する。
重み付きグラフにおける近似自己同型を見つけるために、このフレームワークをどのように利用できるかについて議論する。
論文 参考訳(メタデータ) (2023-07-24T17:03:28Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - Projective characterization of higher-order quantum transformations [0.0]
本研究は,超作用素プロジェクタを用いた高次量子変換を特徴付ける枠組みを提案する。
この研究の主な新規性は、'prec'コネクターの代数の導入である。
これにより、射影フレームワーク内で特徴づけられる任意の写像の可能なシグナリング構造を評価することができる。
論文 参考訳(メタデータ) (2022-06-13T14:36:28Z) - A Probabilistic Interpretation of Transformers [91.3755431537592]
本稿では,変圧器の指数点積注意の確率論的解釈と指数列に基づくコントラスト学習を提案する。
我々は、我々の理論とホップフィールド理論の理論的限界を述べ、分解の方向性を提案する。
論文 参考訳(メタデータ) (2022-04-28T23:05:02Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z) - The Convolution Exponential and Generalized Sylvester Flows [82.18442368078804]
本稿では,線形変換の指数関数を取り入れ,線形フローを構築する新しい手法を提案する。
重要な洞察として、指数関数は暗黙的に計算できるため、畳み込み層を使用することができる。
畳み込み指数はCIFAR10上の生成フローにおいて他の線形変換よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-02T19:43:36Z) - Invertible Generative Modeling using Linear Rational Splines [11.510009152620666]
正規化フローは、可逆写像の集合を通して任意の確率分布をモデル化しようとする。
最初のフロー設計ではアフィン変換に基づく結合層マッピングが用いられた。
アフィン変換の代替として機能するイントレピッドは注目されている。
論文 参考訳(メタデータ) (2020-01-15T08:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。