論文の概要: The Topos of Transformer Networks
- arxiv url: http://arxiv.org/abs/2403.18415v3
- Date: Sun, 5 May 2024 21:07:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 23:06:30.730817
- Title: The Topos of Transformer Networks
- Title(参考訳): 変圧器ネットワークの話題
- Authors: Mattia Jacopo Villani, Peter McBurney,
- Abstract要約: 本稿では, トポス理論のレンズを用いて, トランスフォーマーアーキテクチャの表現性に関する理論的解析を行う。
我々は、多くの一般的なニューラルネットワークアーキテクチャが、一括線形関数のプリトポに組み込むことができるが、トランスフォーマーはそのトポス完了に必然的に存在することを示す。
- 参考スコア(独自算出の注目度): 0.6629765271909505
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer neural network has significantly out-shined all other neural network architectures as the engine behind large language models. We provide a theoretical analysis of the expressivity of the transformer architecture through the lens of topos theory. From this viewpoint, we show that many common neural network architectures, such as the convolutional, recurrent and graph convolutional networks, can be embedded in a pretopos of piecewise-linear functions, but that the transformer necessarily lives in its topos completion. In particular, this suggests that the two network families instantiate different fragments of logic: the former are first order, whereas transformers are higher-order reasoners. Furthermore, we draw parallels with architecture search and gradient descent, integrating our analysis in the framework of cybernetic agents.
- Abstract(参考訳): トランスフォーマーニューラルネットワークは、大きな言語モデルの背後にあるエンジンとして、他のすべてのニューラルネットワークアーキテクチャを大きく上回っている。
本稿では, トポス理論のレンズを用いて, トランスフォーマーアーキテクチャの表現性に関する理論的解析を行う。
この観点から、畳み込み、再帰、グラフ畳み込みなどの多くの一般的なニューラルネットワークアーキテクチャが、片方向線形関数のプリトポに組み込むことができるが、トランスフォーマーはそのトポス完了に必然的に存在することを示す。
特に、このことは、2つのネットワークファミリーが異なる論理の断片をインスタンス化することを示唆している。
さらに、アーキテクチャ探索と勾配降下とを並列に描画し、サイバネティックエージェントの枠組みに分析を統合する。
関連論文リスト
- What Does It Mean to Be a Transformer? Insights from a Theoretical Hessian Analysis [8.008567379796666]
Transformerアーキテクチャは、間違いなくディープラーニングに革命をもたらした。
中心となる注意ブロックは、ディープラーニングにおける他のほとんどのアーキテクチャコンポーネントと形式と機能の違いです。
これらの外向きの表現の背後にある根本原因と、それらを管理する正確なメカニズムは、まだ理解されていないままである。
論文 参考訳(メタデータ) (2024-10-14T18:15:02Z) - Rotation Equivariant Proximal Operator for Deep Unfolding Methods in Image Restoration [62.41329042683779]
本稿では, 回転対称性を組み込んだ高精度な回転同変近位ネットワークを提案する。
本研究は, 回転対称性の先行を深く展開する枠組みに効果的に組み込む, 高精度な回転同変近位ネットワークを提案する。
論文 参考訳(メタデータ) (2023-12-25T11:53:06Z) - Interpret Vision Transformers as ConvNets with Dynamic Convolutions [70.59235381143831]
我々は、ビジョントランスフォーマーを動的畳み込みを備えたConvNetと解釈し、既存のトランスフォーマーと動的コンバータを統一されたフレームワークで特徴付けることができる。
ConvNetsの設計空間から視覚変換器を考えることができるため、我々の解釈もネットワーク設計を導くことができる。
論文 参考訳(メタデータ) (2023-09-19T16:00:49Z) - NAR-Former V2: Rethinking Transformer for Universal Neural Network
Representation Learning [25.197394237526865]
本稿では,トランスフォーマーに基づく汎用ニューラルネットワーク表現学習モデル NAR-Former V2 を提案する。
具体的には、ネットワークをグラフとして取り、簡単なトークン化器を設計して、ネットワークをシーケンスにエンコードする。
我々は,GNNの帰納的表現学習能力をTransformerに組み込んだ。
論文 参考訳(メタデータ) (2023-06-19T09:11:04Z) - Centered Self-Attention Layers [89.21791761168032]
変圧器の自己保持機構とグラフニューラルネットワークのメッセージ通過機構を繰り返し適用する。
我々は、このアプリケーションが必然的に、より深い層での同様の表現に過剰なスムーシングをもたらすことを示す。
これらの機構の集約演算子に補正項を提示する。
論文 参考訳(メタデータ) (2023-06-02T15:19:08Z) - Causal Deep Learning: Causal Capsules and Tensor Transformers [0.0]
逆因果質問は、マルチ線形射影を実装し、効果の原因を推定するニューラルネットワークで対処される。
我々の前方および逆ニューラルネットワークアーキテクチャは非同期並列計算に適している。
論文 参考訳(メタデータ) (2023-01-01T00:47:03Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - A Survey on Visual Transformer [126.56860258176324]
Transformerは、主に自己認識機構に基づくディープニューラルネットワークの一種である。
本稿では、これらの視覚変換器モデルについて、異なるタスクで分類し、それらの利点と欠点を分析することでレビューする。
論文 参考訳(メタデータ) (2020-12-23T09:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。