論文の概要: Equivariant Neural Functional Networks for Transformers
- arxiv url: http://arxiv.org/abs/2410.04209v1
- Date: Sat, 5 Oct 2024 15:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 09:11:41.579553
- Title: Equivariant Neural Functional Networks for Transformers
- Title(参考訳): 変圧器用等価ニューラルネットワーク
- Authors: Viet-Hoang Tran, Thieu N. Vo, An Nguyen The, Tho Tran Huu, Minh-Khoi Nguyen-Nhat, Thanh Tran, Duy-Tung Pham, Tan Minh Nguyen,
- Abstract要約: 本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
- 参考スコア(独自算出の注目度): 2.3963215252605172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper systematically explores neural functional networks (NFN) for transformer architectures. NFN are specialized neural networks that treat the weights, gradients, or sparsity patterns of a deep neural network (DNN) as input data and have proven valuable for tasks such as learnable optimizers, implicit data representations, and weight editing. While NFN have been extensively developed for MLP and CNN, no prior work has addressed their design for transformers, despite the importance of transformers in modern deep learning. This paper aims to address this gap by providing a systematic study of NFN for transformers. We first determine the maximal symmetric group of the weights in a multi-head attention module as well as a necessary and sufficient condition under which two sets of hyperparameters of the multi-head attention module define the same function. We then define the weight space of transformer architectures and its associated group action, which leads to the design principles for NFN in transformers. Based on these, we introduce Transformer-NFN, an NFN that is equivariant under this group action. Additionally, we release a dataset of more than 125,000 Transformers model checkpoints trained on two datasets with two different tasks, providing a benchmark for evaluating Transformer-NFN and encouraging further research on transformer training and performance.
- Abstract(参考訳): 本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークであり、学習可能なオプティマイザ、暗黙的なデータ表現、ウェイト編集といったタスクに有用であることが証明されている。
NFN は MLP や CNN 向けに広く開発されているが、現代のディープラーニングにおいてトランスフォーマーの重要性にもかかわらず、トランスフォーマーの設計に先行する作業は行われていない。
本稿では, 変圧器のNFNを系統的に研究することで, このギャップに対処することを目的とする。
まず、重みの最大対称群と、マルチヘッドアテンションモジュールの2組のハイパーパラメータが同じ関数を定義する必要十分条件を決定する。
次に、変換器アーキテクチャの重み空間とその関連する群作用を定義し、変換器におけるNFNの設計原理を導出する。
これらに基づいて、この群作用の下で同変であるNFNであるTransformer-NFNを導入する。
さらに、2つの異なるタスクでトレーニングされた125,000以上のTransformerモデルチェックポイントのデータセットをリリースし、Transformer-NFNを評価するためのベンチマークを提供し、Transformerトレーニングとパフォーマンスに関するさらなる研究を奨励する。
関連論文リスト
- Binary Event-Driven Spiking Transformer [36.815359983551986]
トランスフォーマーベースのスパイキングニューラルネットワーク(SNN)は、イベント駆動型自己注意パラダイムを導入している。
本稿では,2値イベント駆動型スパイキング変換器,BESTformerを提案する。
BESTformerは、バイナライゼーションの限られた表現能力のため、完全な精度で性能が低下する。
論文 参考訳(メタデータ) (2025-01-10T12:00:11Z) - Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングは、スパイキングニューラルネットワーク(SNN)を使用して推論タスクを実行する。
スパイクニューロン間で交換される各スパイクに小さなペイロードを埋め込むことで、エネルギー消費を増大させることなく推論精度を高めることができる。
分割コンピューティング — SNNを2つのデバイスに分割する — は、有望なソリューションだ。
本稿では,マルチレベルSNNを用いたニューロモルフィック無線分割コンピューティングアーキテクチャの総合的研究について述べる。
論文 参考訳(メタデータ) (2024-11-07T14:08:35Z) - Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot [50.16171384920963]
トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
論文 参考訳(メタデータ) (2024-06-11T02:15:53Z) - FBPT: A Fully Binary Point Transformer [12.373066597900127]
本稿では,ロボット工学やモバイルデバイスの分野で広く応用され拡張される可能性を持つ,FBPT(Fully Binary Point Cloud Transformer)モデルを提案する。
32ビットの完全精度ネットワークの重みとアクティベーションを1ビットのバイナリ値に圧縮することにより、提案したバイナリポイントクラウドトランスフォーマーネットワークは、ストレージフットプリントと計算リソースの要求を大幅に削減する。
本稿の主な焦点は、バイナリポイントクラウドトランスフォーマーモジュールの使用によるパフォーマンス劣化問題に対処することである。
論文 参考訳(メタデータ) (2024-03-15T03:45:10Z) - Transformer Neural Autoregressive Flows [48.68932811531102]
正規化フロー(NF)を用いて密度推定を行う。
我々はトランスフォーマーニューラルオートレグレッシブフロー(T-NAF)と呼ばれる新しいタイプのニューラルフローを定義するためにトランスフォーマーを利用する新しい解を提案する。
論文 参考訳(メタデータ) (2024-01-03T17:51:16Z) - Neural Functional Transformers [99.98750156515437]
本稿では,ニューラルファンクショナルトランスフォーマー (NFT) と呼ばれる新しい変分同変量空間層を定義するために,アテンション機構を用いる。
NFTは重み空間の置換対称性を尊重し、注意の利点を取り入れ、複数の領域で顕著な成功を収めた。
Inr2Arrayは暗黙的ニューラル表現(INR)の重みから置換不変表現を計算する新しい方法である。
論文 参考訳(メタデータ) (2023-05-22T23:38:27Z) - FlowTransformer: A Transformer Framework for Flow-based Network
Intrusion Detection Systems [0.0]
FlowTransformerは、トランスフォーマーベースのNIDSを実装するための新しいアプローチである。
入力エンコーディング、トランスフォーマー、分類ヘッド、フローベースのネットワークデータセット間での評価など、トランスフォーマーコンポーネントの直接的な置換を可能にする。
論文 参考訳(メタデータ) (2023-04-28T10:40:34Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z) - Flexible Transmitter Network [84.90891046882213]
現在のニューラルネットワークはMPモデルに基づいて構築されており、通常はニューロンを他のニューロンから受信した信号の実際の重み付け集約上での活性化関数の実行として定式化する。
本稿では,フレキシブル・トランスミッタ(FT)モデルを提案する。
本稿では、最も一般的な完全接続型フィードフォワードアーキテクチャ上に構築された、フレキシブルトランスミッタネットワーク(FTNet)について述べる。
論文 参考訳(メタデータ) (2020-04-08T06:55:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。