論文の概要: Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot
- arxiv url: http://arxiv.org/abs/2406.06893v1
- Date: Tue, 11 Jun 2024 02:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 19:36:38.552745
- Title: Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot
- Title(参考訳): 完全接続ネットはできないが、トランスフォーマーはおそらくスパーストークン選択を学習する
- Authors: Zixuan Wang, Stanley Wei, Daniel Hsu, Jason D. Lee,
- Abstract要約: トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
- 参考スコア(独自算出の注目度): 50.16171384920963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architecture has prevailed in various deep learning settings due to its exceptional capabilities to select and compose structural information. Motivated by these capabilities, Sanford et al. proposed the sparse token selection task, in which transformers excel while fully-connected networks (FCNs) fail in the worst case. Building upon that, we strengthen the FCN lower bound to an average-case setting and establish an algorithmic separation of transformers over FCNs. Specifically, a one-layer transformer trained with gradient descent provably learns the sparse token selection task and, surprisingly, exhibits strong out-of-distribution length generalization. We provide empirical simulations to justify our theoretical findings.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、構造情報の選択と構成に特有な能力があるため、様々なディープラーニング環境で普及している。
これらの能力に触発され、サンフォードらはスパーストークン選択タスクを提案し、トランスフォーマーは完全接続ネットワーク(FCN)が最悪の場合フェールする。
その上で, 平均ケース設定に対するFCNの低境界を強化し, FCN上での変圧器のアルゴリズム的分離を確立する。
具体的には、勾配降下で訓練された一層変圧器は、スパーストークン選択タスクを確実に学習し、驚くべきことに、分配長の強い一般化を示す。
理論的知見を正当化するための実験シミュレーションを提供する。
関連論文リスト
- Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。
本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。
このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文 参考訳(メタデータ) (2025-01-06T06:34:52Z) - Transformers Simulate MLE for Sequence Generation in Bayesian Networks [18.869174453242383]
In-context maximum max estimation (MLE) に基づくベイズネットワークにおける変圧器の自己回帰生成機能について検討する。
ベイジアンネットワークの条件確率を文脈に応じて推定できる単純な変圧器モデルが存在することを実証する。
さらに、このような変圧器が理論上存在するだけでなく、訓練を通じて効果的に得られることを、広範な実験で実証する。
論文 参考訳(メタデータ) (2025-01-05T13:56:51Z) - Equivariant Neural Functional Networks for Transformers [2.3963215252605172]
本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
論文 参考訳(メタデータ) (2024-10-05T15:56:57Z) - Transformer Neural Autoregressive Flows [48.68932811531102]
正規化フロー(NF)を用いて密度推定を行う。
我々はトランスフォーマーニューラルオートレグレッシブフロー(T-NAF)と呼ばれる新しいタイプのニューラルフローを定義するためにトランスフォーマーを利用する新しい解を提案する。
論文 参考訳(メタデータ) (2024-01-03T17:51:16Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。