論文の概要: Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot
- arxiv url: http://arxiv.org/abs/2406.06893v1
- Date: Tue, 11 Jun 2024 02:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 19:36:38.552745
- Title: Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot
- Title(参考訳): 完全接続ネットはできないが、トランスフォーマーはおそらくスパーストークン選択を学習する
- Authors: Zixuan Wang, Stanley Wei, Daniel Hsu, Jason D. Lee,
- Abstract要約: トランスフォーマーアーキテクチャは 様々なディープラーニング環境で普及しています
勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
- 参考スコア(独自算出の注目度): 50.16171384920963
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The transformer architecture has prevailed in various deep learning settings due to its exceptional capabilities to select and compose structural information. Motivated by these capabilities, Sanford et al. proposed the sparse token selection task, in which transformers excel while fully-connected networks (FCNs) fail in the worst case. Building upon that, we strengthen the FCN lower bound to an average-case setting and establish an algorithmic separation of transformers over FCNs. Specifically, a one-layer transformer trained with gradient descent provably learns the sparse token selection task and, surprisingly, exhibits strong out-of-distribution length generalization. We provide empirical simulations to justify our theoretical findings.
- Abstract(参考訳): トランスフォーマーアーキテクチャは、構造情報の選択と構成に特有な能力があるため、様々なディープラーニング環境で普及している。
これらの能力に触発され、サンフォードらはスパーストークン選択タスクを提案し、トランスフォーマーは完全接続ネットワーク(FCN)が最悪の場合フェールする。
その上で, 平均ケース設定に対するFCNの低境界を強化し, FCN上での変圧器のアルゴリズム的分離を確立する。
具体的には、勾配降下で訓練された一層変圧器は、スパーストークン選択タスクを確実に学習し、驚くべきことに、分配長の強い一般化を示す。
理論的知見を正当化するための実験シミュレーションを提供する。
関連論文リスト
- Equivariant Neural Functional Networks for Transformers [2.3963215252605172]
本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。
NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
論文 参考訳(メタデータ) (2024-10-05T15:56:57Z) - Transformer Neural Autoregressive Flows [48.68932811531102]
正規化フロー(NF)を用いて密度推定を行う。
我々はトランスフォーマーニューラルオートレグレッシブフロー(T-NAF)と呼ばれる新しいタイプのニューラルフローを定義するためにトランスフォーマーを利用する新しい解を提案する。
論文 参考訳(メタデータ) (2024-01-03T17:51:16Z) - U-shaped Transformer: Retain High Frequency Context in Time Series
Analysis [0.5710971447109949]
本稿では,変圧器の低域特性を考察し,その利点を取り入れようと試みる。
パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。
実験により、比較的低コストで複数のデータセットをまたいだ高度なレベルでモデルが動作できることが実証された。
論文 参考訳(メタデータ) (2023-07-18T07:15:26Z) - Transformers as Statisticians: Provable In-Context Learning with
In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。
コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。
エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文 参考訳(メタデータ) (2023-06-07T17:59:31Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Content-Augmented Feature Pyramid Network with Light Linear Transformers [7.035864400598343]
トランスは、自己認識機構を使用して、グローバルビューから同様の機能を適応的に集約することができる。
オブジェクト検出のために、Feature Pyramid Network (FPN) は層間の機能相互作用を提案し、その重要性を証明している。
本稿では、線形化注意関数を用いて上記の問題を克服し、新しいアーキテクチャであるContent-Augmented Feature Pyramid Network (CA-FPN)を構築する。
論文 参考訳(メタデータ) (2021-05-20T02:31:31Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。