Fugu-MT 論文翻訳(概要): Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot

論文の概要: Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot

arxiv url: http://arxiv.org/abs/2406.06893v1
Date: Tue, 11 Jun 2024 02:15:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-12 19:36:38.552745
Title: Transformers Provably Learn Sparse Token Selection While Fully-Connected Nets Cannot
Title（参考訳）: 完全接続ネットはできないが、トランスフォーマーはおそらくスパーストークン選択を学習する
Authors: Zixuan Wang, Stanley Wei, Daniel Hsu, Jason D. Lee,
Abstract要約: トランスフォーマーアーキテクチャは様々なディープラーニング環境で普及しています勾配降下で訓練された一層変圧器はスパーストークン選択タスクを確実に学習する。
参考スコア（独自算出の注目度）: 50.16171384920963
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The transformer architecture has prevailed in various deep learning settings due to its exceptional capabilities to select and compose structural information. Motivated by these capabilities, Sanford et al. proposed the sparse token selection task, in which transformers excel while fully-connected networks (FCNs) fail in the worst case. Building upon that, we strengthen the FCN lower bound to an average-case setting and establish an algorithmic separation of transformers over FCNs. Specifically, a one-layer transformer trained with gradient descent provably learns the sparse token selection task and, surprisingly, exhibits strong out-of-distribution length generalization. We provide empirical simulations to justify our theoretical findings.
Abstract（参考訳）: トランスフォーマーアーキテクチャは、構造情報の選択と構成に特有な能力があるため、様々なディープラーニング環境で普及している。これらの能力に触発され、サンフォードらはスパーストークン選択タスクを提案し、トランスフォーマーは完全接続ネットワーク(FCN)が最悪の場合フェールする。その上で, 平均ケース設定に対するFCNの低境界を強化し, FCN上での変圧器のアルゴリズム的分離を確立する。具体的には、勾配降下で訓練された一層変圧器は、スパーストークン選択タスクを確実に学習し、驚くべきことに、分配長の強い一般化を示す。理論的知見を正当化するための実験シミュレーションを提供する。

関連論文リスト

Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文参考訳（メタデータ） (2025-01-06T06:34:52Z)
Transformers Simulate MLE for Sequence Generation in Bayesian Networks [18.869174453242383]
In-context maximum max estimation (MLE) に基づくベイズネットワークにおける変圧器の自己回帰生成機能について検討する。ベイジアンネットワークの条件確率を文脈に応じて推定できる単純な変圧器モデルが存在することを実証する。さらに、このような変圧器が理論上存在するだけでなく、訓練を通じて効果的に得られることを、広範な実験で実証する。
論文参考訳（メタデータ） (2025-01-05T13:56:51Z)
Equivariant Neural Functional Networks for Transformers [2.3963215252605172]
本稿では,トランスアーキテクチャのためのニューラルネットワーク(NFN)を体系的に検討する。 NFNは、ディープニューラルネットワーク(DNN)の重み、勾配、またはスパーシティパターンを入力データとして扱う特殊なニューラルネットワークである。
論文参考訳（メタデータ） (2024-10-05T15:56:57Z)
Transformer Neural Autoregressive Flows [48.68932811531102]
正規化フロー(NF)を用いて密度推定を行う。我々はトランスフォーマーニューラルオートレグレッシブフロー(T-NAF)と呼ばれる新しいタイプのニューラルフローを定義するためにトランスフォーマーを利用する新しい解を提案する。
論文参考訳（メタデータ） (2024-01-03T17:51:16Z)
U-shaped Transformer: Retain High Frequency Context in Time Series Analysis [0.5710971447109949]
本稿では,変圧器の低域特性を考察し,その利点を取り入れようと試みる。パッチマージと分割操作を導入し、異なるスケールの機能を抽出し、より大きなデータセットを使用してトランスフォーマーバックボーンを完全に活用する。実験により、比較的低コストで複数のデータセットをまたいだ高度なレベルでモデルが動作できることが実証された。
論文参考訳（メタデータ） (2023-07-18T07:15:26Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Deep Transformers without Shortcuts: Modifying Self-attention for Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文参考訳（メタデータ） (2023-02-20T21:26:25Z)
Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文参考訳（メタデータ） (2022-03-15T06:52:25Z)
Content-Augmented Feature Pyramid Network with Light Linear Transformers [7.035864400598343]
トランスは、自己認識機構を使用して、グローバルビューから同様の機能を適応的に集約することができる。オブジェクト検出のために、Feature Pyramid Network (FPN) は層間の機能相互作用を提案し、その重要性を証明している。本稿では、線形化注意関数を用いて上記の問題を克服し、新しいアーキテクチャであるContent-Augmented Feature Pyramid Network (CA-FPN)を構築する。
論文参考訳（メタデータ） (2021-05-20T02:31:31Z)
Transformers Solve the Limited Receptive Field for Monocular Depth Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文参考訳（メタデータ） (2021-03-22T18:00:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。