論文の概要: p-Laplacian Transformer
- arxiv url: http://arxiv.org/abs/2311.03235v1
- Date: Mon, 6 Nov 2023 16:25:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 13:49:47.316338
- Title: p-Laplacian Transformer
- Title(参考訳): p-ラプラシアン変圧器
- Authors: Tuan Nguyen, Tam Nguyen, Vinh Nguyen, Tan M. Nguyen
- Abstract要約: グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入している。
まず、自己注意機構が最小のラプラシアン正規化を得ることを示す。
次に、新しい変圧器のクラス、すなわち$p$-Laplacian Transformer (p-LaT)を提案する。
- 参考スコア(独自算出の注目度): 7.2541371193810384
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: $p$-Laplacian regularization, rooted in graph and image signal processing,
introduces a parameter $p$ to control the regularization effect on these data.
Smaller values of $p$ promote sparsity and interpretability, while larger
values encourage smoother solutions. In this paper, we first show that the
self-attention mechanism obtains the minimal Laplacian regularization ($p=2$)
and encourages the smoothness in the architecture. However, the smoothness is
not suitable for the heterophilic structure of self-attention in transformers
where attention weights between tokens that are in close proximity and
non-close ones are assigned indistinguishably. From that insight, we then
propose a novel class of transformers, namely the $p$-Laplacian Transformer
(p-LaT), which leverages $p$-Laplacian regularization framework to harness the
heterophilic features within self-attention layers. In particular, low $p$
values will effectively assign higher attention weights to tokens that are in
close proximity to the current token being processed. We empirically
demonstrate the advantages of p-LaT over the baseline transformers on a wide
range of benchmark datasets.
- Abstract(参考訳): グラフと画像信号処理をルーツとする$p$-Laplacian正規化は、これらのデータに対する正規化効果を制御するパラメータ$p$を導入する。
p$の小さな値はスパーシリティと解釈可能性を促進し、大きな値はよりスムーズなソリューションを促進する。
本稿ではまず,自己注意機構が最小のラプラシアン正規化(p=2$)を獲得し,アーキテクチャの滑らかさを促進させることを示す。
しかし,近接トークンと非接近トークンとの注意重みを区別不能に割り当てた変圧器の自己着脱構造には,滑らかさは適さない。
その知見から、我々は新しい種類のトランスフォーマー、すなわち$p$-laplacian transformer (p-lat) を提案し、これは$p$-laplacian regularization frameworkを利用して自己結合層内のヘテロ親和性を利用する。
特に、$p$の低い値では、処理されている現在のトークンに近接しているトークンに注意重みを効果的に割り当てる。
幅広いベンチマークデータセットのベースライン変換器に対するp-LaTの利点を実証的に示す。
関連論文リスト
- Pretrained transformer efficiently learns low-dimensional target functions in-context [40.77319247558742]
勾配降下により最適化された非線形変換器は、ターゲット関数の分布の次元にのみ依存するプロンプト長を持つ、$f_*$ in-contextを学習する。
本結果は,事前学習した変換器の関数クラスの低次元構造への適応性を強調し,サンプル効率の良いICLを実現する。
論文 参考訳(メタデータ) (2024-11-04T19:24:39Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - How do Transformers perform In-Context Autoregressive Learning? [76.18489638049545]
簡単な次のトークン予測タスクでTransformerモデルをトレーニングする。
トレーニングされたTransformerが、まず$W$ in-contextを学習し、次に予測マッピングを適用することで、次のトークンを予測する方法を示す。
論文 参考訳(メタデータ) (2024-02-08T16:24:44Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Guided Patch-Grouping Wavelet Transformer with Spatial Congruence for
Ultra-High Resolution Segmentation [18.50799240622156]
GPWFormer(GPWFormer)の提案
$mathcalT$は、UHRイメージ全体を入力として取り、局所的な詳細と細かな長距離コンテキスト依存の両方を抽出する。
$mathcalC$は、カテゴリの深いコンテキストを学ぶための入力として、サンプルイメージを取ります。
論文 参考訳(メタデータ) (2023-07-03T02:19:48Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Hybrid Model-based / Data-driven Graph Transform for Image Coding [54.31406300524195]
予測内残差ブロックを符号化するハイブリッドモデルベース/データ駆動方式を提案する。
変換行列の最初の$K$固有ベクトルは、安定性のための非対称離散正弦変換(ADST)のような統計モデルから導かれる。
WebPをベースライン画像として使用することにより、我々のハイブリッドグラフ変換は、デフォルトの離散コサイン変換(DCT)よりもエネルギーの圧縮が良く、KLTよりも安定性がよいことを示す。
論文 参考訳(メタデータ) (2022-03-02T15:36:44Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。