論文の概要: Learning Advanced Self-Attention for Linear Transformers in the Singular Value Domain
- arxiv url: http://arxiv.org/abs/2505.08516v1
- Date: Tue, 13 May 2025 12:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.55975
- Title: Learning Advanced Self-Attention for Linear Transformers in the Singular Value Domain
- Title(参考訳): 特異値領域における線形変圧器の高度自己認識学習
- Authors: Hyowon Wi, Jeongwhan Choi, Noseong Park,
- Abstract要約: Transformerのキーコンポーネントは自己アテンションであり、入力シーケンス内の任意の2つのトークンの関係を学習する。
最近の研究により、自己注意はグラフの正規化隣接行列として理解できることが明らかになった。
本稿では,自己注意を特異値領域におけるグラフフィルタの学習として解釈する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 23.024996971728157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have demonstrated remarkable performance across diverse domains. The key component of Transformers is self-attention, which learns the relationship between any two tokens in the input sequence. Recent studies have revealed that the self-attention can be understood as a normalized adjacency matrix of a graph. Notably, from the perspective of graph signal processing (GSP), the self-attention can be equivalently defined as a simple graph filter, applying GSP using the value vector as the signal. However, the self-attention is a graph filter defined with only the first order of the polynomial matrix, and acts as a low-pass filter preventing the effective leverage of various frequency information. Consequently, existing self-attention mechanisms are designed in a rather simplified manner. Therefore, we propose a novel method, called \underline{\textbf{A}}ttentive \underline{\textbf{G}}raph \underline{\textbf{F}}ilter (AGF), interpreting the self-attention as learning the graph filter in the singular value domain from the perspective of graph signal processing for directed graphs with the linear complexity w.r.t. the input length $n$, i.e., $\mathcal{O}(nd^2)$. In our experiments, we demonstrate that AGF achieves state-of-the-art performance on various tasks, including Long Range Arena benchmark and time series classification.
- Abstract(参考訳): トランスフォーマーは様々な領域で顕著なパフォーマンスを示した。
Transformersのキーコンポーネントは自己アテンションであり、入力シーケンス内の任意の2つのトークン間の関係を学習する。
最近の研究により、自己注意はグラフの正規化隣接行列として理解できることが明らかになった。
特に、グラフ信号処理(GSP)の観点からは、自己注意は単純なグラフフィルタとして等価に定義することができ、信号として値ベクトルを用いてGSPを適用する。
しかし、自己アテンションは多項式行列の第1次のみで定義されるグラフフィルタであり、様々な周波数情報の有効利用を防止するためにローパスフィルタとして機能する。
したがって、既存の自己認識機構は、かなり単純化された方法で設計される。
そこで本稿では, 線形複雑性を持つ有向グラフに対するグラフ信号処理の観点から, グラフフィルタを特異値領域で学習する際の自己注意を解釈し, 入力長$n$, $\mathcal{O}(nd^2)$とする新しい手法を提案する。
実験では,AGFがLong Range Arenaベンチマークや時系列分類など,様々なタスクにおける最先端性能を実現することを実証した。
関連論文リスト
- Gradformer: Graph Transformer with Exponential Decay [69.50738015412189]
グラフ変換器(GT)の自己保持機構は、グラフの帰納バイアス、特に構造に関するバイアスを見落としている。
本稿では,GTと本質的帰納バイアスを革新的に統合するGradformerを提案する。
GradformerはグラフニューラルネットワークやGTベースラインモデルよりも、さまざまなグラフ分類や回帰タスクにおいて一貫して優れています。
論文 参考訳(メタデータ) (2024-04-24T08:37:13Z) - Graph Convolutions Enrich the Self-Attention in Transformers! [23.47074245564352]
本稿では,グラフフィルタに基づく自己注意法(GFSA)を提案する。
GFSAは,コンピュータビジョン,自然言語処理,グラフレベルタスク,音声認識,コード分類など,様々な分野におけるトランスフォーマーの性能向上を実証する。
論文 参考訳(メタデータ) (2023-12-07T11:40:32Z) - Signed Graph Neural Networks: A Frequency Perspective [14.386571627652975]
グラフ畳み込みネットワーク(GCN)は、正のリンクのみを含む符号なしグラフ用に設計されている。
我々は2つの異なる符号付きグラフニューラルネットワークを提案し、その1つは低周波情報のみを保持し、もう1つは高周波情報を保持する。
論文 参考訳(メタデータ) (2022-08-15T16:42:18Z) - Pure Transformers are Powerful Graph Learners [51.36884247453605]
グラフ固有の修正のない標準変換器は、理論と実践の両方において、グラフ学習において有望な結果をもたらす可能性があることを示す。
このアプローチは、理論的には、同変線形層からなる不変グラフネットワーク(2-IGN)と同程度に表現可能であることを証明している。
提案手法は,Tokenized Graph Transformer (TokenGT) を作成した。
論文 参考訳(メタデータ) (2022-07-06T08:13:06Z) - Beyond Low-pass Filtering: Graph Convolutional Networks with Automatic
Filtering [61.315598419655224]
グラフ信号の全スペクトルをキャプチャする自動グラフ畳み込みネットワーク(AutoGCN)を提案する。
グラフスペクトル理論に基づいているが、私たちのAutoGCNも空間に局在しており、空間形式を持っている。
論文 参考訳(メタデータ) (2021-07-10T04:11:25Z) - Message Passing in Graph Convolution Networks via Adaptive Filter Banks [81.12823274576274]
我々は BankGCN と呼ばれる新しいグラフ畳み込み演算子を提案する。
グラフ上のマルチチャネル信号をサブスペースに分解し、各サブスペース内の特定の情報を適応フィルタで処理する。
ベンチマークグラフデータセットの集合におけるグラフ分類における優れたパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-06-18T04:23:34Z) - Dirichlet Graph Variational Autoencoder [65.94744123832338]
本稿では,グラフクラスタメンバシップを潜在因子とするDGVAE(Dirichlet Graph Variational Autoencoder)を提案する。
バランスグラフカットにおける低パス特性により、入力グラフをクラスタメンバシップにエンコードする、Heattsと呼ばれるGNNの新しい変種を提案する。
論文 参考訳(メタデータ) (2020-10-09T07:35:26Z) - Block-Approximated Exponential Random Graphs [77.4792558024487]
指数乱グラフ(ERG)の分野における重要な課題は、大きなグラフ上の非自明なERGの適合である。
本稿では,非自明なERGに対する近似フレームワークを提案する。
我々の手法は、数百万のノードからなるスパースグラフにスケーラブルである。
論文 参考訳(メタデータ) (2020-02-14T11:42:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。