論文の概要: What Dense Graph Do You Need for Self-Attention?
- arxiv url: http://arxiv.org/abs/2205.14014v1
- Date: Fri, 27 May 2022 14:36:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-30 12:21:06.210168
- Title: What Dense Graph Do You Need for Self-Attention?
- Title(参考訳): 自己注意に必要なのはどんなDense Graphか?
- Authors: Yuxing Wang, Chu-Tak Lee, Qipeng Guo, Zhangyue Yin, Yunhua Zhou,
Xuanjing Huang, Xipeng Qiu
- Abstract要約: 我々はハイパーキューブにおけるトークンインタラクションをモデル化し、バニラ変換器と同等あるいはそれ以上の結果を示すスパーストランスフォーマーHypercube Transformerを提案する。
様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をうまく行いました。
- 参考スコア(独自算出の注目度): 73.82686008622596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have made progress in miscellaneous tasks, but suffer from
quadratic computational and memory complexities. Recent works propose sparse
Transformers with attention on sparse graphs to reduce complexity and remain
strong performance. While effective, the crucial parts of how dense a graph
needs to be to perform well are not fully explored. In this paper, we propose
Normalized Information Payload (NIP), a graph scoring function measuring
information transfer on graph, which provides an analysis tool for trade-offs
between performance and complexity. Guided by this theoretical analysis, we
present Hypercube Transformer, a sparse Transformer that models token
interactions in a hypercube and shows comparable or even better results with
vanilla Transformer while yielding $O(N\log N)$ complexity with sequence length
$N$. Experiments on tasks requiring various sequence lengths lay validation for
our graph function well.
- Abstract(参考訳): トランスフォーマーは様々なタスクで進歩してきたが、二次計算とメモリの複雑さに苦しんでいる。
近年の研究では,スパースグラフに着目したスパーストランスフォーマーが提案されている。
効果的ではあるが、グラフをうまく機能させるために必要な重要な部分は十分に検討されていない。
本稿では,グラフ上での情報伝達を測定するグラフスコアリング機能である正規化情報ペイロード(nip)を提案する。
この理論解析で導かれたハイパーキューブ変換器は、ハイパーキューブ内のトークン相互作用をモデル化し、バニラ変換器と同等またはそれ以上の結果を示すスパース変換器であり、配列長が$N$の複雑さを持つ$O(N\log N)$である。
様々なシーケンス長を必要とするタスクの実験は、グラフ関数の検証をよく行います。
関連論文リスト
- Masked Graph Transformer for Large-Scale Recommendation [56.37903431721977]
本稿では, MGFormer という名前の効率的な Masked Graph Transformer を提案する。
実験の結果,単一注意層でもMGFormerの優れた性能が得られた。
論文 参考訳(メタデータ) (2024-05-07T06:00:47Z) - SpikeGraphormer: A High-Performance Graph Transformer with Spiking Graph Attention [1.4126245676224705]
Graph Transformerは、Graph Neural Networks(GNN)固有の制限を軽減するための、有望なソリューションとして登場した。
本稿では,SNNとグラフ変換器の統合に関する新たな知見を提案し,Spiking Graph Attention (SGA) モジュールを設計する。
SpikeGraphormerは、さまざまなデータセットにわたる既存の最先端アプローチを一貫して上回る。
論文 参考訳(メタデータ) (2024-03-21T03:11:53Z) - Deep Prompt Tuning for Graph Transformers [55.2480439325792]
ファインチューニングはリソース集約型であり、大きなモデルのコピーを複数保存する必要がある。
ファインチューニングの代替として,ディープグラフプロンプトチューニングと呼ばれる新しい手法を提案する。
事前学習したパラメータを凍結し、追加したトークンのみを更新することにより、フリーパラメータの数を減らし、複数のモデルコピーを不要にする。
論文 参考訳(メタデータ) (2023-09-18T20:12:17Z) - SGFormer: Simplifying and Empowering Transformers for Large-Graph Representations [75.71298846760303]
ノード特性予測ベンチマークにおいて,一層注意が驚くほど高い性能を示すことを示す。
提案手法をSGFormer (Simplified Graph Transformer) と呼ぶ。
提案手法は,大きなグラフ上にトランスフォーマーを構築する上で,独立性のある新たな技術パスを啓蒙するものである。
論文 参考訳(メタデータ) (2023-06-19T08:03:25Z) - Pure Transformers are Powerful Graph Learners [51.36884247453605]
グラフ固有の修正のない標準変換器は、理論と実践の両方において、グラフ学習において有望な結果をもたらす可能性があることを示す。
このアプローチは、理論的には、同変線形層からなる不変グラフネットワーク(2-IGN)と同程度に表現可能であることを証明している。
提案手法は,Tokenized Graph Transformer (TokenGT) を作成した。
論文 参考訳(メタデータ) (2022-07-06T08:13:06Z) - Transformers Generalize DeepSets and Can be Extended to Graphs and
Hypergraphs [15.844680924751984]
我々は、任意の順序置換不変データ(集合、グラフ、ハイパーグラフ)への変換器の一般化を提案する。
特に,カーネルアテンションを持つスパース2階変圧器は,メッセージパッシング操作よりも理論的に表現力が高いことを示す。
我々のモデルは、大規模グラフ回帰および集合-to-(ハイパー)グラフ予測タスクにおいて、不変性やメッセージパスグラフニューラルネットワークよりも大幅に改善されている。
論文 参考訳(メタデータ) (2021-10-27T13:20:05Z) - Gophormer: Ego-Graph Transformer for Node Classification [27.491500255498845]
本稿では,egoグラフにフルグラフの代わりにトランスフォーマーを適用した新しいGophormerモデルを提案する。
具体的には、変圧器の入力としてエゴグラフをサンプリングするためにNode2Seqモジュールが提案されており、スケーラビリティの課題が軽減されている。
エゴグラフサンプリングで導入された不確実性に対処するために,一貫性の正則化とマルチサンプル推論戦略を提案する。
論文 参考訳(メタデータ) (2021-10-25T16:43:32Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。