論文の概要: From block-Toeplitz matrices to differential equations on graphs:
towards a general theory for scalable masked Transformers
- arxiv url: http://arxiv.org/abs/2107.07999v8
- Date: Tue, 28 Mar 2023 03:50:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 20:22:06.793242
- Title: From block-Toeplitz matrices to differential equations on graphs:
towards a general theory for scalable masked Transformers
- Title(参考訳): ブロック・トゥープリッツ行列からグラフ上の微分方程式へ:スケーラブルマスク変換器の一般理論に向けて
- Authors: Krzysztof Choromanski, Han Lin, Haoxian Chen, Tianyi Zhang, Arijit
Sehanobish, Valerii Likhosherstov, Jack Parker-Holder, Tamas Sarlos, Adrian
Weller, Thomas Weingarten
- Abstract要約: 線形因果的注意に関する最近の結果は、この一般的なメカニズムの特別な事例であることを示す。
この問題を無作為な注意のトポロジカルな(グラフに基づく)変調としてキャストすることで、以前にも知られていなかったいくつかの結果が得られる。
- 参考スコア(独自算出の注目度): 44.074479731587786
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper we provide, to the best of our knowledge, the first
comprehensive approach for incorporating various masking mechanisms into
Transformers architectures in a scalable way. We show that recent results on
linear causal attention (Choromanski et al., 2021) and log-linear RPE-attention
(Luo et al., 2021) are special cases of this general mechanism. However by
casting the problem as a topological (graph-based) modulation of unmasked
attention, we obtain several results unknown before, including efficient
d-dimensional RPE-masking and graph-kernel masking. We leverage many
mathematical techniques ranging from spectral analysis through dynamic
programming and random walks to new algorithms for solving Markov processes on
graphs. We provide a corresponding empirical evaluation.
- Abstract(参考訳): 本稿では,我々の知識を最大限に活用し,様々なマスキング機構をスケーラブルな方法でトランスフォーマーアーキテクチャに組み込むための,最初の包括的アプローチを提案する。
近年の線形因果注意(choromanski et al., 2021)と対数線形rpe-attention(luo et al., 2021)は,この一般的なメカニズムの特別な例である。
しかし,未発見の注意を位相的(グラフベース)に変調させることにより,d-次元の効率的なrpeマスキングやグラフケネルマスキングなど,以前に不明ないくつかの結果が得られる。
我々は、スペクトル解析から動的プログラミング、ランダムウォーク、マルコフ過程をグラフ上で解くための新しいアルゴリズムまで、多くの数学的手法を活用している。
我々は対応する経験的評価を提供する。
関連論文リスト
- Convergence Guarantees for the DeepWalk Embedding on Block Models [9.898607871253775]
ブロックモデル(SBM)から得られたグラフ上でDeepWalkアルゴリズムの使い方を示す。
単純化されているにもかかわらず、SBMは大きなグラフ上のアルゴリズムを解析するための古典的なモデルであることが証明されている。
論文 参考訳(メタデータ) (2024-10-26T18:35:11Z) - Optimizing Attention with Mirror Descent: Generalized Max-Margin Token Selection [6.759148939470332]
アルゴリズムは、$ell_p$-normの目的を持つハードマージンSVMに収束することを示す。
具体的には、これらのアルゴリズムは、$ell_p$-normの目的を持つ一般化されたハードマージンSVMに収束することを示す。
論文 参考訳(メタデータ) (2024-10-18T16:32:06Z) - Linear Transformer Topological Masking with Graph Random Features [52.717865653036796]
重み付き隣接行列の学習可能な関数としてトポロジカルマスクをパラメータ化する方法を示す。
私たちの効率的なマスキングアルゴリズムは、画像およびポイントクラウドデータのタスクに対して、強力なパフォーマンス向上を提供します。
論文 参考訳(メタデータ) (2024-10-04T14:24:06Z) - Quantum Maximum Entropy Inference and Hamiltonian Learning [4.9614587340495]
この研究は、最大エントロピー推論とグラフィカルモデルの学習のためのアルゴリズムを量子領域に拡張する。
量子反復スケーリング(QIS)として知られる一般化は単純であるが、重要な課題は量子問題インスタンスの非可換性にある。
準ニュートン法によるQISとGDの性能向上について検討する。
論文 参考訳(メタデータ) (2024-07-16T08:11:34Z) - Discrete Graph Auto-Encoder [52.50288418639075]
離散グラフオートエンコーダ(DGAE)という新しいフレームワークを導入する。
まず、置換同変オートエンコーダを用いてグラフを離散潜在ノード表現の集合に変換する。
2番目のステップでは、離散潜在表現の集合をソートし、特別に設計された自己回帰モデルを用いてそれらの分布を学習する。
論文 参考訳(メタデータ) (2023-06-13T12:40:39Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Joint Network Topology Inference via Structured Fusion Regularization [70.30364652829164]
結合ネットワークトポロジ推論は、異種グラフ信号から複数のグラフラプラシア行列を学習する標準的な問題を表す。
新規な構造化融合正規化に基づく一般グラフ推定器を提案する。
提案するグラフ推定器は高い計算効率と厳密な理論保証の両方を享受できることを示す。
論文 参考訳(メタデータ) (2021-03-05T04:42:32Z) - Generalized Matrix Factorization: efficient algorithms for fitting
generalized linear latent variable models to large data arrays [62.997667081978825]
一般化線形潜在変数モデル(GLLVM)は、そのような因子モデルを非ガウス応答に一般化する。
GLLVMのモデルパラメータを推定する現在のアルゴリズムは、集約的な計算を必要とし、大規模なデータセットにスケールしない。
本稿では,GLLVMを高次元データセットに適用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-06T04:28:19Z) - Scaling Graph Clustering with Distributed Sketches [1.1011268090482575]
スペクトルクラスタリングにインスパイアされた手法として,ランダムな次元還元プロジェクションから得られた行列スケッチを用いる。
提案手法は,完全に動的なブロックモデルストリームが与えられた場合,性能の高いクラスタリング結果が得られる埋め込みを生成する。
また、ブロックモデルパラメータがその後の埋め込みの必要次元に与える影響についても検討し、ランダムなプロジェクションが分散メモリにおけるグラフクラスタリングの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2020-07-24T17:38:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。