論文の概要: How Particle-System Random Batch Methods Enhance Graph Transformer: Memory Efficiency and Parallel Computing Strategy
- arxiv url: http://arxiv.org/abs/2511.06044v1
- Date: Sat, 08 Nov 2025 15:34:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:44.724932
- Title: How Particle-System Random Batch Methods Enhance Graph Transformer: Memory Efficiency and Parallel Computing Strategy
- Title(参考訳): グラフ変換器の粒子系ランダムバッチ法:メモリ効率と並列計算戦略
- Authors: Hanwen Liu, Yixuan Ma, Shi Jin, Yuguang Wang,
- Abstract要約: 我々は,Random Batch Attention(RBA)を,その表現性を維持する能力の理論的支持を有する線形自己注意機構として提案した。
RBAには以下のいくつかの重要な強みがある。
新しい次元で並列に実装できるため、メモリの節約に寄与する。
- 参考スコア(独自算出の注目度): 39.666337901651865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanism is a significant part of Transformer models. It helps extract features from embedded vectors by adding global information and its expressivity has been proved to be powerful. Nevertheless, the quadratic complexity restricts its practicability. Although several researches have provided attention mechanism in sparse form, they are lack of theoretical analysis about the expressivity of their mechanism while reducing complexity. In this paper, we put forward Random Batch Attention (RBA), a linear self-attention mechanism, which has theoretical support of the ability to maintain its expressivity. Random Batch Attention has several significant strengths as follows: (1) Random Batch Attention has linear time complexity. Other than this, it can be implemented in parallel on a new dimension, which contributes to much memory saving. (2) Random Batch Attention mechanism can improve most of the existing models by replacing their attention mechanisms, even many previously improved attention mechanisms. (3) Random Batch Attention mechanism has theoretical explanation in convergence, as it comes from Random Batch Methods on computation mathematics. Experiments on large graphs have proved advantages mentioned above. Also, the theoretical modeling of self-attention mechanism is a new tool for future research on attention-mechanism analysis.
- Abstract(参考訳): 注意機構はTransformerモデルの重要な部分である。
グローバルな情報を加えて埋め込みベクトルから特徴を抽出するのに役立ち、その表現性は強力であることが証明されている。
しかし、二次的な複雑さは、その実行可能性を制限する。
いくつかの研究はスパース形式での注意機構を提供してきたが、複雑さを減らしながらそのメカニズムの表現性に関する理論的分析を欠いている。
本稿では,リニア自己注意機構であるRandom Batch Attention(RBA)について述べる。
ランダムバッチ注意(Random Batch Attention) (1) ランダムバッチ注意(Random Batch Attention)は線形時間複雑性を持つ。
これ以外は、新しい次元で並列に実装できるため、メモリの節約に寄与する。
2) ランダムバッチ・アテンション機構は,従来のアテンション機構を置き換えることで,既存のモデルの多くを改善することができる。
(3)ランダムバッチアテンション機構は、計算数学におけるランダムバッチ法(Random Batch Methods)から導かれるように、収束の理論的な説明を持つ。
大きなグラフの実験では、上記の利点が証明されている。
また,自己注意機構の理論モデリングは,今後の注目・機械分析研究のための新しいツールである。
関連論文リスト
- Transformers Learn Faster with Semantic Focus [57.97235825738412]
学習性と一般化の観点からスパース変圧器について検討する。
入力依存のスパースアテンションモデルは、標準アテンションモデルよりも早く収束し、より一般化しているように見える。
論文 参考訳(メタデータ) (2025-06-17T01:19:28Z) - Are queries and keys always relevant? A case study on Transformer wave functions [0.0]
ドット製品アテンションメカニズム(ドット製品アテンションメカニズム)は、元々自然言語処理タスク用に設計されたもので、現代のトランスフォーマーの基盤となっている。
本稿では,変分波動関数のパラメトリゼーションの特定の領域において,トランスフォーマーの適応性について検討する。
論文 参考訳(メタデータ) (2024-05-29T08:32:37Z) - Self-attention Networks Localize When QK-eigenspectrum Concentrates [9.379890125442335]
自己認識メカニズムは、現代の機械学習で一般的である。
2つの議論が、モデルのパフォーマンスに注意を向けるローカライゼーションを結び付けている。
我々は,小さな固有スペクトルの分散が注意を局所化させることを示した。
論文 参考訳(メタデータ) (2024-02-03T09:35:53Z) - How Much Does Attention Actually Attend? Questioning the Importance of
Attention in Pretrained Transformers [59.57128476584361]
本稿では,入力依存型アテンション行列を一定値に置き換える新しい探索手法PAPAを紹介する。
入力依存の注意を払わずに、全てのモデルが競争性能を達成できることがわかった。
より弱いモデルよりも、我々の手法を適用することでより良い性能のモデルが失われることが示され、入力依存の注意機構の利用がその成功の要因である可能性が示唆された。
論文 参考訳(メタデータ) (2022-11-07T12:37:54Z) - Understanding Interlocking Dynamics of Cooperative Rationalization [90.6863969334526]
選択的合理化(Selective rationalization)は、ニューラルネットワークの出力を予測するのに十分な入力の小さなサブセットを見つけることによって、複雑なニューラルネットワークの予測を説明する。
このような合理化パラダイムでは,モデルインターロックという大きな問題が浮かび上がっている。
A2Rと呼ばれる新しい合理化フレームワークを提案し、アーキテクチャに第3のコンポーネントを導入し、選択とは対照的にソフトアテンションによって駆動される予測器を提案する。
論文 参考訳(メタデータ) (2021-10-26T17:39:18Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z) - Is Attention All What You Need? -- An Empirical Investigation on
Convolution-Based Active Memory and Self-Attention [7.967230034960396]
各種能動記憶機構がトランスフォーマーの自己注意に取って代わるかどうかを評価する。
実験の結果、アクティブメモリだけで言語モデリングの自己認識機構に匹敵する結果が得られることが示唆された。
特定のアルゴリズムタスクでは、アクティブメモリメカニズムだけで、自己注意とこれら2つの組み合わせよりも優れています。
論文 参考訳(メタデータ) (2019-12-27T02:01:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。