論文の概要: How Smoothing is N-simplicial Attention?
- arxiv url: http://arxiv.org/abs/2512.15600v1
- Date: Wed, 17 Dec 2025 17:10:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.067122
- Title: How Smoothing is N-simplicial Attention?
- Title(参考訳): N-simplicial Attentionはいかにスムースか?
- Authors: Alexandre Dussolle, Pietro Liò,
- Abstract要約: N-simplicial attention, go to pairwise token similarity to higher-order interaction, and adapt it for Rotary Position Embeddings (RoPE)。
複雑性の増大を管理するため,計算負荷をタスクに敏感なインタラクションに集中させることができるコスト効率のよい単純な選択法を提案する。
- 参考スコア(独自算出の注目度): 57.21791642118324
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Going from pure Multilayer Perceptron (MLP) to a learnable graph message-passing mechanism at each layer has been foundational to state-of-the-art results, despite the computational trade-off (e.g. GATs or Transformers). To go a step further, in this work, we introduce N-simplicial attention, going from pairwise token similarity to higher-order interactions, and adapt it for Rotary Position Embeddings (RoPE). To help manage the increased complexity, we propose a cost-effective simplex selection enabling the model to focus its computation load onto the more task-sensitive interactions. Beyond these core mechanisms, we study how smoothing N-simplicial attention is by deriving a Lipschitz upper-bound and by demonstrating that by itself it also suffers from over-smoothing, despite opening the attention message-passing to higher-order interactions.
- Abstract(参考訳): 純粋な多層パーセプトロン(MLP)から各層での学習可能なグラフメッセージパッシング機構へ移行することは、計算トレードオフ(例えばGATやトランスフォーマー)にもかかわらず、最先端の結果に基礎を置いている。
さらに,本研究において,N-simplicial attention(N-simplicial attention,N-simplicial attention,N-simplicial attention)を導入する。
複雑性の増大を管理するため,計算負荷をタスクに敏感なインタラクションに集中させることができるコスト効率のよい単純な選択法を提案する。
これらの中核的なメカニズムを超えて、N-simplicial attentionのスムーズ化は、Lipschitz上界を導出することによるものであり、高次相互作用への注意メッセージパッシングの開放にもかかわらず、それ自体が過度な平滑化に苦しむことを証明することによって、どのようにしてN-simplicial attentionがスムーズであるかを研究する。
関連論文リスト
- DAPE V2: Process Attention Score as Feature Map for Length Extrapolation [63.87956583202729]
我々は特徴写像としての注意を概念化し、コンピュータビジョンにおける処理方法を模倣するために畳み込み演算子を適用した。
様々な注意関係のモデルに適応できる新しい洞察は、現在のTransformerアーキテクチャがさらなる進化の可能性があることを示している。
論文 参考訳(メタデータ) (2024-10-07T07:21:49Z) - MLP Can Be A Good Transformer Learner [73.01739251050076]
自己保持機構はトランスフォーマーの鍵であるが、その計算要求に対してしばしば批判される。
本稿では,非重要注意層を選択的に除去することで,視覚変換器の簡易化と計算負荷削減を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-08T16:40:15Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - Parameterization of Cross-Token Relations with Relative Positional
Encoding for Vision MLP [52.25478388220691]
視覚多層パーセプトロン(MLP)はコンピュータビジョンタスクにおいて有望な性能を示す。
トークンミキシングレイヤを使用して、トランスフォーマーが使用するマルチヘッド自己保持機構とは対照的に、クロストークンインタラクションをキャプチャする。
トークン混合のためのクロストークン関係を効率的に符号化する新しい位置空間ゲーティングユニット(PoSGU)を提案する。
論文 参考訳(メタデータ) (2022-07-15T04:18:06Z) - Rethinking Query-Key Pairwise Interactions in Vision Transformers [5.141895475956681]
本稿では,問合せキーの対の相互作用を排除し,注意重みを求めるために計算効率の高い相性ゲートを用いるキーオンリーの注意を提案する。
我々は、ImageNet分類ベンチマークのパラメータ限定設定において、最先端の精度に達する新しい自己注意モデルファミリーLinGlosを開発した。
論文 参考訳(メタデータ) (2022-07-01T03:36:49Z) - GraphFM: Graph Factorization Machines for Feature Interaction Modeling [27.307086868266012]
本稿では,グラフ構造の特徴を自然に表現し,グラフ因子化マシン(GraphFM)を提案する。
特に,有用な特徴間相互作用を選択し,特徴間のエッジとして定式化する機構を設計する。
提案モデルでは, FMの相互作用関数をグラフニューラルネットワーク(GNN)の特徴集約戦略に統合する。
論文 参考訳(メタデータ) (2021-05-25T12:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。