論文の概要: Expanding Expressivity in Transformer Models with MöbiusAttention
- arxiv url: http://arxiv.org/abs/2409.12175v1
- Date: Sun, 8 Sep 2024 16:56:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:12:27.957391
- Title: Expanding Expressivity in Transformer Models with MöbiusAttention
- Title(参考訳): メビウスアテンションを持つ変圧器モデルにおける拡張表現性
- Authors: Anna-Maria Halacheva, Mojtaba Nayyeri, Steffen Staab,
- Abstract要約: M"obiusAttentionは、Transformerベースのモデルの注意機構にM"obius変換を統合する。
これらの性質を取り入れることで、M"obiusAttention はトークン間のより複雑な幾何学的関係を学習するモデルに権限を与える。
- 参考スコア(独自算出の注目度): 17.163751713885013
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attention mechanisms and Transformer architectures have revolutionized Natural Language Processing (NLP) by enabling exceptional modeling of long-range dependencies and capturing intricate linguistic patterns. However, their inherent reliance on linear operations in the form of matrix multiplications limits their ability to fully capture inter-token relationships on their own. We propose M\"obiusAttention, a novel approach that integrates M\"obius transformations within the attention mechanism of Transformer-based models. M\"obius transformations are non-linear operations in spaces over complex numbers with the ability to map between various geometries. By incorporating these properties, M\"obiusAttention empowers models to learn more intricate geometric relationships between tokens and capture a wider range of information through complex-valued weight vectors. We build and pre-train a BERT and a RoFormer version enhanced with M\"obiusAttention, which we then finetune on the GLUE benchmark. We evaluate empirically our approach against the baseline BERT and RoFormer models on a range of downstream tasks. Our approach compares favorably against the baseline models, even with smaller number of parameters suggesting the enhanced expressivity of M\"obiusAttention. This research paves the way for exploring the potential of M\"obius transformations in the complex projective space to enhance the expressivity and performance of foundation models.
- Abstract(参考訳): 注意機構とトランスフォーマーアーキテクチャは、長距離依存の例外的なモデリングと複雑な言語パターンのキャプチャを可能にし、自然言語処理(NLP)に革命をもたらした。
しかし、行列乗法(英語版)の形での線形演算に固有の依存は、彼ら自身でトーケン間の関係を完全に捉える能力を制限している。
我々は、トランスフォーマーモデルにおける注意機構にM\"obius変換を統合する新しいアプローチであるM\"obiusAttentionを提案する。
M\ "obius transformation" は複素数上の空間における非線形演算であり、様々な測地の間に写像する能力を持つ。
これらの特性を取り入れることで、M\"obiusAttentionは、トークン間のより複雑な幾何学的関係を学習し、複雑な値の重みベクトルを通してより広い範囲の情報を取得することができる。
We build and pre-train a BERT and a RoFormer version enhanced with M\"obiusAttention, then finetune on the GLUE benchmark。
下流タスクにおけるBERTモデルとRoFormerモデルに対する我々のアプローチを実証的に評価する。
提案手法は,M\"obiusAttention"の表現性の向上を示唆するパラメータの数が少なくても,ベースラインモデルと良好に比較できる。
本研究は, 基礎モデルの表現性と性能を高めるため, 複素射影空間における「ビオビス変換」の可能性を探究する手法である。
関連論文リスト
- Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - GeoMFormer: A General Architecture for Geometric Molecular Representation Learning [84.02083170392764]
我々はこの目的を達成するためにGeoMFormerと呼ばれるトランスフォーマーに基づく新しい分子モデルを導入する。
我々は,GeoMFormerが,異なる型やスケールの不変タスクと同変タスクの両方において,高い性能を達成することを示す。
論文 参考訳(メタデータ) (2024-06-24T17:58:13Z) - Optimal Matrix-Mimetic Tensor Algebras via Variable Projection [0.0]
行列緩和性(Matrix mimeticity)は、テンソルを、行列に類似した乗算、分解、解析が可能な作用素として解釈することから生じる。
我々は、データの事前の知識に頼ることなく、最適線形写像と対応するテンソル表現を学習する。
可変射影型アルゴリズムの変換と収束解析の独創性理論を提供する。
論文 参考訳(メタデータ) (2024-06-11T04:52:23Z) - Shape Arithmetic Expressions: Advancing Scientific Discovery Beyond Closed-Form Equations [56.78271181959529]
GAM(Generalized Additive Models)は、変数とターゲットの間の非線形関係をキャプチャできるが、複雑な特徴相互作用をキャプチャすることはできない。
本稿では,GAMのフレキシブルな形状関数と,数学的表現に見られる複雑な特徴相互作用を融合させる形状表現算術(SHARE)を提案する。
また、標準制約を超えた表現の透明性を保証するSHAREを構築するための一連のルールを設計する。
論文 参考訳(メタデータ) (2024-04-15T13:44:01Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - M\"{o}bius Convolutions for Spherical CNNs [26.91151736538527]
M"オビウス変換は、幾何学と球面画像処理の両方において重要な役割を果たす。
以下、M"obius-equivariant spherical convolution operatorについて述べる。
形状分類と画像分割の両タスクにおいて有望な結果を得ることにより,その実用性を実証する。
論文 参考訳(メタデータ) (2022-01-28T16:11:47Z) - Disentangled Representation Learning and Generation with Manifold
Optimization [10.69910379275607]
本研究は,変分方向の促進による絡み合いを明確に促進する表現学習フレームワークを提案する。
理論的な議論と様々な実験により、提案モデルは、生成品質と非絡み合い表現学習の両方の観点から、多くのVAE変種よりも改善されていることが示された。
論文 参考訳(メタデータ) (2020-06-12T10:00:49Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z) - Inverse Learning of Symmetries [71.62109774068064]
2つの潜在部分空間からなるモデルで対称性変換を学ぶ。
我々のアプローチは、情報ボトルネックと連続的な相互情報正規化器の組み合わせに基づいています。
我々のモデルは, 人工的および分子的データセットにおける最先端の手法より優れている。
論文 参考訳(メタデータ) (2020-02-07T13:48:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。