論文の概要: THG: Transformer with Hyperbolic Geometry
- arxiv url: http://arxiv.org/abs/2106.07350v1
- Date: Tue, 1 Jun 2021 14:09:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-20 16:04:44.473989
- Title: THG: Transformer with Hyperbolic Geometry
- Title(参考訳): THG:双曲幾何変換器
- Authors: Zhe Liu and Yibin Xu
- Abstract要約: X-former"モデルは、自己注意の2次時間とメモリの複雑さにのみ変更を加える。
ユークリッド空間と双曲空間の両方の利点を生かした,双曲幾何モデル(THG)を提案する。
- 参考スコア(独自算出の注目度): 8.895324519034057
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer model architectures have become an indispensable staple in deep
learning lately for their effectiveness across a range of tasks. Recently, a
surge of "X-former" models have been proposed which improve upon the original
Transformer architecture. However, most of these variants make changes only
around the quadratic time and memory complexity of self-attention, i.e. the dot
product between the query and the key. What's more, they are calculate solely
in Euclidean space. In this work, we propose a novel Transformer with
Hyperbolic Geometry (THG) model, which take the advantage of both Euclidean
space and Hyperbolic space. THG makes improvements in linear transformations of
self-attention, which are applied on the input sequence to get the query and
the key, with the proposed hyperbolic linear. Extensive experiments on sequence
labeling task, machine reading comprehension task and classification task
demonstrate the effectiveness and generalizability of our model. It also
demonstrates THG could alleviate overfitting.
- Abstract(参考訳): トランスフォーマーモデルアーキテクチャは、近年、さまざまなタスクにまたがる効果のために、ディープラーニングにおいて必須の要素となっている。
近年、オリジナルのトランスフォーマーアーキテクチャを改良した「xフォーマー」モデルの急増が提案されている。
しかし、これらの変種のほとんどは2次時間と自己注意のメモリ複雑性にのみ変化を起こす。
クエリとキーの間のドット製品。
さらに、それらはユークリッド空間でのみ計算されます。
本研究では, ユークリッド空間と双曲空間の両方の利点を生かした, 双曲幾何を用いたトランスフォーマー(THG)モデルを提案する。
thgは、クエリとキーを取得するために入力シーケンスに適用され、提案された双曲線形を用いて自己アテンションの線形変換を改善する。
シーケンスラベリングタスク,機械読解タスク,分類タスクに関する広範な実験により,本モデルの有効性と汎用性が示された。
また、thgが過剰フィッティングを緩和できることも示している。
関連論文リスト
- Hypformer: Exploring Efficient Hyperbolic Transformer Fully in Hyperbolic Space [47.4014545166959]
双曲幾何学のローレンツモデルに基づく新しい双曲変換器Hypformerを導入する。
我々は,双曲空間における線形自己保持機構を開発し,双曲変換器が数十億のグラフデータと時系列入力を初めて処理できるようにする。
論文 参考訳(メタデータ) (2024-07-01T13:44:38Z) - EulerFormer: Sequential User Behavior Modeling with Complex Vector Attention [88.45459681677369]
複素ベクトル注意を持つ新しい変圧器変圧器(EulerFormer)を提案する。
意味的差と位置的差の両方を定式化するための統一的な理論的枠組みを提供する。
意味的変動に対してより堅牢であり、原理上はより上述の理論的性質を持つ。
論文 参考訳(メタデータ) (2024-03-26T14:18:43Z) - Do Efficient Transformers Really Save Computation? [32.919672616480135]
我々は、効率的な変換器、特にスパース変換器と線形変換器の機能と限界に焦点を当てる。
以上の結果から,これらのモデルは一般のDPタスクを解くのに十分な表現力を持っているが,期待とは裏腹に,問題のサイズに合わせてスケールするモデルサイズが必要であることが示唆された。
我々は,これらのモデルが標準のTransformerよりも効率的であるようなDP問題のクラスを同定する。
論文 参考訳(メタデータ) (2024-02-21T17:00:56Z) - Hiformer: Heterogeneous Feature Interactions Learning with Transformers
for Recommender Systems [27.781785405875084]
本稿では,トランスフォーマーをベースとしたアーキテクチャに注目層を配置し,機能的インタラクションを自動的にキャプチャする手法を提案する。
我々は,Webスケールレコメンデータシステムにバニラトランスフォーマーアーキテクチャを適用する上で,2つの重要な課題を特定する。
論文 参考訳(メタデータ) (2023-11-10T05:57:57Z) - Sliceformer: Make Multi-head Attention as Simple as Sorting in
Discriminative Tasks [32.33355192614434]
我々は,Sliceformerと呼ばれるトランスフォーマーの効果的かつ効率的なサロゲートを提案する。
我々のスライスフォーマーは、従来のMHA機構を極めて単純なスライシングソーシングの操作で置き換える。
我々のSliceformerは、Transformerとその変種よりもメモリコストが低く、高速な性能を実現しています。
論文 参考訳(メタデータ) (2023-10-26T14:43:07Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Fourier Transformer: Fast Long Range Modeling by Removing Sequence
Redundancy with FFT Operator [24.690247474891958]
フーリエ変換器は、様々な大きな事前訓練されたモデルから継承する能力を維持しながら、計算コストを大幅に削減することができる。
本モデルは,長距離モデリングベンチマークLRAにおいて,トランスフォーマーベースモデル間の最先端性能を実現する。
CNN/DailyMailやELI5などのシークエンシャルなシークエンスタスクでは、BARTを継承することで、私たちのモデルは標準のBARTよりも優れています。
論文 参考訳(メタデータ) (2023-05-24T12:33:06Z) - Full Stack Optimization of Transformer Inference: a Survey [58.55475772110702]
トランスフォーマーモデルは広範囲のアプリケーションにまたがって優れた精度を実現する。
最近のTransformerモデルの推測に必要な計算量と帯域幅は、かなり増加しています。
Transformerモデルをより効率的にすることに注力している。
論文 参考訳(メタデータ) (2023-02-27T18:18:13Z) - Stable, Fast and Accurate: Kernelized Attention with Relative Positional
Encoding [63.539333383965726]
相対的位置符号化(RPE)を用いた変換器の注意計算を高速化する新しい手法を提案する。
相対的な位置符号化がToeplitz行列を形成するという観測に基づいて、Fast Fourier Transform (FFT) を用いて、RPEによるカーネル化された注意を効率的に計算できることを数学的に示す。
論文 参考訳(メタデータ) (2021-06-23T17:51:26Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。