論文の概要: Conformal Transformations for Symmetric Power Transformers
- arxiv url: http://arxiv.org/abs/2503.03269v1
- Date: Wed, 05 Mar 2025 08:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:53:18.053192
- Title: Conformal Transformations for Symmetric Power Transformers
- Title(参考訳): 対称変圧器の等角変換
- Authors: Saurabh Kumar, Jacob Buckman, Carles Gelada, Sean Zhang,
- Abstract要約: 線形注意を持つ変圧器はソフトマックスベースの変圧器よりも計算上の優位性があるが、しばしば劣化性能に悩まされる。
本稿では,データ依存型乗算ゲーティングを用いてキャパシティを解放し,データ依存型回転埋め込みを用いて情報を適応的に記憶する共形シンポウ変換器を提案する。
LongCrawl64データセットの予備実験では、共形シンポウはシンポウトランスフォーマーの限界を克服し、スケールしたトレーニングと評価コンテキストにわたって堅牢なパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 6.9368778550748065
- License:
- Abstract: Transformers with linear attention offer significant computational advantages over softmax-based transformers but often suffer from degraded performance. The symmetric power (sympow) transformer, a particular type of linear transformer, addresses some of this performance gap by leveraging symmetric tensor embeddings, achieving comparable performance to softmax transformers. However, the finite capacity of the recurrent state in sympow transformers limits their ability to retain information, leading to performance degradation when scaling the training or evaluation context length. To address this issue, we propose the conformal-sympow transformer, which dynamically frees up capacity using data-dependent multiplicative gating and adaptively stores information using data-dependent rotary embeddings. Preliminary experiments on the LongCrawl64 dataset demonstrate that conformal-sympow overcomes the limitations of sympow transformers, achieving robust performance across scaled training and evaluation contexts.
- Abstract(参考訳): 線形注意を持つ変圧器はソフトマックスベースの変圧器よりも計算上の優位性があるが、しばしば劣化性能に悩まされる。
対称パワー変換器(シンポウ変換器)は、対称テンソル埋め込みを活用し、ソフトマックス変換器に匹敵する性能を達成することで、この性能ギャップのいくつかに対処する。
しかし、シンポウ変圧器におけるリカレント状態の有限容量は情報保持能力を制限し、トレーニングや評価コンテキスト長のスケーリング時に性能劣化を引き起こす。
この問題を解決するために,データ依存型乗算ゲーティングを用いて動的に容量を解放し,データ依存型回転埋め込みを用いて情報を適応的に記憶する共形シンポウ変換器を提案する。
LongCrawl64データセットの予備実験では、共形シンポウはシンポウトランスフォーマーの限界を克服し、スケールしたトレーニングと評価コンテキストにわたって堅牢なパフォーマンスを実現する。
関連論文リスト
- Adaptive Pruning of Pretrained Transformer via Differential Inclusions [48.47890215458465]
現在の圧縮アルゴリズムは一定の圧縮比でプルーーン変換器であり、各比に対して独自のプルーニングプロセスを必要とする。
本研究では,マスクパラメータの差分包摂性に基づいて,事前学習した変圧器を1つのプルーニング段階内において任意の所望の比率でプルーニングすることを提案する。
このダイナミクスは、ネットワーク構造を識別するサポートセットを持つマスクパラメータの全体正規化ソリューションパスを生成することができる。
論文 参考訳(メタデータ) (2025-01-06T06:34:52Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - Approximation and Estimation Ability of Transformers for
Sequence-to-Sequence Functions with Infinite Dimensional Input [50.83356836818667]
無限次元入力を持つシーケンス・ツー・シーケンス関数として変換器の近似と推定能力について検討する。
我々の理論的結果は、高次元データに対する変換器の実用的成功を支持する。
論文 参考訳(メタデータ) (2023-05-30T02:44:49Z) - Momentum Transformer: Closing the Performance Gap Between Self-attention
and Its Linearization [31.28396970291575]
効率の良い変圧器は、変圧器の二次的な複雑さを減らすために提案されているが、精度は著しく低下している。
まず、勾配降下ステップとして注目マップの計算における線形注意と残差接続を解釈する。
次に、これらの成分に運動量を導入し、線形メモリと計算複雑性を維持しつつ、線形変圧器の精度を向上させるために運動量を利用するエンファンモーメント変換器を提案する。
論文 参考訳(メタデータ) (2022-08-01T02:37:49Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - Scalable Transformers for Neural Machine Translation [86.4530299266897]
トランスフォーマーは、そのキャパシティとシーケンス生成の並列トレーニングのため、ニューラルネットワーク翻訳(NMT)で広く採用されている。
本稿では,異なるスケールのサブトランスフォーマーを自然に含み,パラメータを共有できる,スケーラブルなトランスフォーマーを提案する。
スケーラブルトランスフォーマーのトレーニングの難しさに対処する3段階のトレーニングスキームが提案されている。
論文 参考訳(メタデータ) (2021-06-04T04:04:10Z) - Finetuning Pretrained Transformers into RNNs [81.72974646901136]
トランスフォーマーは自然言語生成においてリカレントニューラルネットワーク(RNN)を上回っている。
線形複雑リカレント変種は自己回帰生成に適していることが証明されている。
この研究は、事前訓練された変換器を効率の良い再帰変換器に変換することを目的としている。
論文 参考訳(メタデータ) (2021-03-24T10:50:43Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。