Fugu-MT 論文翻訳(概要): Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers

論文の概要: Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers

arxiv url: http://arxiv.org/abs/2302.01925v2
Date: Wed, 3 Apr 2024 21:24:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 20:51:58.994293
Title: Learning a Fourier Transform for Linear Relative Positional Encodings in Transformers
Title（参考訳）: 変圧器の線形相対的位置符号化のためのフーリエ変換の学習
Authors: Krzysztof Marcin Choromanski, Shanda Li, Valerii Likhosherstov, Kumar Avinava Dubey, Shengjie Luo, Di He, Yiming Yang, Tamas Sarlos, Thomas Weingarten, Adrian Weller,
Abstract要約: 我々はLearner-Transformer (Learners)と呼ばれる線形変換器の新しいクラスを提案する。様々な相対的位置エンコーディング機構(RPE)を組み込んでいる。これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。
参考スコア（独自算出の注目度）: 71.32827362323205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We propose a new class of linear Transformers called FourierLearner-Transformers (FLTs), which incorporate a wide range of relative positional encoding mechanisms (RPEs). These include regular RPE techniques applied for sequential data, as well as novel RPEs operating on geometric data embedded in higher-dimensional Euclidean spaces. FLTs construct the optimal RPE mechanism implicitly by learning its spectral representation. As opposed to other architectures combining efficient low-rank linear attention with RPEs, FLTs remain practical in terms of their memory usage and do not require additional assumptions about the structure of the RPE mask. Besides, FLTs allow for applying certain structural inductive bias techniques to specify masking strategies, e.g. they provide a way to learn the so-called local RPEs introduced in this paper and give accuracy gains as compared with several other linear Transformers for language modeling. We also thoroughly test FLTs on other data modalities and tasks, such as image classification, 3D molecular modeling, and learnable optimizers. To the best of our knowledge, for 3D molecular data, FLTs are the first Transformer architectures providing linear attention and incorporating RPE masking.
Abstract（参考訳）: 本稿では,FourierLearner-Transformers (FLT) と呼ばれる線形変換器を提案する。これらには、シーケンシャルデータに適用される正規の RPE 技術や、高次元ユークリッド空間に埋め込まれた幾何学的データを操作する新しい RPE などが含まれる。 FLTはスペクトル表現を学習することで、最適RPE機構を暗黙的に構築する。効率的な低ランク線形注意とRPEを組み合わせる他のアーキテクチャとは対照的に、FLTはメモリ使用量の観点からも実用的であり、RPEマスクの構造に関する追加の仮定を必要としない。さらに、FLTは特定の構造的帰納バイアス手法を適用してマスキング戦略を指定できる。例えば、この論文で導入された局所的なRPEを学習し、他の言語モデリング用線形変換器と比較すると精度が向上する。また,FLTを画像分類,3次元分子モデリング,学習可能なオプティマイザなど,他のデータモダリティやタスクで徹底的にテストする。我々の知る限り、3次元分子データにとって、FLTは線形注意とRPEマスキングを取り入れた最初のトランスフォーマーアーキテクチャである。

関連論文リスト

Revisiting LRP: Positional Attribution as the Missing Ingredient for Transformer Explainability [53.21677928601684]
階層的関連性伝播は、ディープラーニングにおける説明可能性に対する最も有望なアプローチの1つである。そこで我々は,様々な位置符号化手法にまたがる属性の伝播を目的とした,理論的なLRP規則を提案する。本手法は,視力とNLP説明可能性の両面において,最先端の課題を著しく上回っている。
論文参考訳（メタデータ） (2025-06-02T18:07:55Z)
Learnable Multi-Scale Wavelet Transformer: A Novel Alternative to Self-Attention [0.0]
Learnable Multi-Scale Wavelet Transformer (LMWT) は、標準的なドット生成の自己アテンションを置き換える新しいアーキテクチャである。本稿では,学習可能なHaarウェーブレットモジュールの詳細な数学的定式化とトランスフォーマーフレームワークへの統合について述べる。この結果から,LMWTは計算上の優位性を保ちながら,競争性能を向上することが示された。
論文参考訳（メタデータ） (2025-04-08T22:16:54Z)
Generalized Tensor-based Parameter-Efficient Fine-Tuning via Lie Group Transformations [50.010924231754856]
さまざまな下流タスクに事前訓練された基礎モデルを適用することは、人工知能のコアプラクティスである。これを解決するために、LoRAのようなパラメータ効率細調整(PEFT)手法が登場し、研究の焦点となっている。本稿では,行列型PEFT法を高次元パラメータ空間に拡張する一般化法を提案する。
論文参考訳（メタデータ） (2025-04-01T14:36:45Z)
Re-Parameterization of Lightweight Transformer for On-Device Speech Emotion Recognition [10.302458835329539]
軽量トランスフォーマーモデルの性能向上のための新しい手法であるTransformer Re-パラメータ化を導入する。実験の結果,提案手法は軽量トランスフォーマーの性能を常に改善し,大規模モデルに匹敵する性能を示した。
論文参考訳（メタデータ） (2024-11-14T10:36:19Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Flatten Anything: Unsupervised Neural Surface Parameterization [76.4422287292541]
本研究では,FAM(Flatten Anything Model)を導入し,グローバルな自由境界面パラメータ化を実現する。従来の手法と比較して,FAMは接続情報を活用することなく,個別の面上で直接動作する。当社のFAMは前処理を必要とせずに完全に自動化されており,高度に複雑なトポロジを扱うことができる。
論文参考訳（メタデータ） (2024-05-23T14:39:52Z)
Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文参考訳（メタデータ） (2024-02-23T19:34:06Z)
How Do Transformers Learn In-Context Beyond Simple Functions? A Case Study on Learning with Representations [98.7450564309923]
本稿では、より複雑なシナリオにおける文脈内学習(ICL)の理解を、表現を用いた学習で研究する。合成文内学習問題を合成構造を用いて構築し、ラベルは複雑なが固定された表現関数によって入力に依存する。理論的には、そのようなアルゴリズムを軽度な深さと大きさでほぼ実装するトランスフォーマーの存在を示す。
論文参考訳（メタデータ） (2023-10-16T17:40:49Z)
Transformers as Statisticians: Provable In-Context Learning with In-Context Algorithm Selection [88.23337313766353]
この研究はまず、変換器がICLを実行するための包括的な統計理論を提供する。コンテクストにおいて、トランスフォーマーは、幅広い種類の標準機械学習アルゴリズムを実装可能であることを示す。エンフィングル変換器は、異なるベースICLアルゴリズムを適応的に選択することができる。
論文参考訳（メタデータ） (2023-06-07T17:59:31Z)
Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。 RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文参考訳（メタデータ） (2022-05-26T14:51:30Z)
Relative Positional Encoding for Transformers with Linear Complexity [30.48367640796256]
古典的なトランスフォーマーには、相対的位置符号化(RPE)が有用である。 RPEは、注意行列の明示的な計算を必要とするため、最近のTransformerの線形変種では利用できない。本論文では,古典的添加剤(正弦波型)PEの代替として用いることができ,RPEのように振る舞うことができるPEの正確な生成方法について述べる。
論文参考訳（メタデータ） (2021-05-18T09:52:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。