論文の概要: Choose a Transformer: Fourier or Galerkin
- arxiv url: http://arxiv.org/abs/2105.14995v1
- Date: Mon, 31 May 2021 14:30:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-01 16:47:32.751380
- Title: Choose a Transformer: Fourier or Galerkin
- Title(参考訳): 変換器を選ぶ: Fourier または Galerkin
- Authors: Shuhao Cao
- Abstract要約: 本研究では,データ駆動型演算子学習問題に適用する。
スケールしたドット積の注意におけるソフトマックス正規化は十分であるが必要ではないことを示し、ペトロフ・ガレルキン射影として線形変項の近似能力を証明した。
本稿では,ビルガース方程式,インターフェースダーシー流,および逆インターフェース係数同定問題を含む3つの演算子学習実験について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we apply the self-attention from the state-of-art Transformer
in Attention Is All You Need the first time to a data-driven operator learning
problem related to partial differential equations. We put together an effort to
explain the heuristics of, and improve the efficacy of the self-attention by
demonstrating that the softmax normalization in the scaled dot-product
attention is sufficient but not necessary, and have proved the approximation
capacity of a linear variant as a Petrov-Galerkin projection. A new layer
normalization scheme is proposed to allow a scaling to propagate through
attention layers, which helps the model achieve remarkable accuracy in operator
learning tasks with unnormalized data. Finally, we present three operator
learning experiments, including the viscid Burgers' equation, an interface
Darcy flow, and an inverse interface coefficient identification problem. All
experiments validate the improvements of the newly proposed simple
attention-based operator learner over their softmax-normalized counterparts.
- Abstract(参考訳): 本稿では, 偏微分方程式に関するデータ駆動型演算子学習問題に, 最先端の変換器の自己注意を初めて適用する。
我々は,大規模ドット積注意におけるソフトマックス正規化が十分だが必要ではないことを示すことによって,自己注意のヒューリスティックスを説明し,有効性を向上させる努力をまとめ,ペトロフ・ガレルキン射影として線形不変量の近似能力を証明した。
また,非正規化データを用いた演算子学習タスクにおいて,モデルが顕著な精度を達成できるようにするため,新しいレイヤ正規化方式を提案する。
最後に, viscid burgers' equation, an interface darcy flow, and an inverse interface coefficient identification problemという3つの演算子学習実験を行った。
すべての実験は、新たに提案されたsoftmax正規化演算子よりも単純な注意に基づく演算子学習器の改善を検証する。
関連論文リスト
- Invertible Fourier Neural Operators for Tackling Both Forward and
Inverse Problems [18.48295539583625]
前方および逆問題の両方に対処する可逆フーリエニューラル演算子(iFNO)を提案する。
我々は,入力空間内の固有構造を捕捉し,後部推論を可能にする変分自動エンコーダを統合した。
5つのベンチマーク問題に対する評価は,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-18T22:16:43Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - Physics-guided Data Augmentation for Learning the Solution Operator of
Linear Differential Equations [2.1850269949775663]
ニューラルネットワークモデルの精度と一般化を改善するために,物理誘導型データ拡張法(PGDA)を提案する。
様々な線形微分方程式におけるPGDAの利点を実証し、PGDAがサンプルの複雑さを向上し、分布シフトに頑健であることを示す。
論文 参考訳(メタデータ) (2022-12-08T06:29:15Z) - Transformers meet Stochastic Block Models: Attention with Data-Adaptive
Sparsity and Cost [53.746169882193456]
最近の研究は、自己注意の二次的コストを克服するために、様々なスパークアテンションモジュールを提案している。
本稿では,それぞれの注意を混合メンバーシップブロックモデルで表現することで,両方の問題を解決するモデルを提案する。
我々のモデルは、以前の効率的な変種とオリジナルのトランスフォーマーより優れており、十分に注目されています。
論文 参考訳(メタデータ) (2022-10-27T15:30:52Z) - Learning Operators with Coupled Attention [9.715465024071333]
本稿では,近年の注目機構の成功を動機とした,新しい演算子学習手法であるLOCAを提案する。
我々のアーキテクチャでは、入力関数は有限個の特徴にマッピングされ、その特徴は出力クエリの場所に依存する注意重みで平均化される。
これらの注意重みを積分変換と組み合わせることで、LOCAは目標出力関数の相関関係を明示的に学習することができる。
論文 参考訳(メタデータ) (2022-01-04T08:22:03Z) - Factorized Fourier Neural Operators [77.47313102926017]
Factorized Fourier Neural Operator (F-FNO) は偏微分方程式をシミュレートする学習法である。
我々は,数値解法よりも桁違いに高速に動作しながら,誤差率2%を維持していることを示す。
論文 参考訳(メタデータ) (2021-11-27T03:34:13Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Attention that does not Explain Away [54.42960937271612]
Transformerアーキテクチャに基づくモデルは、大規模なタスクに対して競合するアーキテクチャに基づくモデルよりも精度が高い。
Transformerのユニークな特徴は、任意の距離で自由な情報の流れを可能にする自己認識機構の普遍的な応用である。
本稿では,実装が簡単で,"説明的回避"効果を避けるための理論的保証を提供する,二重正規化アテンション方式を提案する。
論文 参考訳(メタデータ) (2020-09-29T21:05:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。