論文の概要: Choose a Transformer: Fourier or Galerkin
- arxiv url: http://arxiv.org/abs/2105.14995v2
- Date: Thu, 3 Jun 2021 16:06:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-04 12:28:53.499343
- Title: Choose a Transformer: Fourier or Galerkin
- Title(参考訳): 変換器を選ぶ: Fourier または Galerkin
- Authors: Shuhao Cao
- Abstract要約: 我々は,データ駆動型演算子学習問題に対して,最新技術であるTransformer in Attention Is All You Needの自己注意を適用した。
スケールしたドット積の注意におけるソフトマックス正規化は十分であるが必要ではないことを示し、ペトロフ・ガレルキン射影として線形変項の近似能力を証明した。
本稿では,ビルガース方程式,インターフェースダーシー流,および逆インターフェース係数同定問題を含む3つの演算子学習実験について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we apply the self-attention from the state-of-the-art
Transformer in Attention Is All You Need the first time to a data-driven
operator learning problem related to partial differential equations. We put
together an effort to explain the heuristics of, and improve the efficacy of
the self-attention by demonstrating that the softmax normalization in the
scaled dot-product attention is sufficient but not necessary, and have proved
the approximation capacity of a linear variant as a Petrov-Galerkin projection.
A new layer normalization scheme is proposed to allow a scaling to propagate
through attention layers, which helps the model achieve remarkable accuracy in
operator learning tasks with unnormalized data. Finally, we present three
operator learning experiments, including the viscid Burgers' equation, an
interface Darcy flow, and an inverse interface coefficient identification
problem. All experiments validate the improvements of the newly proposed simple
attention-based operator learner over their softmax-normalized counterparts.
- Abstract(参考訳): 本稿では, 偏微分方程式に関するデータ駆動型演算子学習問題に, 最新技術変換器の自己注意を初めて適用する。
我々は,大規模ドット積注意におけるソフトマックス正規化が十分だが必要ではないことを示すことによって,自己注意のヒューリスティックスを説明し,有効性を向上させる努力をまとめ,ペトロフ・ガレルキン射影として線形不変量の近似能力を証明した。
また,非正規化データを用いた演算子学習タスクにおいて,モデルが顕著な精度を達成できるようにするため,新しいレイヤ正規化方式を提案する。
最後に, viscid burgers' equation, an interface darcy flow, and an inverse interface coefficient identification problemという3つの演算子学習実験を行った。
すべての実験は、新たに提案されたsoftmax正規化演算子よりも単純な注意に基づく演算子学習器の改善を検証する。
関連論文リスト
- Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。
注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文 参考訳(メタデータ) (2024-09-20T07:41:47Z) - Understanding Optimal Feature Transfer via a Fine-Grained Bias-Variance Analysis [10.79615566320291]
下流性能の最適化を目標として、トランスファーラーニングについて検討する。
任意の事前学習された特徴を入力として取る単純な線形モデルを導入する。
下流タスクのアンサンブル上で平均される下流リスクを最小化することにより、最適事前学習表現を同定する。
論文 参考訳(メタデータ) (2024-04-18T19:33:55Z) - Invertible Fourier Neural Operators for Tackling Both Forward and
Inverse Problems [18.48295539583625]
前方および逆問題の両方に対処する可逆フーリエニューラル演算子(iFNO)を提案する。
我々は,入力空間内の固有構造を捕捉し,後部推論を可能にする変分自動エンコーダを統合した。
5つのベンチマーク問題に対する評価は,提案手法の有効性を実証した。
論文 参考訳(メタデータ) (2024-02-18T22:16:43Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。
我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。
本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文 参考訳(メタデータ) (2023-09-11T22:42:50Z) - Physics-guided Data Augmentation for Learning the Solution Operator of
Linear Differential Equations [2.1850269949775663]
ニューラルネットワークモデルの精度と一般化を改善するために,物理誘導型データ拡張法(PGDA)を提案する。
様々な線形微分方程式におけるPGDAの利点を実証し、PGDAがサンプルの複雑さを向上し、分布シフトに頑健であることを示す。
論文 参考訳(メタデータ) (2022-12-08T06:29:15Z) - Learning Operators with Coupled Attention [9.715465024071333]
本稿では,近年の注目機構の成功を動機とした,新しい演算子学習手法であるLOCAを提案する。
我々のアーキテクチャでは、入力関数は有限個の特徴にマッピングされ、その特徴は出力クエリの場所に依存する注意重みで平均化される。
これらの注意重みを積分変換と組み合わせることで、LOCAは目標出力関数の相関関係を明示的に学習することができる。
論文 参考訳(メタデータ) (2022-01-04T08:22:03Z) - Factorized Fourier Neural Operators [77.47313102926017]
Factorized Fourier Neural Operator (F-FNO) は偏微分方程式をシミュレートする学習法である。
我々は,数値解法よりも桁違いに高速に動作しながら,誤差率2%を維持していることを示す。
論文 参考訳(メタデータ) (2021-11-27T03:34:13Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。