Fugu-MT 論文翻訳(概要): Choose a Transformer: Fourier or Galerkin

論文の概要: Choose a Transformer: Fourier or Galerkin

arxiv url: http://arxiv.org/abs/2105.14995v1
Date: Mon, 31 May 2021 14:30:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-06-01 16:47:32.751380
Title: Choose a Transformer: Fourier or Galerkin
Title（参考訳）: 変換器を選ぶ: Fourier または Galerkin
Authors: Shuhao Cao
Abstract要約: 本研究では,データ駆動型演算子学習問題に適用する。スケールしたドット積の注意におけるソフトマックス正規化は十分であるが必要ではないことを示し、ペトロフ・ガレルキン射影として線形変項の近似能力を証明した。本稿では,ビルガース方程式,インターフェースダーシー流,および逆インターフェース係数同定問題を含む3つの演算子学習実験について述べる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we apply the self-attention from the state-of-art Transformer in Attention Is All You Need the first time to a data-driven operator learning problem related to partial differential equations. We put together an effort to explain the heuristics of, and improve the efficacy of the self-attention by demonstrating that the softmax normalization in the scaled dot-product attention is sufficient but not necessary, and have proved the approximation capacity of a linear variant as a Petrov-Galerkin projection. A new layer normalization scheme is proposed to allow a scaling to propagate through attention layers, which helps the model achieve remarkable accuracy in operator learning tasks with unnormalized data. Finally, we present three operator learning experiments, including the viscid Burgers' equation, an interface Darcy flow, and an inverse interface coefficient identification problem. All experiments validate the improvements of the newly proposed simple attention-based operator learner over their softmax-normalized counterparts.
Abstract（参考訳）: 本稿では, 偏微分方程式に関するデータ駆動型演算子学習問題に, 最先端の変換器の自己注意を初めて適用する。我々は,大規模ドット積注意におけるソフトマックス正規化が十分だが必要ではないことを示すことによって,自己注意のヒューリスティックスを説明し,有効性を向上させる努力をまとめ,ペトロフ・ガレルキン射影として線形不変量の近似能力を証明した。また,非正規化データを用いた演算子学習タスクにおいて,モデルが顕著な精度を達成できるようにするため,新しいレイヤ正規化方式を提案する。最後に, viscid burgers' equation, an interface darcy flow, and an inverse interface coefficient identification problemという3つの演算子学習実験を行った。すべての実験は、新たに提案されたsoftmax正規化演算子よりも単純な注意に基づく演算子学習器の改善を検証する。

関連論文リスト

From Shortcut to Induction Head: How Data Diversity Shapes Algorithm Selection in Transformers [67.02076505996284]
本研究では, 事前学習したデータ分布の選択が, 浅層変圧器を一方の行動に向ける方法について検討する。その結果,事前学習したトランスフォーマーのアルゴリズム的バイアスに光を当て,学習行動のデータ駆動制御に関する概念的ガイドラインを提供することができた。
論文参考訳（メタデータ） (2025-12-21T08:10:26Z)
Transolver is a Linear Transformer: Revisiting Physics-Attention through the Lens of Linear Attention [17.072389584390425]
そこで本研究では,物理注意を正準線形の注意に再設計するための2段階の変換を提案する。提案手法は,6つの標準PDEベンチマーク上での最先端性能を実現する。パラメータの数を平均40.0%削減し、計算コストを36.2%削減する。
論文参考訳（メタデータ） (2025-11-09T09:12:50Z)
Zero-Variance Gradients for Variational Autoencoders [32.818968022327866]
変分オートエンコーダ(VAE)のような深層生成モデルの訓練は、潜伏変数のサンプリングを通じて勾配をバックプロパゲートする必要性によって、しばしば妨げられる。本稿では,この問題をサイドステップとして,Silent Gradientsと呼ぶ新しい視点を提案する。推定器を改良する代わりに、特定のデコーダアーキテクチャを解析的に利用して予測されるELBOを計算する。
論文参考訳（メタデータ） (2025-08-05T15:54:21Z)
Neural Attention: A Novel Mechanism for Enhanced Expressive Power in Transformer Models [0.0]
本稿では,ドット積をフィードフォワードネットワークに置き換えることで,トークン間の関係を表現しやすくする手法を提案する。この研究は、様々なアプリケーションにわたるトランスフォーマーモデルの予測能力を高める効果的な手段として、ニューラルアテンションを確立する。
論文参考訳（メタデータ） (2025-02-24T14:39:40Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Localized Gaussians as Self-Attention Weights for Point Clouds Correspondence [92.07601770031236]
本稿では,エンコーダのみのトランスフォーマーアーキテクチャのアテンションヘッドにおける意味的意味パターンについて検討する。注意重みの修正はトレーニングプロセスの促進だけでなく,最適化の安定性の向上にも寄与する。
論文参考訳（メタデータ） (2024-09-20T07:41:47Z)
Understanding Optimal Feature Transfer via a Fine-Grained Bias-Variance Analysis [10.79615566320291]
下流性能の最適化を目標として、トランスファーラーニングについて検討する。任意の事前学習された特徴を入力として取る単純な線形モデルを導入する。下流タスクのアンサンブル上で平均される下流リスクを最小化することにより、最適事前学習表現を同定する。
論文参考訳（メタデータ） (2024-04-18T19:33:55Z)
Invertible Fourier Neural Operators for Tackling Both Forward and Inverse Problems [18.48295539583625]
前方および逆問題の両方に対処する可逆フーリエニューラル演算子(iFNO)を提案する。我々は,入力空間内の固有構造を捕捉し,後部推論を可能にする変分自動エンコーダを統合した。 5つのベンチマーク問題に対する評価は,提案手法の有効性を実証した。
論文参考訳（メタデータ） (2024-02-18T22:16:43Z)
Differentiable DG with Neural Operator Source Term Correction [0.0]
圧縮可能なNavier-Stokes方程式を解くためのエンドツーエンドの微分可能なフレームワークを提案する。この統合アプローチは、微分可能不連続なガレルキン解法とニューラルネットワークのソース項を組み合わせる。提案するフレームワークの性能を2つの例で示す。
論文参考訳（メタデータ） (2023-10-29T04:26:23Z)
In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文参考訳（メタデータ） (2023-10-08T17:55:33Z)
Uncovering mesa-optimization algorithms in Transformers [61.06055590704677]
いくつかの自己回帰モデルは、入力シーケンスが処理されたときに学習でき、パラメータの変更を受けずに、それを行うように明示的に訓練されていない。我々は,新しい入力が明らかになったときにモデルを調整するための補助学習アルゴリズムが,標準の次トーケン予測誤差最小化によって生まれることを示す。本研究は、自己回帰損失最小化の産物としてコンテキスト内学習を説明し、新しい最適化ベースのトランスフォーマー層の設計を通知する。
論文参考訳（メタデータ） (2023-09-11T22:42:50Z)
Physics-guided Data Augmentation for Learning the Solution Operator of Linear Differential Equations [2.1850269949775663]
ニューラルネットワークモデルの精度と一般化を改善するために,物理誘導型データ拡張法(PGDA)を提案する。様々な線形微分方程式におけるPGDAの利点を実証し、PGDAがサンプルの複雑さを向上し、分布シフトに頑健であることを示す。
論文参考訳（メタデータ） (2022-12-08T06:29:15Z)
Learning Operators with Coupled Attention [9.715465024071333]
本稿では,近年の注目機構の成功を動機とした,新しい演算子学習手法であるLOCAを提案する。我々のアーキテクチャでは、入力関数は有限個の特徴にマッピングされ、その特徴は出力クエリの場所に依存する注意重みで平均化される。これらの注意重みを積分変換と組み合わせることで、LOCAは目標出力関数の相関関係を明示的に学習することができる。
論文参考訳（メタデータ） (2022-01-04T08:22:03Z)
Factorized Fourier Neural Operators [77.47313102926017]
Factorized Fourier Neural Operator (F-FNO) は偏微分方程式をシミュレートする学習法である。我々は,数値解法よりも桁違いに高速に動作しながら,誤差率2%を維持していることを示す。
論文参考訳（メタデータ） (2021-11-27T03:34:13Z)
Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文参考訳（メタデータ） (2021-04-14T17:52:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。