論文の概要: Nonlocal Attention Operator: Materializing Hidden Knowledge Towards Interpretable Physics Discovery
- arxiv url: http://arxiv.org/abs/2408.07307v1
- Date: Wed, 14 Aug 2024 05:57:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 14:13:57.302984
- Title: Nonlocal Attention Operator: Materializing Hidden Knowledge Towards Interpretable Physics Discovery
- Title(参考訳): 非局所的注意オペレーター:解釈可能な物理発見に向けて隠れた知識を物質化する
- Authors: Yue Yu, Ning Liu, Fei Lu, Tian Gao, Siavash Jafarzadeh, Stewart Silling,
- Abstract要約: 非局所注意演算子(NAO)を作製するアテンション機構に基づく新しいニューラル演算子アーキテクチャを提案する。
NAOは正規化を符号化し、一般化性を達成することで、逆PDE問題における不備とランク不足に対処することができる。
- 参考スコア(独自算出の注目度): 25.75410883895742
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the recent popularity of attention-based neural architectures in core AI fields like natural language processing (NLP) and computer vision (CV), their potential in modeling complex physical systems remains under-explored. Learning problems in physical systems are often characterized as discovering operators that map between function spaces based on a few instances of function pairs. This task frequently presents a severely ill-posed PDE inverse problem. In this work, we propose a novel neural operator architecture based on the attention mechanism, which we coin Nonlocal Attention Operator (NAO), and explore its capability towards developing a foundation physical model. In particular, we show that the attention mechanism is equivalent to a double integral operator that enables nonlocal interactions among spatial tokens, with a data-dependent kernel characterizing the inverse mapping from data to the hidden parameter field of the underlying operator. As such, the attention mechanism extracts global prior information from training data generated by multiple systems, and suggests the exploratory space in the form of a nonlinear kernel map. Consequently, NAO can address ill-posedness and rank deficiency in inverse PDE problems by encoding regularization and achieving generalizability. We empirically demonstrate the advantages of NAO over baseline neural models in terms of generalizability to unseen data resolutions and system states. Our work not only suggests a novel neural operator architecture for learning interpretable foundation models of physical systems, but also offers a new perspective towards understanding the attention mechanism.
- Abstract(参考訳): 自然言語処理(NLP)やコンピュータビジョン(CV)といったコアAI分野における注目ベースのニューラルアーキテクチャの近年の人気にもかかわらず、複雑な物理システムのモデリングにおけるそのポテンシャルはいまだ探索されていない。
物理系における学習問題は、関数対のいくつかのインスタンスに基づいて関数空間間をマッピングする演算子を発見するとしばしば特徴づけられる。
このタスクは、しばしば深刻な不適切なPDE逆問題を示す。
本研究では,非局所注意演算子(Nonlocal Attention Operator,NAO)を造語するアテンション機構に基づく新しいニューラル演算子アーキテクチャを提案する。
特に、アテンション機構は空間トークン間の非局所的な相互作用を可能にする二重積分演算子と等価であることを示し、データからの逆写像を基本演算子の隠れパラメータフィールドに特徴付けるデータ依存カーネルを特徴付ける。
このように、アテンションメカニズムは、複数のシステムによって生成されたトレーニングデータからグローバルな事前情報を抽出し、非線形カーネルマップの形で探索空間を提案する。
その結果、NAOは正規化を符号化し、一般化性を達成することにより、逆PDE問題における不備やランク不足に対処することができる。
我々は,データ解像度やシステム状態に対する一般化性の観点から,ベースラインニューラルモデルよりもNAOの利点を実証的に示す。
我々の研究は、物理的システムの解釈可能な基礎モデルを学ぶための新しい神経オペレーターアーキテクチャを提案するだけでなく、注意機構を理解するための新しい視点を提供する。
関連論文リスト
- DimOL: Dimensional Awareness as A New 'Dimension' in Operator Learning [63.5925701087252]
本稿では,DimOL(Dimension-aware Operator Learning)を紹介し,次元解析から洞察を得る。
DimOLを実装するために,FNOおよびTransformerベースのPDEソルバにシームレスに統合可能なProdLayerを提案する。
経験的に、DimOLモデルはPDEデータセット内で最大48%のパフォーマンス向上を達成する。
論文 参考訳(メタデータ) (2024-10-08T10:48:50Z) - Disentangled Representation Learning for Parametric Partial Differential Equations [31.240283037552427]
ニューラル演算子パラメータから不整合表現を学習するための新しいパラダイムを提案する。
DisentangOは、ブラックボックス・ニューラル・オペレーターパラメータに埋め込まれた変動の潜在的物理的要因を明らかにし、取り除くように設計された、新しいハイパーニューラル・オペレーターアーキテクチャである。
本研究では、DentangOが有意義かつ解釈可能な潜在特徴を効果的に抽出し、ニューラルネットワークフレームワークにおける予測性能と身体的理解の分離を橋渡しすることを示す。
論文 参考訳(メタデータ) (2024-10-03T01:40:39Z) - Neural Operators with Localized Integral and Differential Kernels [77.76991758980003]
本稿では,2つのフレームワークで局所的な特徴をキャプチャできる演算子学習の原理的アプローチを提案する。
我々はCNNのカーネル値の適切なスケーリングの下で微分演算子を得ることを示す。
局所積分演算子を得るには、離散連続的畳み込みに基づくカーネルの適切な基底表現を利用する。
論文 参考訳(メタデータ) (2024-02-26T18:59:31Z) - Unraveling Feature Extraction Mechanisms in Neural Networks [10.13842157577026]
本稿では, ニューラルネットワークカーネル(NTK)に基づく理論的手法を提案し, そのメカニズムを解明する。
これらのモデルが勾配降下時の統計的特徴をどのように活用し、最終決定にどのように統合されるかを明らかにする。
自己注意モデルとCNNモデルはn-gramの学習の限界を示すが、乗算モデルはこの領域で優れていると考えられる。
論文 参考訳(メタデータ) (2023-10-25T04:22:40Z) - Improved Operator Learning by Orthogonal Attention [17.394770071994145]
我々は、カーネル積分作用素の固有分解と固有関数のニューラル近似に基づいて注意を喚起する。
我々の手法は、競合するベースラインを十分なマージンで上回ることができる。
論文 参考訳(メタデータ) (2023-10-19T05:47:28Z) - INO: Invariant Neural Operators for Learning Complex Physical Systems
with Momentum Conservation [8.218875461185016]
基本保存法則が自動的に保証される物理モデルを学ぶために,新しい統合ニューラル演算子アーキテクチャを導入する。
応用例として、合成データセットと実験データセットの両方から複雑な物質挙動を学習する際のモデルの有効性と有効性を示す。
論文 参考訳(メタデータ) (2022-12-29T16:40:41Z) - Data-driven emergence of convolutional structure in neural networks [83.4920717252233]
識別タスクを解くニューラルネットワークが、入力から直接畳み込み構造を学習できることを示す。
データモデルを慎重に設計することにより、このパターンの出現は、入力の非ガウス的、高次局所構造によって引き起こされることを示す。
論文 参考訳(メタデータ) (2022-02-01T17:11:13Z) - Reducing Catastrophic Forgetting in Self Organizing Maps with
Internally-Induced Generative Replay [67.50637511633212]
生涯学習エージェントは、パターン知覚データの無限のストリームから継続的に学習することができる。
適応するエージェントを構築する上での歴史的難しさの1つは、ニューラルネットワークが新しいサンプルから学ぶ際に、以前取得した知識を維持するのに苦労していることである。
この問題は破滅的な忘れ(干渉)と呼ばれ、今日の機械学習の領域では未解決の問題のままである。
論文 参考訳(メタデータ) (2021-12-09T07:11:14Z) - Neural Operator: Learning Maps Between Function Spaces [75.93843876663128]
本稿では,無限次元関数空間間を写像する演算子,いわゆるニューラル演算子を学習するためのニューラルネットワークの一般化を提案する。
提案したニューラル作用素に対して普遍近似定理を証明し、任意の非線形連続作用素を近似することができることを示す。
ニューラル作用素に対する重要な応用は、偏微分方程式の解作用素に対する代理写像を学習することである。
論文 参考訳(メタデータ) (2021-08-19T03:56:49Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z) - On the application of Physically-Guided Neural Networks with Internal
Variables to Continuum Problems [0.0]
内部変数を用いた物理誘導型ニューラルネットワーク(PGNNIV)を提案する。
普遍的な物理法則は、あるニューロンの値がシステムの内部状態変数として解釈されるように、ニューラルネットワークの制約として使用される。
これにより、ネットワークの容量が拡大するだけでなく、より高速な収束、少ないデータ要求、追加のノイズフィルタリングといった予測特性も向上する。
トレーニングセットで測定可能な値のみを用いることで,予測的かつ説明的能力を示すことによって,この新たな方法論を連続的な物理問題に拡張する。
論文 参考訳(メタデータ) (2020-11-23T13:06:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。