論文の概要: Size Lowerbounds for Deep Operator Networks
- arxiv url: http://arxiv.org/abs/2308.06338v2
- Date: Wed, 20 Dec 2023 19:43:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 18:31:05.093565
- Title: Size Lowerbounds for Deep Operator Networks
- Title(参考訳): 深部演算子ネットワークのためのサイズダウンバウンド
- Authors: Anirbit Mukherjee and Amartya Roy
- Abstract要約: 我々は、$n$のデータポイントで低トレーニングエラーを得るためには、ブランチとトランクネットの共通出力次元を$Omega left ( sqrt[leftroot-1uproot-16]n right )$としてスケールする必要があることを示す。
このことがDeepONetsの実験にインスピレーションを与えたのは、Advection-Diffusion-Reaction PDEであり、固定モデルサイズでは、この共通出力次元の増加を活用でき、トレーニングエラーの単調な低下、トレーニングのサイズが向上する可能性を示している。
- 参考スコア(独自算出の注目度): 0.27195102129094995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Operator Networks are an increasingly popular paradigm for solving
regression in infinite dimensions and hence solve families of PDEs in one shot.
In this work, we aim to establish a first-of-its-kind data-dependent lowerbound
on the size of DeepONets required for them to be able to reduce empirical error
on noisy data. In particular, we show that for low training errors to be
obtained on $n$ data points it is necessary that the common output dimension of
the branch and the trunk net be scaling as $\Omega \left (
\sqrt[\leftroot{-1}\uproot{-1}6]{n} \right )$.
This inspires our experiments with DeepONets solving the
advection-diffusion-reaction PDE, where we demonstrate the possibility that at
a fixed model size, to leverage increase in this common output dimension and
get monotonic lowering of training error, the size of the training data might
necessarily need to scale at least quadratically with it.
- Abstract(参考訳): ディープ・オペレーター・ネットワークは無限次元の回帰を解き、従ってPDEの族を1ショットで解くためのパラダイムとして人気が高まっている。
本研究は,ノイズデータに対する経験的誤差を低減できる深層ネットのサイズに対して,最初のデータ依存下限を確立することを目的としている。
特に、$n$のデータポイント上で低トレーニング誤差を得るには、ブランチとトランクネットの共通出力次元を$\Omega \left ( \sqrt[\leftroot{-1}\uproot{-1}6]{n} \right )$とスケーリングする必要がある。
このことがDeepONetsによる実験にインスピレーションを与え、このモデルサイズが固定された場合、この共通出力次元の増加を活用でき、トレーニングエラーの単調な低減を実現するためには、トレーニングデータのサイズが少なくとも2次的にスケールする必要があることを実証する。
関連論文リスト
- Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - Deep Neural Networks for Nonparametric Interaction Models with Diverging
Dimension [6.939768185086753]
成長次元シナリオ (d$ grows with $n$ but at a slow rate) と高次元 (dgtrsim n$) の両方において、$kth$オーダーの非パラメトリック相互作用モデルを分析する。
特定の標準仮定の下では、デバイアスドディープニューラルネットワークは、$(n, d)$の両面において、極小値の最適値を達成している。
論文 参考訳(メタデータ) (2023-02-12T04:19:39Z) - Bayesian Interpolation with Deep Linear Networks [92.1721532941863]
ニューラルネットワークの深さ、幅、データセットサイズがモデル品質にどう影響するかを特徴付けることは、ディープラーニング理論における中心的な問題である。
線形ネットワークが無限深度で証明可能な最適予測を行うことを示す。
また、データに依存しない先行法により、広い線形ネットワークにおけるベイズ模型の証拠は無限の深さで最大化されることを示す。
論文 参考訳(メタデータ) (2022-12-29T20:57:46Z) - Semi-supervised Invertible DeepONets for Bayesian Inverse Problems [8.594140167290098]
DeepONetsは、学習オペレーターによってパラメトリックPDEを解決する強力なデータ駆動ツールを提供する。
本研究では,高次元ベイズ逆問題(Bayesian inverse problem)の文脈で物理インフォームド・ディープノネット(DeepONets)を用いる。
論文 参考訳(メタデータ) (2022-09-06T18:55:06Z) - Combating Mode Collapse in GANs via Manifold Entropy Estimation [70.06639443446545]
Generative Adversarial Networks (GAN) は、様々なタスクやアプリケーションにおいて魅力的な結果を示している。
GANのモード崩壊問題に対処するための新しいトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-25T12:33:31Z) - Scaling Structured Inference with Randomization [64.18063627155128]
本稿では、構造化されたモデルを数万の潜在状態に拡張するためにランダム化された動的プログラミング(RDP)のファミリを提案する。
我々の手法は古典的DPベースの推論に広く適用できる。
また、自動微分とも互換性があり、ニューラルネットワークとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-12-07T11:26:41Z) - A Theoretical-Empirical Approach to Estimating Sample Complexity of DNNs [11.152761263415046]
本稿では,深層ニューラルネットワーク(DNN)のトレーニングデータ量と一般化誤差のスケールについて考察する。
我々は、ディープネットワークに保持され、到達不能な容量尺度に依存しない一般化誤差の推定を導出する。
論文 参考訳(メタデータ) (2021-05-05T05:14:08Z) - Mixed-Privacy Forgetting in Deep Networks [114.3840147070712]
大規模画像分類タスクにおいてトレーニングされたネットワークの重みからトレーニングサンプルのサブセットの影響を除去できることを示す。
そこで本研究では,混合プライバシー設定における「忘れ」という新しい概念を導入する。
提案手法は,モデル精度のトレードオフを伴わずに忘れることができることを示す。
論文 参考訳(メタデータ) (2020-12-24T19:34:56Z) - Parameter Efficient Deep Neural Networks with Bilinear Projections [16.628045837101237]
本稿では、従来の全射影を双線形射影に置き換えることで、ディープニューラルネットワーク(DNN)のパラメータ冗長性問題に対処する。
入力ノードが$D$と出力ノードが$D$である完全接続層では、双線形プロジェクションを適用することで、モデル空間の複雑さが軽減される。
4つのベンチマークデータセットの実験では、提案された双線形プロジェクションをディープニューラルネットワークに適用すると、さらに高い精度が得られることが示されている。
論文 参考訳(メタデータ) (2020-11-03T00:17:24Z) - Belief Propagation Reloaded: Learning BP-Layers for Labeling Problems [83.98774574197613]
最も単純な推論手法の1つとして、切り詰められた最大積のBelief伝播を取り上げ、それをディープラーニングモデルの適切なコンポーネントにするために必要となるものを加えます。
このBP-Layerは畳み込みニューラルネットワーク(CNN)の最終ブロックまたは中間ブロックとして使用できる
このモデルは様々な密集予測問題に適用可能であり、パラメータ効率が高く、ステレオ、光フロー、セマンティックセグメンテーションにおける堅牢な解を提供する。
論文 参考訳(メタデータ) (2020-03-13T13:11:35Z) - Learning Interpretable Models Using Uncertainty Oracles [12.879371384378164]
解釈可能なモデルの望ましい性質は、人間によって容易に理解できるように、小さなサイズである。
a) 小さいサイズが正確さを暗示し、(b) サイズを制限するモデルファミリが提供するビースルークレバーは、望ましいサイズ精度のトレードオフに達するには不十分である。
論文 参考訳(メタデータ) (2019-06-17T05:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。