論文の概要: Small Models, Strong Priors: Architectural Inductive Bias for Parameter-Efficient Neural PDE Solvers
- arxiv url: http://arxiv.org/abs/2605.25949v1
- Date: Mon, 25 May 2026 15:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.434185
- Title: Small Models, Strong Priors: Architectural Inductive Bias for Parameter-Efficient Neural PDE Solvers
- Title(参考訳): 小モデル, 強優先:パラメータ効率のよいニューラルPDE解のアーキテクチャ的帰納的バイアス
- Authors: Shyam Sankaran, Hanwen Wang, Paris Perdikaris,
- Abstract要約: 我々は、PDEソルバにおけるアーキテクチャ上の帰納バイアスの代用としてスケールが不十分であると論じる。
多分解能トークン化のための離散ウェーブレット変換を組み合わせたアーキテクチャであるWaveLiTで、この議論をインスタンス化する。
我々は8つのベンチマーク全てを共同でトレーニングし、10M-パラメータ基底の変種は構造化され、物理的に解釈可能な転送パターンを示す。
- 参考スコア(独自算出の注目度): 9.184856531933892
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Neural PDE solvers have followed the scaling trajectory of vision and language, with recent foundation models reaching billions of parameters. We argue that scale is a poor substitute for architectural inductive bias in this domain: structured priors deliver outsized parameter efficiency, and the pattern of where they succeed and fail is itself informative about what they capture. We instantiate this argument in WaveLiT, an architecture combining a discrete wavelet transform for lossless multi-resolution tokenization, an augmented linear attention block, a shared-weight multiscale feature pyramid, and a wavelet-domain auxiliary loss. Bespoke 1-10M-parameter WaveLiT models compete with foundation models of 100-1000$\times$ their size across eight TheWell benchmarks, with the largest gains on wave and acoustic-dominated benchmarks where the wavelet-multiscale prior fits the dominant dynamical structure and small per-step errors do not compound geometrically under rollout. Trained jointly across all eight benchmarks, a 10M-parameter foundation variant exhibits a structured, physically interpretable transfer pattern -- strongest where the wavelet-multiscale prior matches the dynamics, weakest on chaotic advection-dominated flows. The entire pipeline trains on a single GPU. The results suggest that small-model PDE performance is shaped by architectural inductive bias rather than scale, and that the structure of a prior's failures is a useful empirical signal about its content.
- Abstract(参考訳): ニューラルPDEソルバは視覚と言語のスケーリングの軌跡に従っており、最近の基礎モデルは数十億のパラメータに到達している。
私たちは、スケールは、この領域におけるアーキテクチャ上の帰納バイアスの代用として不十分である、と論じています。
我々は、この主張をWaveLiT、損失のないマルチレゾリューショントークン化のための離散ウェーブレット変換、拡張線形アテンションブロック、共有重み付きマルチスケール特徴ピラミッド、ウェーブレットドメイン補助損失を組み合わせたアーキテクチャでインスタンス化する。
Bespoke 1-10M-parameter WaveLiTモデルは、8つのTheWellベンチマークで100-1000$\timesの基盤モデルと競合する。
8つのベンチマークすべてで共同でトレーニングされた10Mパラメーターの基盤は、構造化された物理的に解釈可能な転送パターンを示す。
パイプライン全体は、単一のGPUでトレーニングされる。
以上の結果から,小規模モデルPDE性能はスケールではなく,アーキテクチャ的帰納バイアスによって形成され,先行故障の構造は,その内容に関する実証的信号として有用であることが示唆された。
関連論文リスト
- Alternating Gradient Flow Utility: A Unified Metric for Structural Pruning and Dynamic Routing in Deep Networks [52.153950303594684]
交互勾配流(Alternating Gradient Flow, AGF)に着想を得た非結合型運動パラダイムを提案する。
AGFはネットワークの構造的「運動ユーティリティ」を正確にキャプチャする
我々は、AGFに誘導されるオフライン構造探索を、ゼロコストの物理プリミティブを介してオンライン実行から切り離すハイブリッドルーティングフレームワークを設計する。
論文 参考訳(メタデータ) (2026-03-12T18:19:21Z) - WADEPre: A Wavelet-based Decomposition Model for Extreme Precipitation Nowcasting with Multi-Scale Learning [10.39382090254482]
WADEPre はウェーブレットに基づく極度の降水に対する分解モデルであり、モデリングをウェーブレット領域に遷移させる。
SEVIRとShanghai Radarデータセットの実験は、WADEPreが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-02-02T13:40:57Z) - Theoretical Foundations of Scaling Law in Familial Models [46.506708373314375]
モデルサイズ(N)とトレーニングトークン(D)とともに、基本的なスケーリング変数としてグラニュラリティ(G)を導入します。
この結果から, 極小指数の乗法則に準じる粒度ペナルティが明らかとなった。
のパラダイムを検証することで、デプロイメントの柔軟性が達成可能であることを実証しています。
論文 参考訳(メタデータ) (2025-12-29T12:01:58Z) - PointNSP: Autoregressive 3D Point Cloud Generation with Next-Scale Level-of-Detail Prediction [87.33016661440202]
自動回帰ポイントクラウド生成は、長い間、拡散ベースの品質アプローチに遅れを取ってきた。
低解像度で大域的な形状を保った粗大な生成フレームワークであるPointNSPを提案する。
ShapeNetの実験によると、PointNSPは自己回帰パラダイムの中で初めて、最先端(SOTA)生成品質を確立している。
論文 参考訳(メタデータ) (2025-10-07T06:31:02Z) - Network scaling and scale-driven loss balancing for intelligent poroelastography [2.665036498336221]
フルウェーブフォームデータからポリ弾性媒体のマルチスケールキャラクタリゼーションのためのディープラーニングフレームワークを開発した。
2つの大きな課題は、この目的のために既存の最先端技術を直接適用することを妨げる。
本稿では, ニューラルネットワークをスケーリング層に構成した単位形状関数を用いて, ニューラルプロパティマップを構築する, エンフェネティックスケーリングの考え方を提案する。
論文 参考訳(メタデータ) (2024-10-27T23:06:29Z) - Isomorphic Pruning for Vision Models [56.286064975443026]
構造化プルーニングは、冗長なサブ構造を取り除くことによって、ディープニューラルネットワークの計算オーバーヘッドを低減する。
Isomorphic Pruningは、ネットワークアーキテクチャの範囲で有効性を示すシンプルなアプローチである。
論文 参考訳(メタデータ) (2024-07-05T16:14:53Z) - Global Vision Transformer Pruning with Hessian-Aware Saliency [93.33895899995224]
この研究はヴィジュアルトランスフォーマー(ViT)モデルの共通設計哲学に挑戦する。
遅延を意識した規則化による直接遅延低減を実現し,すべての層や構造に匹敵する新しいヘッセン型構造解析基準を導出する。
DeiT-Baseモデルで反復的なプルーニングを実行すると、NViT(Novel ViT)と呼ばれる新しいアーキテクチャファミリが生まれ、パラメータをより効率的に利用する新しいパラメータが現れる。
論文 参考訳(メタデータ) (2021-10-10T18:04:59Z) - Post-mortem on a deep learning contest: a Simpson's paradox and the
complementary roles of scale metrics versus shape metrics [61.49826776409194]
我々は、ニューラルネットワーク(NN)モデルの一般化精度を予測するために、コンテストで公に利用可能にされたモデルのコーパスを分析する。
メトリクスが全体としてよく機能するが、データのサブパーティションではあまり機能しない。
本稿では,データに依存しない2つの新しい形状指標と,一連のNNのテスト精度の傾向を予測できるデータ依存指標を提案する。
論文 参考訳(メタデータ) (2021-06-01T19:19:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。