論文の概要: Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior
- arxiv url: http://arxiv.org/abs/2306.00258v1
- Date: Thu, 1 Jun 2023 00:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 18:49:07.008420
- Title: Towards Foundation Models for Scientific Machine Learning:
Characterizing Scaling and Transfer Behavior
- Title(参考訳): 科学機械学習の基礎モデルに向けて:スケーリングと伝達の挙動を特徴付ける
- Authors: Shashank Subramanian, Peter Harrington, Kurt Keutzer, Wahid Bhimji,
Dmitriy Morozov, Michael Mahoney, Amir Gholami
- Abstract要約: 我々は、科学機械学習(SciML)の応用において、事前学習をどのように利用できるかを研究する。
これらのモデルを微調整すると、モデルのサイズが大きくなるにつれてパフォーマンスが向上することがわかった。
- 参考スコア(独自算出の注目度): 32.74388989649232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained machine learning (ML) models have shown great performance for a
wide range of applications, in particular in natural language processing (NLP)
and computer vision (CV). Here, we study how pre-training could be used for
scientific machine learning (SciML) applications, specifically in the context
of transfer learning. We study the transfer behavior of these models as (i) the
pre-trained model size is scaled, (ii) the downstream training dataset size is
scaled, (iii) the physics parameters are systematically pushed out of
distribution, and (iv) how a single model pre-trained on a mixture of different
physics problems can be adapted to various downstream applications. We find
that-when fine-tuned appropriately-transfer learning can help reach desired
accuracy levels with orders of magnitude fewer downstream examples (across
different tasks that can even be out-of-distribution) than training from
scratch, with consistent behavior across a wide range of downstream examples.
We also find that fine-tuning these models yields more performance gains as
model size increases, compared to training from scratch on new downstream
tasks. These results hold for a broad range of PDE learning tasks. All in all,
our results demonstrate the potential of the "pre-train and fine-tune" paradigm
for SciML problems, demonstrating a path towards building SciML foundation
models. We open-source our code for reproducibility.
- Abstract(参考訳): 事前学習機械学習(ML)モデルは、特に自然言語処理(NLP)とコンピュータビジョン(CV)において、幅広いアプリケーションにおいて優れた性能を示している。
本稿では,科学機械学習(SciML)の応用,特に伝達学習の文脈において,事前学習をどのように活用できるかを検討する。
これらのモデルの伝達挙動について検討する。
(i)事前学習したモデルサイズをスケールする。
(ii)下流トレーニングデータセットのサイズを拡大する。
(iii)物理パラメーターは系統的に分布から外され、
(4) 異なる物理問題を混合して事前学習した単一モデルを、下流の様々な応用に適用する方法。
適切な転校学習が望ましい精度レベルに達するのに役立つと、下流のサンプル数を桁違いに減らす(分散外になる可能性のある異なるタスクを横断する)ことは、スクラッチからトレーニングするよりも、幅広い下流のサンプルにまたがる一貫した振る舞いを持つ。
また、これらのモデルを微調整すると、新しい下流タスクのスクラッチからトレーニングするよりもモデルのサイズが大きくなるにつれて、パフォーマンスが向上することがわかった。
これらの結果は、幅広いPDE学習タスクを支えている。
全体として、SciML問題に対する"事前訓練と微調整"パラダイムの可能性を示し、SciML基盤モデル構築への道筋を示す。
再現性のためのコードをオープンソースにしています。
関連論文リスト
- Transferable Post-training via Inverse Value Learning [83.75002867411263]
別個のニューラルネットワーク(すなわち値ネットワーク)を用いた後学習におけるロジットレベルのモデリング変更を提案する。
このネットワークをデモを使って小さなベースモデルでトレーニングした後、推論中に他のトレーニング済みモデルとシームレスに統合することができる。
得られた値ネットワークは、パラメータサイズの異なる事前学習されたモデル間で広い転送性を有することを示す。
論文 参考訳(メタデータ) (2024-10-28T13:48:43Z) - Physics Informed Machine Learning (PIML) methods for estimating the remaining useful lifetime (RUL) of aircraft engines [0.0]
本研究の目的は、新たに開発された物理情報機械学習(PIML)を用いて、残りの実用寿命(RUL)航空機エンジンの予測モデルを開発することである。
本稿では,NASAのC-MAPSS(Commercial Modular Aero-Propulsion System Simulation System)データについて概説する。
C-MAPSSは、古典的および深層学習手法でRUL予測に対処する、文献における多くの既存の研究を含む、よく研究されたデータセットである。
論文 参考訳(メタデータ) (2024-06-21T19:55:34Z) - Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。
本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。
我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文 参考訳(メタデータ) (2024-02-28T08:34:23Z) - An Emulator for Fine-Tuning Large Language Models using Small Language
Models [91.02498576056057]
本研究では,異なるスケールでの事前学習と微調整の結果を近似する分布から,エミュレート・ファインチューニング(EFT)を原理的かつ実用的なサンプリング法として導入する。
EFTは、追加トレーニングを伴わずに、有益性や無害性といった競合する行動特性をテスト時間で調整できることを示す。
最後に、LMアップスケーリングと呼ばれるエミュレートされたファインチューニングの特殊な場合において、小さなファインチューニングモデルと組み合わせることで、大きな事前学習モデルのリソース集約的なファインチューニングを回避する。
論文 参考訳(メタデータ) (2023-10-19T17:57:16Z) - CodeGen2: Lessons for Training LLMs on Programming and Natural Languages [116.74407069443895]
我々はエンコーダとデコーダベースのモデルを単一のプレフィックスLMに統一する。
学習方法は,「フリーランチ」仮説の主張を考察する。
データ配信においては,混合分布と多言語学習がモデル性能に及ぼす影響について検討した。
論文 参考訳(メタデータ) (2023-05-03T17:55:25Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Gone Fishing: Neural Active Learning with Fisher Embeddings [55.08537975896764]
ディープニューラルネットワークと互換性のあるアクティブな学習アルゴリズムの必要性が高まっている。
本稿では,ニューラルネットワークのための抽出可能かつ高性能な能動学習アルゴリズムBAITを紹介する。
論文 参考訳(メタデータ) (2021-06-17T17:26:31Z) - Supervised Learning in the Presence of Concept Drift: A modelling
framework [5.22609266390809]
非定常環境における教師あり学習の研究のためのモデリングフレームワークを提案する。
学習システムの例として、分類のためのプロトタイプベースの学習ベクトル量子化(LVQ)と回帰タスクのための浅層ニューラルネットワークをモデル化する。
論文 参考訳(メタデータ) (2020-05-21T09:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。