論文の概要: Physical Foundation Models: Fixed hardware implementations of large-scale neural networks
- arxiv url: http://arxiv.org/abs/2604.27911v1
- Date: Thu, 30 Apr 2026 14:18:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 16:31:54.131727
- Title: Physical Foundation Models: Fixed hardware implementations of large-scale neural networks
- Title(参考訳): 物理基礎モデル:大規模ニューラルネットワークのハードウェア実装
- Authors: Logan G Wright, Tianyu Wang, Tatsuhiro Onodera, Peter L. McMahon,
- Abstract要約: ファンデーションモデルは、さまざまな下流タスクを実行できる大規模なデータセットに基づいてトレーニングされたディープニューラルネットワークである。
ファンデーションモデルの台頭は、ハードウェアエンジニアにチャンスをもたらすと我々は主張する。
我々は、より急進的な再考を提唱する: ニューラルネットワークが物理的設計のレベルで直接実現されるハードウェア。
- 参考スコア(独自算出の注目度): 6.1610941441344815
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Foundation models are deep neural networks (such as GPT-5, Gemini~3, and Opus~4) trained on large datasets that can perform diverse downstream tasks -- text and code generation, question answering, summarization, image classification, and so on. The philosophy of foundation models is to put effort into a single, large (${\sim}10^{12}$-parameter) general-purpose model that can be adapted to many downstream tasks with no or minimal additional training. We argue that the rise of foundation models presents an opportunity for hardware engineers: in contrast to when different models were used for different tasks, it now makes sense to build special-purpose, fixed hardware implementations of neural networks, manufactured and released at the roughly 1-year cadence of major new foundation-model versions. Beyond conventional digital-electronic inference hardware with read-only weight memory, we advocate a more radical re-thinking: hardware in which the neural network is realized directly at the level of the physical design and operates via the hardware's natural physical dynamics -- \textit{Physical Foundation Models} (PFMs). PFMs could enable orders-of-magnitude advantages in energy efficiency, speed, and parameter density. For ${\sim}10^{12}$-parameter models, this would both reduce the high energy burden of AI in datacenters and enable AI in edge devices that today are power-constrained to far smaller models. PFMs could also enable inference hardware for models much larger than current ones: $10^{15}$- or even $10^{18}$-parameter PFMs seem plausible by some measures. We present back-of-the-envelope calculations illustrating PFM scaling using an optical example -- a 3D nanostructured glass medium -- and discuss prospects in nanoelectronics and other physical platforms. We conclude with the major research challenges that must be resolved for trillion-parameter PFMs and beyond to become reality.
- Abstract(参考訳): 基礎モデルはディープニューラルネットワーク(GPT-5、Gemini~3、Ops~4など)で、テキストやコード生成、質問応答、要約、画像分類など、さまざまな下流タスクを実行できる大規模なデータセットでトレーニングされている。
基礎モデルの哲学は、1つの大きな({\sim}10^{12}$-parameter)汎用モデルに力を注ぐことである。
さまざまなモデルが異なるタスクに使用されているのとは対照的に、ニューラルネットワークの専用で固定されたハードウェア実装を構築するのは理にかなっているのです。
我々は、リードオンリーの重み付けメモリを備えた従来のデジタル電子推論ハードウェア以外にも、より急進的な再考を提唱する: ニューラルネットワークが物理的設計のレベルで直接実現され、ハードウェアの自然な物理力学 -- \textit{Physical Foundation Models} (PFMs)を介して動作するハードウェア。
PFMはエネルギー効率、速度、パラメータ密度のオーダー・オブ・マグニチュード・アドバンテージを可能にする。
${\sim}10^{12}$-parameterモデルの場合、これはデータセンターにおけるAIの高エネルギー負担を低減し、今日のより小さなモデルに電力を制約するエッジデバイスにおけるAIを可能にする。
10^{15}$-または10^{18}$-parameter PFMは、いくつかの測度によっては実証可能であるように思われる。
我々は3次元ナノ構造ガラス媒体の光学的例を用いてPFMスケーリングを実証するバック・オブ・ザ・エンベロープ計算を行い、ナノエレクトロニクスや他の物理プラットフォームの将来について論じる。
我々は、数兆マイルのPFMで解決しなければならない主要な研究課題を、現実になるために締めくくります。
関連論文リスト
- Seeing Structural Failure Before it Happens: An Image-Based Physics-Informed Neural Network (PINN) for Spaghetti Bridge Load Prediction [0.5872014229110214]
本稿では,小型スパゲッティ橋の重量予測におけるPINNの利用について検討する。
我々は、普遍関数近似理論と物理的洞察をブレンドする「物理インフォームド・コルモゴロフ・アーノルドネットワーク」という新しいアーキテクチャを導入する。
我々のデータセットは15の実際のブリッジを含み、100のサンプルに拡張され、最良のモデルは0.9603のR2$スコアと10.50の平均絶対誤差(MAE)を達成する。
論文 参考訳(メタデータ) (2025-10-27T08:38:17Z) - SVTime: Small Time Series Forecasting Models Informed by "Physics" of Large Vision Model Forecasters [86.38433605933515]
動的Webコンテンツを分析するには時系列AIが不可欠だ。
エネルギー集約的なトレーニング、推論、ハードウェアの要求を考えると、大きなモデルを1フィットのソリューションとして使うと、二酸化炭素のフットプリントと持続可能性に対する深刻な懸念が浮かび上がっています。
本稿では、長期時系列予測(LTSF)のための大型ビジョンモデル(LVM)予測器にインスパイアされた新しい小型モデルSVTimeを紹介する。
論文 参考訳(メタデータ) (2025-10-10T18:42:23Z) - Scaling Laws for Neural Material Models [1.3048920509133808]
優れた電池、半導体、医療機器を設計するには、材料特性の予測が不可欠である。
深層学習は、科学者がエネルギー、力、ストレスを予測することによって、有望な物質を素早く見つけるのに役立つ。
私たちのチームは、トレーニングデータのスケーリング(学習すべきより多くの情報を提供するモデル)、モデルサイズ(パターンを学ぶための能力を与えるモデル)、ニューラルネットワークの計算が、物質的特性予測のパフォーマンスにどのように影響するかを分析します。
論文 参考訳(メタデータ) (2025-09-26T03:14:46Z) - Recurrent Diffusion for Large-Scale Parameter Generation [52.98888368644455]
リカレント拡散(Recurrent Diffusion for Large Scale Generation)は、単一のGPU上で最大数億のニューラルネットワークパラメータを生成する新しいフレームワークである。
RPGはAI生成において重要な進歩であり、以前は不可能と考えられていたスケールでの効率的な重量生成を可能にする可能性がある。
論文 参考訳(メタデータ) (2025-01-20T16:46:26Z) - NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文 参考訳(メタデータ) (2024-07-18T17:59:01Z) - Pretraining Billion-scale Geospatial Foundational Models on Frontier [0.16492989697868893]
ファンデーションモデル(FM)は、自己教師付き学習を通じて、インターネットスケールの未ラベルデータで訓練される。
本研究では,空間的応用のための10億規模のFMとHPCトレーニングプロファイルを,公開データの事前学習により検討する。
我々のより大きな3Bパラメータサイズモデルでは、トップ1シーンの分類精度が最大30%向上する。
論文 参考訳(メタデータ) (2024-04-17T19:16:32Z) - OmniArch: Building Foundation Model For Scientific Computing [35.41293100957156]
OmniArchは,物理アライメントによるマルチスケール・マルチ物理科学計算問題の解決を目的とした,最初のプロトタイプである。
PDEBench上で1D-2D-3Dの統合事前トレーニングを行い、1D, 2D, 3D PDEの新たなパフォーマンスベンチマークを設定するだけでなく、コンテキスト内およびゼロショット学習アプローチによる新しい物理への例外的な適応性を示す。
論文 参考訳(メタデータ) (2024-02-25T07:19:01Z) - M6-10T: A Sharing-Delinking Paradigm for Efficient Multi-Trillion
Parameter Pretraining [55.16088793437898]
極端なモデルのトレーニングには大量の計算とメモリフットプリントが必要です。
本稿では,高メモリフットプリント要求大モデルのための簡単なトレーニング戦略"Pseudo-to-Real"を提案する。
論文 参考訳(メタデータ) (2021-10-08T04:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。