論文の概要: Generalizable Foundation Models for Calorimetry via Mixtures-of-Experts and Parameter Efficient Fine Tuning
- arxiv url: http://arxiv.org/abs/2603.28804v1
- Date: Fri, 27 Mar 2026 23:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:02.54184
- Title: Generalizable Foundation Models for Calorimetry via Mixtures-of-Experts and Parameter Efficient Fine Tuning
- Title(参考訳): エクササイズとパラメータ効率的な微調整による熱量測定のための一般化可能な基礎モデル
- Authors: Carlos Cardona-Giraldo, Cristiano Fanelli, James Giroux, Cole Granger, Benjamin Nachman, Gerald Sabin,
- Abstract要約: 次点変圧器のバックボーン上に構築したカロリー測定のための一般化可能な基礎モデルを提案する。
トレーニング済みのバックボーンは、複数の材料にまたがる電磁シャワーを生成するために訓練されている。
軽量なエキスパートモジュールの追加とチューニングにより、新しい材料が組み込まれている。
- 参考スコア(独自算出の注目度): 0.005473229173811305
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern particle physics experiments face an increasing demand for high-fidelity detector simulation as luminosities rise and computational requirements approach the limits of available resources. Deep generative models have emerged as promising surrogates for traditional Monte Carlo simulation, with recent advances drawing inspiration from large language models (LLM) and next-token prediction paradigms. In this work, we introduce a generalizable foundation model for calorimetry built on next-token transformer backbones, designed to support modular adaptation across materials, particle species, and detector configurations. Our approach combines Mixture-of-Experts pre-training with parameter-efficient fine-tuning strategies to enable controlled, additive model expansion without catastrophic forgetting. A pre-trained backbone is trained to generate electromagnetic showers across multiple absorber materials, while new materials are incorporated through the addition and tuning of lightweight expert modules. Extensions to new particle types are achieved via parameter-efficient fine-tuning and modular vocabularies, preserving the integrity of the base model. This design enables efficient, incremental knowledge integration as new simulation datasets become available, a critical requirement in realistic detector-development workflows. In addition, we demonstrate that next-token calorimeter models are computationally competitive with standard generative approaches under established LLM optimization procedures. These results establish next-token architectures as a viable path toward extensible, physics-aware foundation models for calorimetry and future high-energy physics experiments.
- Abstract(参考訳): 現代の粒子物理学実験は、光度が上昇し、計算要求が利用可能な資源の限界に近づくにつれて、高忠実度検出器シミュレーションの需要が高まっている。
深い生成モデルはモンテカルロシミュレーションの有望なサロゲートとして現れており、近年の進歩は大規模言語モデル(LLM)や次世代予測パラダイムからインスピレーションを得ている。
本研究では, 材料, 粒子種, 検出器構成間のモジュラ適応を支援するために, 次世代トランスフォーマーバックボーン上に構築された熱量測定のための一般化可能な基礎モデルを提案する。
提案手法は,Mixture-of-Experts事前学習とパラメータ効率の良い微調整戦略を組み合わせることで,破滅的な忘れを伴わずに,制御された付加的モデル展開を可能にする。
トレーニング済みのバックボーンは、複数の吸収体材料にまたがる電磁シャワーを発生させるよう訓練され、軽量なエキスパートモジュールの追加とチューニングによって新しい材料が組み込まれている。
新しい粒子タイプへの拡張は、パラメータ効率の良い微調整とモジュラー語彙によって達成され、基底モデルの完全性を保つ。
この設計により、新しいシミュレーションデータセットが利用可能になると、効率的なインクリメンタルな知識統合が可能になる。
さらに,従来のLCM最適化手法の標準生成手法と計算的に競合することが実証された。
これらの結果は、熱量測定と将来の高エネルギー物理実験のための拡張可能で物理学を意識した基礎モデルへの有効な道として次世代アーキテクチャを確立している。
関連論文リスト
- Fractional-order Modeling for Nonlinear Soft Actuators via Particle Swarm Optimization [49.34452620841728]
本稿では, ソフト材料の動的挙動を捉えるために, 分数次微分方程式(FODE)に基づく革新的なモデリング手法を提案する。
提案手法は,ソフトアクチュエータに固有の複雑な変形現象を効果的に表現する。
論文 参考訳(メタデータ) (2025-12-20T04:46:25Z) - Towards Machine Learning-based Model Predictive Control for HVAC Control in Multi-Context Buildings at Scale via Ensemble Learning [16.62153443064872]
熱力学モデルの構築は、潜在的HVAC制御操作下でのリアルタイム屋内温度変化を予測する。
これらのモデルは、しばしば広範囲なデータ収集期間を必要とし、専門家の知識に大きく依存し、モデリングプロセスを非効率にし、モデルの再利用可能性を制限する。
本稿では,既存のモデルを用いたモデルアンサンブルの視点について検討する。
論文 参考訳(メタデータ) (2025-05-05T08:09:36Z) - Can Kans (re)discover predictive models for Direct-Drive Laser Fusion? [11.261403205522694]
レーザー融合の領域は、機械学習手法のためのユニークで挑戦的な予測モデリングアプリケーションランドスケープを示す。
データ駆動型アプローチは、物理学の期待に沿う望ましい一般化能力とモデル解釈を達成するために、過去に成功してきた。
本研究では,新しいタイプのデータ駆動予測モデルの開発において,PILの代替としてKAN(Kolmogorov-Arnold Networks)を用いた。
論文 参考訳(メタデータ) (2024-09-13T13:48:06Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Koopman-Based Surrogate Modelling of Turbulent Rayleigh-Bénard Convection [4.248022697109535]
我々は,LRAN(Linear Recurrent Autoencoder Network)と呼ばれるクープマンにインスパイアされたアーキテクチャを用いて,対流中の低次ダイナミクスを学習する。
従来の流体力学法であるKernel Dynamic Mode Decomposition (KDMD)を用いてLRANを比較する。
我々は,最も乱流条件下では,KDMDよりもLRANの方が正確な予測値を得た。
論文 参考訳(メタデータ) (2024-05-10T12:15:02Z) - Improved particle-flow event reconstruction with scalable neural networks for current and future particle detectors [1.4609888393206634]
電子-陽電子衝突における事象再構成のためのスケーラブルな機械学習モデルについて, フル検出器シミュレーションに基づく検討を行った。
グラフニューラルネットワークとカーネルベースのトランスフォーマーを比較し、現実的な再構築を実現しつつ、操作を回避できることを実証する。
最良のグラフニューラルネットワークモデルでは、ルールベースのアルゴリズムと比較して、ジェット横運動量分解能が最大50%向上している。
論文 参考訳(メタデータ) (2023-09-13T08:16:15Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning Discrete Energy-based Models via Auxiliary-variable Local
Exploration [130.89746032163106]
離散構造データに対する条件付きおよび非条件付きEMMを学習するための新しいアルゴリズムであるALOEを提案する。
エネルギー関数とサンプリング器は、新しい変分型電力繰り返しにより効率よく訓練できることを示す。
本稿では、ソフトウェアテストのためのエネルギーモデルガイド付ファジィザについて、libfuzzerのようなよく設計されたファジィエンジンに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2020-11-10T19:31:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。