論文の概要: Aspen Open Jets: Unlocking LHC Data for Foundation Models in Particle Physics
- arxiv url: http://arxiv.org/abs/2412.10504v1
- Date: Fri, 13 Dec 2024 19:00:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:59:50.674730
- Title: Aspen Open Jets: Unlocking LHC Data for Foundation Models in Particle Physics
- Title(参考訳): Aspen Open Jets: 素粒子物理学の基礎モデルのためのLHCデータのアンロック
- Authors: Oz Amram, Luca Anzalone, Joschka Birk, Darius A. Faroughy, Anna Hallin, Gregor Kasieczka, Michael Krämer, Ian Pang, Humberto Reyes-Gonzalez, David Shih,
- Abstract要約: 我々は、CMS 2016 Open Dataから派生した約180Mの高額なp_T$ジェットからなるAspenOpenJetsデータセットを紹介した。
AspenOpenJets上でのOmniJet-$alpha$ファンデーションモデルの事前トレーニングにより、ドメインシフトの大きな生成タスクのパフォーマンスが向上することを示す。
実際の陽子-陽子衝突データに基づいて,ジェットベース基礎モデルの事前学習の能力を示すとともに,ML対応のAspenOpenJetsデータセットを一般向けに提供した。
- 参考スコア(独自算出の注目度): 0.5055815271772576
- License:
- Abstract: Foundation models are deep learning models pre-trained on large amounts of data which are capable of generalizing to multiple datasets and/or downstream tasks. This work demonstrates how data collected by the CMS experiment at the Large Hadron Collider can be useful in pre-training foundation models for HEP. Specifically, we introduce the AspenOpenJets dataset, consisting of approximately 180M high $p_T$ jets derived from CMS 2016 Open Data. We show how pre-training the OmniJet-$\alpha$ foundation model on AspenOpenJets improves performance on generative tasks with significant domain shift: generating boosted top and QCD jets from the simulated JetClass dataset. In addition to demonstrating the power of pre-training of a jet-based foundation model on actual proton-proton collision data, we provide the ML-ready derived AspenOpenJets dataset for further public use.
- Abstract(参考訳): ファンデーションモデルは、大量のデータに基づいて事前訓練されたディープラーニングモデルであり、複数のデータセットや下流タスクに一般化することができる。
この研究は、Large Hadron ColliderにおけるCMS実験によって収集されたデータが、HEPの事前トレーニング基盤モデルにどのように役立つかを示す。
具体的には、CMS 2016 Open Dataから約180Mの高額なp_T$ジェットからなるAspenOpenJetsデータセットを紹介する。
我々は,AspenOpenJets上でのOmniJet-$\alpha$ファンデーションモデルの事前トレーニングによって,生成タスクのパフォーマンスが大幅に向上することを示す。
実際の陽子-陽子衝突データに基づいて,ジェットベース基礎モデルの事前学習の能力を示すとともに,ML対応のAspenOpenJetsデータセットを一般向けに提供した。
関連論文リスト
- Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Flow Matching Beyond Kinematics: Generating Jets with Particle-ID and
Trajectory Displacement Information [0.0]
我々はJetClassデータセットでトレーニングされた最初の生成モデルを紹介する。
本モデルでは, 構成レベルでジェットを発生させ, 流れマッチング法でトレーニングした変分同変連続正規化流(CNF)である。
また,ジェット部品の運動特性を超越した生成モデルも導入した。
論文 参考訳(メタデータ) (2023-11-30T19:00:02Z) - Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。
我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文 参考訳(メタデータ) (2023-10-28T10:19:55Z) - Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。
我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。
我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文 参考訳(メタデータ) (2023-09-18T19:49:22Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。
CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。
単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文 参考訳(メタデータ) (2023-05-18T16:28:29Z) - Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。
しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。
これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文 参考訳(メタデータ) (2023-04-05T07:28:33Z) - pmuBAGE: The Benchmarking Assortment of Generated PMU Data for Power
System Events -- Part I: Overview and Results [2.4775353203585797]
pmuGE (phasor measurement unit Generator of Events) は,電力系統イベントデータのための最初のデータ駆動生成モデルである。
我々は、このモデルを何千もの実際のイベントでトレーニングし、pmuBAGEというデータセットを作成しました。
データセットは、約1000のラベル付きイベントデータのインスタンスで構成され、ファーザー計測ユニット(PMU)データ分析のベンチマーク評価を促進する。
論文 参考訳(メタデータ) (2022-04-03T15:30:08Z) - Particle Transformer for Jet Tagging [4.604003661048267]
ジェットタグのための新しい包括的データセットであるJetClassを提示する。
データセットは100Mジェットで構成され、既存の公開データセットよりも約2桁大きい。
我々は、ParT(Particle Transformer)と呼ばれるジェットタグのためのトランスフォーマーベースの新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-02-08T10:36:29Z) - Datamodels: Predicting Predictions from Training Data [86.66720175866415]
本稿では,モデルクラスの振る舞いを学習データの観点から分析するための概念的枠組みであるデータモデリングについて述べる。
単純な線形データモデルであっても、モデル出力をうまく予測できることが示される。
論文 参考訳(メタデータ) (2022-02-01T18:15:24Z) - Bridge Data Center AI Systems with Edge Computing for Actionable
Information Retrieval [0.5652468989804973]
現代のシンクロトロンおよびX線自由電子レーザーにおける高いデータレートは、データ還元、特徴検出、その他の目的のために機械学習手法の使用を動機付けている。
ここでは、この目的のために、特別なデータセンターAIシステムがどのように使用できるかを説明します。
論文 参考訳(メタデータ) (2021-05-28T16:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。