Fugu-MT 論文翻訳(概要): Aspen Open Jets: Unlocking LHC Data for Foundation Models in Particle Physics

論文の概要: Aspen Open Jets: Unlocking LHC Data for Foundation Models in Particle Physics

arxiv url: http://arxiv.org/abs/2412.10504v1
Date: Fri, 13 Dec 2024 19:00:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-17 15:49:59.653735
Title: Aspen Open Jets: Unlocking LHC Data for Foundation Models in Particle Physics
Title（参考訳）: Aspen Open Jets: 素粒子物理学の基礎モデルのためのLHCデータのアンロック
Authors: Oz Amram, Luca Anzalone, Joschka Birk, Darius A. Faroughy, Anna Hallin, Gregor Kasieczka, Michael Krämer, Ian Pang, Humberto Reyes-Gonzalez, David Shih,
Abstract要約: 我々は、CMS 2016 Open Dataから派生した約180Mの高額なp_T$ジェットからなるAspenOpenJetsデータセットを紹介した。 AspenOpenJets上でのOmniJet-$alpha$ファンデーションモデルの事前トレーニングにより、ドメインシフトの大きな生成タスクのパフォーマンスが向上することを示す。実際の陽子-陽子衝突データに基づいて,ジェットベース基礎モデルの事前学習の能力を示すとともに,ML対応のAspenOpenJetsデータセットを一般向けに提供した。
参考スコア（独自算出の注目度）: 0.5055815271772576
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Foundation models are deep learning models pre-trained on large amounts of data which are capable of generalizing to multiple datasets and/or downstream tasks. This work demonstrates how data collected by the CMS experiment at the Large Hadron Collider can be useful in pre-training foundation models for HEP. Specifically, we introduce the AspenOpenJets dataset, consisting of approximately 180M high $p_T$ jets derived from CMS 2016 Open Data. We show how pre-training the OmniJet-$\alpha$ foundation model on AspenOpenJets improves performance on generative tasks with significant domain shift: generating boosted top and QCD jets from the simulated JetClass dataset. In addition to demonstrating the power of pre-training of a jet-based foundation model on actual proton-proton collision data, we provide the ML-ready derived AspenOpenJets dataset for further public use.
Abstract（参考訳）: ファンデーションモデルは、大量のデータに基づいて事前訓練されたディープラーニングモデルであり、複数のデータセットや下流タスクに一般化することができる。この研究は、Large Hadron ColliderにおけるCMS実験によって収集されたデータが、HEPの事前トレーニング基盤モデルにどのように役立つかを示す。具体的には、CMS 2016 Open Dataから約180Mの高額なp_T$ジェットからなるAspenOpenJetsデータセットを紹介する。我々は,AspenOpenJets上でのOmniJet-$\alpha$ファンデーションモデルの事前トレーニングによって,生成タスクのパフォーマンスが大幅に向上することを示す。実際の陽子-陽子衝突データに基づいて,ジェットベース基礎モデルの事前学習の能力を示すとともに,ML対応のAspenOpenJetsデータセットを一般向けに提供した。

関連論文リスト

Using Federated Machine Learning in Predictive Maintenance of Jet Engines [0.0]
本稿では,連合型機械学習フレームワークを用いて,タービンジェットエンジンの残留実用寿命(RUL)を予測することを目的とする。このシステムは、RUL予測の精度を高めるために、エンジンデータの複雑な計算とパターンをキャプチャすることを目的としている。
論文参考訳（メタデータ） (2025-02-07T20:41:36Z)
HEP-JEPA: A foundation model for collider physics using joint embedding predictive architecture [0.0]
本稿では,高エネルギー粒子衝突器におけるタスクに対するトランスフォーマーアーキテクチャに基づく基礎モデルを提案する。我々は,ジョイント・エンベディング予測アーキテクチャにインスパイアされた自己監督型戦略を用いて,ジェット機を分類するモデルを訓練する。我々のモデルは、標準分類ベンチマークタスクのための他のデータセットと相性がいい。
論文参考訳（メタデータ） (2025-02-06T10:16:27Z)
DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文参考訳（メタデータ） (2025-01-03T19:00:00Z)
Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文参考訳（メタデータ） (2024-06-16T17:09:24Z)
Flow Matching Beyond Kinematics: Generating Jets with Particle-ID and Trajectory Displacement Information [0.0]
我々はJetClassデータセットでトレーニングされた最初の生成モデルを紹介する。本モデルでは, 構成レベルでジェットを発生させ, 流れマッチング法でトレーニングした変分同変連続正規化流(CNF)である。また,ジェット部品の運動特性を超越した生成モデルも導入した。
論文参考訳（メタデータ） (2023-11-30T19:00:02Z)
Foundation Models for Generalist Geospatial Artificial Intelligence [3.7002058945990415]
本稿では,大規模データに基づく基礎モデルの事前学習と微調整を効果的に行うための第1種フレームワークを提案する。我々はこの枠組みを利用して、マルチスペクトル衛星画像の1TB以上を事前トレーニングしたトランスフォーマーベースの基礎モデルであるPrithviを開発した。
論文参考訳（メタデータ） (2023-10-28T10:19:55Z)
Data Filtering Networks [67.827994353269]
本研究では、大規模な未処理データセットをフィルタリングする第2ステップにおいて、データフィルタリングネットワーク(DFN)を学習する問題について検討する。我々の重要な発見は、フィルタリングのためのネットワークの品質が下流タスクのパフォーマンスと異なることである。我々の知見に基づいて、最先端の画像テキストデータセットを誘導する新しいデータフィルタリングネットワークを構築した。
論文参考訳（メタデータ） (2023-09-29T17:37:29Z)
Pre-training on Synthetic Driving Data for Trajectory Prediction [61.520225216107306]
軌道予測におけるデータ不足の問題を緩和するパイプラインレベルのソリューションを提案する。我々は、駆動データを生成するためにHDマップ拡張とトラジェクトリ合成を採用し、それらを事前学習することで表現を学習する。我々は、データ拡張と事前学習戦略の有効性を実証するための広範な実験を行う。
論文参考訳（メタデータ） (2023-09-18T19:49:22Z)
Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文参考訳（メタデータ） (2023-06-05T04:34:54Z)
Universal Domain Adaptation from Foundation Models: A Baseline Study [58.51162198585434]
基礎モデルを用いた最先端UniDA手法の実証的研究を行った。 CLIPモデルからターゲット知識を抽出するためのパラメータフリーな手法であるtextitCLIP 蒸留を導入する。単純な手法ではあるが、ほとんどのベンチマークタスクでは従来の手法よりも優れている。
論文参考訳（メタデータ） (2023-05-18T16:28:29Z)
Towards Efficient Task-Driven Model Reprogramming with Foundation Models [52.411508216448716]
ビジョンファウンデーションモデルは、非常に大きなモデルキャパシティと幅広いトレーニングデータから恩恵を受け、印象的なパワーを示す。しかし、実際には、下流のシナリオは限られた計算資源や効率上の考慮のため、小さなモデルしかサポートできない。これは、ファンデーションモデルの現実的な応用に重要な課題をもたらします。
論文参考訳（メタデータ） (2023-04-05T07:28:33Z)
pmuBAGE: The Benchmarking Assortment of Generated PMU Data for Power System Events -- Part I: Overview and Results [2.4775353203585797]
pmuGE (phasor measurement unit Generator of Events) は,電力系統イベントデータのための最初のデータ駆動生成モデルである。我々は、このモデルを何千もの実際のイベントでトレーニングし、pmuBAGEというデータセットを作成しました。データセットは、約1000のラベル付きイベントデータのインスタンスで構成され、ファーザー計測ユニット(PMU)データ分析のベンチマーク評価を促進する。
論文参考訳（メタデータ） (2022-04-03T15:30:08Z)
Particle Transformer for Jet Tagging [4.604003661048267]
ジェットタグのための新しい包括的データセットであるJetClassを提示する。データセットは100Mジェットで構成され、既存の公開データセットよりも約2桁大きい。我々は、ParT(Particle Transformer)と呼ばれるジェットタグのためのトランスフォーマーベースの新しいアーキテクチャを提案する。
論文参考訳（メタデータ） (2022-02-08T10:36:29Z)
Bridge Data Center AI Systems with Edge Computing for Actionable Information Retrieval [0.5652468989804973]
現代のシンクロトロンおよびX線自由電子レーザーにおける高いデータレートは、データ還元、特徴検出、その他の目的のために機械学習手法の使用を動機付けている。ここでは、この目的のために、特別なデータセンターAIシステムがどのように使用できるかを説明します。
論文参考訳（メタデータ） (2021-05-28T16:47:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。