論文の概要: A FAIR and AI-ready Higgs Boson Decay Dataset
- arxiv url: http://arxiv.org/abs/2108.02214v1
- Date: Wed, 4 Aug 2021 18:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-06 14:33:35.924392
- Title: A FAIR and AI-ready Higgs Boson Decay Dataset
- Title(参考訳): 公平でai対応のヒッグス粒子崩壊データセット
- Authors: Yifan Chen, E. A. Huerta, Javier Duarte, Philip Harris, Daniel S.
Katz, Mark S. Neubauer, Daniel Diaz, Farouk Mokhtar, Raghav Kansal, Sang Eon
Park, Volodymyr V. Kindratenko, Zhizhen Zhao and Roger Rusack
- Abstract要約: この記事では、与えられたデータセットがそれぞれのFAIR原則を満たすかどうかを評価するためのステップバイステップアセスメントガイドを提供する。
次に、CERN Large Hadron ColliderのCMS Collaborationによって生成されたオープン・シミュレートされたデータセットのFAIRnessを評価するために、このガイドを使用する方法を示す。
この研究は、高エネルギー粒子物理学データセットとAIモデルにおけるFAIRnessの作成と定量化に科学者を導くための一連の論文の中で、最初のものである。
- 参考スコア(独自算出の注目度): 15.325110053200305
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enable the reusability of massive scientific datasets by humans and
machines, researchers aim to create scientific datasets that adhere to the
principles of findability, accessibility, interoperability, and reusability
(FAIR) for data and artificial intelligence (AI) models. This article provides
a domain-agnostic, step-by-step assessment guide to evaluate whether or not a
given dataset meets each FAIR principle. We then demonstrate how to use this
guide to evaluate the FAIRness of an open simulated dataset produced by the CMS
Collaboration at the CERN Large Hadron Collider. This dataset consists of Higgs
boson decays and quark and gluon background, and is available through the CERN
Open Data Portal. We also use other available tools to assess the FAIRness of
this dataset, and incorporate feedback from members of the FAIR community to
validate our results. This article is accompanied by a Jupyter notebook to
facilitate an understanding and exploration of the dataset, including
visualization of its elements. This study marks the first in a planned series
of articles that will guide scientists in the creation and quantification of
FAIRness in high energy particle physics datasets and AI models.
- Abstract(参考訳): 人間や機械による膨大な科学データセットの再利用を可能にするために、研究者は、データや人工知能(ai)モデルのファインダビリティ、アクセシビリティ、相互運用性、再利用性(fair)の原則に従う科学データセットの作成を目指している。
この記事では、あるデータセットがそれぞれのFAIR原則を満たすかどうかを評価するための、ドメインに依存しないステップバイステップアセスメントガイドを提供します。
次に、CERN Large Hadron ColliderのCMS Collaborationによって生成されたオープンなシミュレーションデータセットのFAIRnessを評価するために、このガイドを使用する方法を示す。
このデータセットはヒッグス粒子崩壊とクォークとグルーオンの背景で構成され、CERN Open Data Portalを通じて利用できる。
また、利用可能な他のツールを使用して、このデータセットのFAIRネスを評価し、FAIRコミュニティのメンバーからのフィードバックを取り入れて結果を検証する。
この記事では、その要素の可視化を含むデータセットの理解と探索を容易にするために、jupyterノートブックを添付します。
この研究は、高エネルギー粒子物理学データセットとAIモデルにおけるFAIRnessの作成と定量化に科学者を導くための一連の論文の中で、最初のものである。
関連論文リスト
- SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Dataset Mention Extraction in Scientific Articles Using Bi-LSTM-CRF Model [0.0]
データレポジトリや資金調達機関による最近の取り組みにもかかわらず、データセットの引用は一般的でも標準的でもないことが示されています。
この問題の潜在的な解決策は、科学論文からデータセットの言及を自動的に抽出することである。
本研究では,Bi-LSTM-CRFアーキテクチャに基づくニューラルネットワークを用いて,そのような抽出を実現することを提案する。
論文 参考訳(メタデータ) (2024-05-21T18:12:37Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Multimodal Dataset from Harsh Sub-Terranean Environment with Aerosol
Particles for Frontier Exploration [55.41644538483948]
本稿では, エアロゾル粒子を用いた過酷で非構造的な地下環境からのマルチモーダルデータセットを提案する。
ロボットオペレーティング・システム(ROS)フォーマットのすべてのオンボードセンサーから、同期された生データ計測を含んでいる。
本研究の焦点は、時間的・空間的なデータの多様性を捉えることだけでなく、取得したデータに厳しい条件が及ぼす影響を示すことである。
論文 参考訳(メタデータ) (2023-04-27T20:21:18Z) - Large Language Models as Master Key: Unlocking the Secrets of Materials
Science with GPT [9.33544942080883]
本稿では,物質科学におけるデバイスレベルでの情報抽出の複雑さに対処するため,構造化情報推論(SII)と呼ばれる自然言語処理(NLP)タスクを提案する。
我々は、既存のペロブスカイト型太陽電池FAIRデータセットに91.8%のF1スコアでGPT-3をチューニングし、リリース以来のデータでデータセットを拡張した。
また、太陽電池の電気性能を予測する実験を設計し、大規模言語モデル(LLM)を用いてターゲットパラメータを持つ材料や装置の設計を行った。
論文 参考訳(メタデータ) (2023-04-05T04:01:52Z) - Assessing Scientific Contributions in Data Sharing Spaces [64.16762375635842]
本稿では、研究者の科学的貢献を測定するブロックチェーンベースのメトリクスであるSCIENCE-indexを紹介する。
研究者にデータ共有のインセンティブを与えるため、SCIENCE-indexはデータ共有パラメータを含むように拡張されている。
本モデルは, 地理的に多様な研究者の出力分布とh-indexの分布を比較して評価する。
論文 参考訳(メタデータ) (2023-03-18T19:17:47Z) - FAIR AI Models in High Energy Physics [16.744801048170732]
実験高エネルギー物理学におけるAIモデルに対するFAIR原則の実践的定義を提案する。
これらの原則を適用するためのテンプレートについて説明する。
本稿では,このFAIR AIモデルの堅牢性,ハードウェアアーキテクチャとソフトウェアフレームワーク間のポータビリティ,解釈可能性について報告する。
論文 参考訳(メタデータ) (2022-12-09T19:00:18Z) - FAIR principles for AI models, with a practical application for
accelerated high energy diffraction microscopy [1.9270896986812693]
我々は、統合された計算フレームワーク内でFAIRデータとAIモデルを作成し、共有する方法を紹介します。
ドメインに依存しないこの計算フレームワークが、自律的なAI駆動の発見を可能にする方法について説明する。
論文 参考訳(メタデータ) (2022-07-01T18:11:12Z) - Dark Solitons in Bose-Einstein Condensates: A Dataset for Many-body
Physics Research [0.0]
我々は、ソリトニック励起を含むボース=アインシュタイン凝縮体の1.6タイムs104$の実験画像のデータセットを確立する。
このデータセットの約33%は、手動で調整されたラベルを割り当てている。
残りは、物理インフォームされたMLデータ分析フレームワークであるSolDetを使って自動的にラベル付けされる。
論文 参考訳(メタデータ) (2022-05-17T09:53:16Z) - Paradigm selection for Data Fusion of SAR and Multispectral Sentinel
data applied to Land-Cover Classification [63.072664304695465]
本稿では、畳み込みニューラルネットワーク(CNN)に基づく4つのデータ融合パラダイムを分析し、実装する。
目標は、最良のデータ融合フレームワークを選択するための体系的な手順を提供することであり、その結果、最高の分類結果が得られる。
この手順は、土地被覆分類のために検証されているが、他のケースに転送することができる。
論文 参考訳(メタデータ) (2021-06-18T11:36:54Z) - First Full-Event Reconstruction from Imaging Atmospheric Cherenkov
Telescope Real Data with Deep Learning [55.41644538483948]
チェレンコフ望遠鏡アレイは、地上のガンマ線天文学の未来である。
地上で作られた最初のプロトタイプ望遠鏡であるLarge Size Telescope 1は現在、最初の科学データを収集している。
我々は、深層畳み込みニューラルネットワークに基づくフルイベント再構築の開発とその実データへの適用を初めて提示する。
論文 参考訳(メタデータ) (2021-05-31T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。