論文の概要: Majorana Demonstrator Data Release for AI/ML Applications
- arxiv url: http://arxiv.org/abs/2308.10856v1
- Date: Mon, 21 Aug 2023 16:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-08-22 12:29:14.556590
- Title: Majorana Demonstrator Data Release for AI/ML Applications
- Title(参考訳): AI/MLアプリケーションのためのMajorana Demonstratorデータリリース
- Authors: I.J. Arnquist, F.T. Avignone III, A.S. Barabash, C.J. Barton, K.H.
Bhimani, E. Blalock, B. Bos, M. Busch, M. Buuck, T.S. Caldwell, Y.-D. Chan,
C.D. Christofferson, P.-H. Chu, M.L. Clark, C. Cuesta, J.A. Detwiler, Yu.
Efremenko, H. Ejiri, S.R. Elliott, N. Fuad, G.K. Giovanetti, M.P. Green, J.
Gruszko, I.S. Guinn, V.E. Guiseppe, C.R. Haufe, R. Henning, D. Hervas
Aguilar, E.W. Hoppe, A. Hostiuc, M.F. Kidd, I. Kim, R.T. Kouzes, T.E. Lannen
V, A. Li, J.M. Lopez-Castano, R.D. Martin, R. Massarczyk, S.J. Meijer, S.
Mertens, T.K. Oli, L.S. Paudel, W. Pettus, A.W.P. Poon, B. Quenallata, D.C.
Radford, A.L. Reine, K. Rielage, N.W. Ruof, D.C. Schaper, S.J. Schleich, D.
Tedeschi, R.L. Varner, S. Vasilyev, S.L. Watkins, J.F. Wilkerson, C. Wiseman,
W. Xu, C.-H. Yu, and B.X. Zhu
- Abstract要約: 囲われたデータリリースは、Majorana Demonstrator実験のキャリブレーションデータのサブセットで構成されている。
それぞれのマヨラナ現象には、ゲルマニウム検出器の生波形、パルス形状の判別カット、調整された最終エネルギーが伴う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The enclosed data release consists of a subset of the calibration data from
the Majorana Demonstrator experiment. Each Majorana event is accompanied by raw
Germanium detector waveforms, pulse shape discrimination cuts, and calibrated
final energies, all shared in an HDF5 file format along with relevant metadata.
This release is specifically designed to support the training and testing of
Artificial Intelligence (AI) and Machine Learning (ML) algorithms upon our
data. This document is structured as follows. Section I provides an overview of
the dataset's content and format; Section II outlines the location of this
dataset and the method for accessing it; Section III presents the NPML Machine
Learning Challenge associated with this dataset; Section IV contains a
disclaimer from the Majorana collaboration regarding the use of this dataset;
Appendix A contains technical details of this data release. Please direct
questions about the material provided within this release to liaobo77@ucsd.edu
(A. Li).
- Abstract(参考訳): 囲われたデータリリースは、Majorana Demonstrator実験のキャリブレーションデータのサブセットで構成されている。
各マヨラナイベントには、生のゲルマニウム検出器波形、パルス形状識別カット、校正された最終エネルギーが伴い、全てhdf5ファイルフォーマットで共有される。
このリリースは、データに対する人工知能(AI)と機械学習(ML)アルゴリズムのトレーニングとテストをサポートするように設計されている。
この文書は次のように構成されている。
第1節ではデータセットの内容とフォーマットの概要、第2節ではデータセットの位置とアクセス方法の概要、第3節ではデータセットに関連するNPML機械学習チャレンジ、第4節ではデータセットの使用に関するMajoranaのコラボレーションからの報告、第A節ではこのデータリリースに関する技術的な詳細が記載されている。
このリリースで提供される資料については、liaobo77@ucsd.edu (A. Li)に直接質問してください。
関連論文リスト
- Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - InfoAffect: A Dataset for Affective Analysis of Infographics [21.63643063062395]
テキストコンテンツと実世界のインフォグラフィックを組み合わせた3.5kサンプル対応InfoAffectデータセットを提案する。
5つの最先端マルチモーダル大言語モデル (MLLM) は両方のモダリティを解析し、その出力をReciprocal Rank Fusion (RRF) アルゴリズムで融合させ、ロバストな影響と信頼を得る。
論文 参考訳(メタデータ) (2025-11-09T14:35:59Z) - MLPrE -- A tool for preprocessing and exploratory data analysis prior to machine learning model construction [0.24629531282150877]
本稿では,機械学習の前処理と探索データ解析,DatarEについて述べる。
DataFramesは処理中にデータを保持し、スケーラビリティを確保するために利用されました。
合計69のステージがintorEとして実装され、6つの多様なデータセットを使用して重要なステージをハイライトし、デモした。
論文 参考訳(メタデータ) (2025-10-29T17:52:39Z) - LLM/Agent-as-Data-Analyst: A Survey [54.08761322298559]
大規模言語モデル(LLM)とエージェント技術は、データ分析タスクの機能と開発パラダイムに根本的な変化をもたらした。
LLMは複雑なデータ理解、自然言語、意味分析機能、自律パイプラインオーケストレーションを可能にする。
論文 参考訳(メタデータ) (2025-09-28T17:31:38Z) - Discourse Features Enhance Detection of Document-Level Machine-Generated Content [53.41994768824785]
機械生成コンテンツは、学術プラジャリズムや誤報の拡散といった課題を提起する。
既存のMGC検出器は、しばしば表面レベルの情報のみに焦点を当て、暗黙的かつ構造的な特徴を見渡す。
これらの課題を克服するために、新しい方法論とデータセットを導入します。
論文 参考訳(メタデータ) (2024-12-17T08:47:41Z) - Web-Scale Visual Entity Recognition: An LLM-Driven Data Approach [56.55633052479446]
Webスケールのビジュアルエンティティ認識は、クリーンで大規模なトレーニングデータがないため、重大な課題を呈している。
本稿では,ラベル検証,メタデータ生成,合理性説明に多モーダル大言語モデル(LLM)を活用することによって,そのようなデータセットをキュレートする新しい手法を提案する。
実験により、この自動キュレートされたデータに基づいてトレーニングされたモデルは、Webスケールの視覚的エンティティ認識タスクで最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-10-31T06:55:24Z) - Training on the Benchmark Is Not All You Need [52.01920740114261]
本稿では,複数選択肢の内容に基づいた簡易かつ効果的なデータ漏洩検出手法を提案する。
本手法は,モデルトレーニングデータや重みを使用せずに,グレーボックス条件下で動作可能である。
4つのベンチマークデータセットから35個の主要なオープンソースLCMのデータ漏洩度を評価する。
論文 参考訳(メタデータ) (2024-09-03T11:09:44Z) - Single and Multi-Hop Question-Answering Datasets for Reticular Chemistry with GPT-4-Turbo [0.5110571587151475]
RetChemQA"は、レチキュラー化学領域における機械学習モデルの能力を評価するために設計されたベンチマークデータセットである。
このデータセットには、シングルホップとマルチホップの問合せペアの両方が含まれており、各タイプのQ&Aは約45,000である。
質問は、NAS、ACS、RCC、Elsevier、Nature Publishing Groupなどの出版社から約2,530の学術論文を含む広範な文献コーパスから抽出された。
論文 参考訳(メタデータ) (2024-05-03T14:29:54Z) - RealKIE: Five Novel Datasets for Enterprise Key Information Extraction [0.0]
RealKIEは、キー情報抽出手法の進歩を目的とした、5つの挑戦的なデータセットのベンチマークである。
データセットには、SEC S1 Filings、US Non-disclosure Agreements、UK Charity Reports、FCC Invoices、Resource Contractsなど、さまざまなドキュメントが含まれている。
論文 参考訳(メタデータ) (2024-03-29T10:31:32Z) - PROC2PDDL: Open-Domain Planning Representations from Texts [56.627183903841164]
Proc2PDDLは、専門家によるPDDL表現と組み合わせたオープンドメインの手続きテキストを含む最初のデータセットである。
以上の結果から, GPT-3.5は0%, GPT-4は35%, Proc2PDDLは極めて困難であることが示唆された。
論文 参考訳(メタデータ) (2024-02-29T19:40:25Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Data Acquisition: A New Frontier in Data-centric AI [65.90972015426274]
まず、現在のデータマーケットプレースを調査し、データセットに関する詳細な情報を提供するプラットフォームが不足していることを明らかにする。
次に、データプロバイダと取得者間のインタラクションをモデル化するベンチマークであるDAMチャレンジを紹介します。
提案手法の評価は,機械学習における効果的なデータ取得戦略の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-22T22:15:17Z) - Large Language Models as Data Preprocessors [9.99065004972981]
大規模言語モデル (LLM) は人工知能において大きな進歩を遂げている。
本研究では、データマイニングおよび分析アプリケーションにおいて重要な段階である、データ前処理におけるその可能性について検討する。
我々は,最先端のプロンプトエンジニアリング技術を統合したデータ前処理のためのLLMベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-30T23:28:43Z) - Flacuna: Unleashing the Problem Solving Power of Vicuna using FLAN
Fine-Tuning [23.38774771827474]
本技術報告は,LLAMAに基づく大規模言語モデルであるVICUNAを活用することにより,第3因子の影響を調査することに焦点を当てる。
この目的を達成するために、我々はFLANMINIと呼ばれるカスタマイズされた命令データセットコレクションを使用してVICUNAを微調整した。
実験結果から,FLANデータセット上の微調整VICUNAにより,モデルFLACUNAの問題解決能力が向上していることが示唆された。
論文 参考訳(メタデータ) (2023-07-05T06:36:54Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - A domain-specific language for describing machine learning dataset [3.9576015470370893]
このDSLは、データセットの構造、データの出所、社会的関心事の観点から記述します。
Visual Studio Codeプラグインとして実装され、オープンソースライセンスで公開されている。
論文 参考訳(メタデータ) (2022-07-05T14:00:01Z) - Robust Event Classification Using Imperfect Real-world PMU Data [58.26737360525643]
本研究では,不完全な実世界のファサー計測単位(PMU)データを用いて,ロバストな事象分類について検討する。
我々は、堅牢なイベント分類器を訓練するための新しい機械学習フレームワークを開発する。
論文 参考訳(メタデータ) (2021-10-19T17:41:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。