論文の概要: NHANES-GCP: Leveraging the Google Cloud Platform and BigQuery ML for
reproducible machine learning with data from the National Health and
Nutrition Examination Survey
- arxiv url: http://arxiv.org/abs/2401.06967v1
- Date: Sat, 13 Jan 2024 03:41:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 20:46:28.710256
- Title: NHANES-GCP: Leveraging the Google Cloud Platform and BigQuery ML for
reproducible machine learning with data from the National Health and
Nutrition Examination Survey
- Title(参考訳): nhanes-gcp:national health and nutrition examination surveyのデータを用いた再現可能な機械学習にgoogle cloud platformとbigquery mlを活用する
- Authors: B. Ross Katz, Abdul Khan, James York-Winegar, and Alexander J. Titus
- Abstract要約: Google Cloud Platform(GCP)上に構築されたインフラストラクチャ・アズ・コード(IaC)とデータビルドツール(dbt)リソースであるNHANES-GCPを紹介します。
GCPの現在の価格設定では、NHANES-GCPは実行に2ドル未満、NHANESデータをホストするために必要なコストは15ドル未満である。
- 参考スコア(独自算出の注目度): 42.642008092347986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Summary: NHANES, the National Health and Nutrition Examination Survey, is a
program of studies led by the Centers for Disease Control and Prevention (CDC)
designed to assess the health and nutritional status of adults and children in
the United States (U.S.). NHANES data is frequently used by biostatisticians
and clinical scientists to study health trends across the U.S., but every
analysis requires extensive data management and cleaning before use and this
repetitive data engineering collectively costs valuable research time and
decreases the reproducibility of analyses. Here, we introduce NHANES-GCP, a
Cloud Development Kit for Terraform (CDKTF) Infrastructure-as-Code (IaC) and
Data Build Tool (dbt) resources built on the Google Cloud Platform (GCP) that
automates the data engineering and management aspects of working with NHANES
data. With current GCP pricing, NHANES-GCP costs less than $2 to run and less
than $15/yr of ongoing costs for hosting the NHANES data, all while providing
researchers with clean data tables that can readily be integrated for
large-scale analyses. We provide examples of leveraging BigQuery ML to carry
out the process of selecting data, integrating data, training machine learning
and statistical models, and generating results all from a single SQL-like
query. NHANES-GCP is designed to enhance the reproducibility of analyses and
create a well-engineered NHANES data resource for statistics, machine learning,
and fine-tuning Large Language Models (LLMs).
Availability and implementation" NHANES-GCP is available at
https://github.com/In-Vivo-Group/NHANES-GCP
- Abstract(参考訳): NHANES(National Health and Nutrition Examination Survey, NHANES)は、アメリカにおける成人および子供の健康状態と栄養状態を評価するためのCDC(Centers for Disease Control and Prevention)が主導する研究プログラムである。
NHANESデータは、バイオ統計学者や臨床科学者によって米国中の健康動向を研究するために頻繁に使用されるが、あらゆる分析には使用前に広範囲なデータ管理とクリーニングが必要である。
ここでは、Google Cloud Platform(GCP)上に構築されたCloud Development Kit for Terraform (CDKTF) Infrastructure-as-Code (IaC)およびData Build Tool (dbt)リソースであるNHANES-GCPを紹介します。
GCPの現在の価格設定では、NHANES-GCPは実行に2ドル未満、NHANESデータをホストするために必要なコストは15ドル未満である。
我々は、BigQuery MLを活用して、データの選択、データの統合、機械学習と統計モデルのトレーニング、そして単一のSQLのようなクエリから結果を生成するプロセスを実行する。
NHANES-GCPは、分析の再現性を高め、統計、機械学習、微調整された大規模言語モデル(LLM)のための、よく設計されたNHANESデータリソースを作成するように設計されている。
NHANES-GCPはhttps://github.com/In-Vivo-Group/NHANES-GCPで利用可能である。
関連論文リスト
- Pennsieve: A Collaborative Platform for Translational Neuroscience and Beyond [0.5130659559809153]
Pennsieveはオープンソースでクラウドベースの科学データ管理プラットフォームである。
複雑なマルチモーダルデータセットをサポートし、データの視覚化と分析のためのツールを提供する。
Pennsieveは125TB以上の科学的データを格納し、350以上のハイインパクトデータセットで35TB以上のデータを公開している。
論文 参考訳(メタデータ) (2024-09-16T17:55:58Z) - DSBench: How Far Are Data Science Agents to Becoming Data Science Experts? [58.330879414174476]
現実的なタスクでデータサイエンスエージェントを評価するためのベンチマークであるDSBenchを紹介する。
このベンチマークには、466のデータ分析タスクと、EloquenceとKaggleのコンペからソースされた74のデータモデリングタスクが含まれている。
現状のLLM, LVLM, エージェントを評価したところ, 最高のエージェントはデータ解析タスクの34.12%しか解決できず, RPG(Relative Performance Gap)は34.74%であった。
論文 参考訳(メタデータ) (2024-09-12T02:08:00Z) - Scaling Laws for Data Filtering -- Data Curation cannot be Compute Agnostic [99.3682210827572]
ビジョン言語モデル(VLM)は、慎重にキュレートされたWebデータセット上で数千のGPU時間でトレーニングされる。
データキュレーション戦略は通常、トレーニングに利用可能な計算を知らないように開発されている。
ウェブデータの非均一性を考慮したニューラルスケーリング法則を導入する。
論文 参考訳(メタデータ) (2024-04-10T17:27:54Z) - Capacity Constraint Analysis Using Object Detection for Smart
Manufacturing [2.007345596217044]
我々は,この問題を解決するために,畳み込みニューラルネットワーク(CNN)に基づくODモデルを開発した。
このモデルは、製造現場における椅子や個人の存在を正確に識別するために訓練されている。
識別されたオブジェクトはCNNベースのトラッカーに渡され、ワークステーションのライフサイクルを通して追跡される。
論文 参考訳(メタデータ) (2024-01-31T23:52:14Z) - BESTMVQA: A Benchmark Evaluation System for Medical Visual Question
Answering [8.547600133510551]
本稿では,BESTMVQAで表される医用視覚質問応答のベンチマーク評価SysTemを開発する。
本システムは,Med-VQAデータセットを自動構築する上で有用なツールを提供する。
簡単な構成で、ベンチマークデータセット上で選択したモデルを自動でトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-12-13T03:08:48Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - A highly scalable repository of waveform and vital signs data from
bedside monitoring devices [0.0]
機械学習は、患者バイタルのような様々な種類の信号データに対する研究コミュニティの欲求を喚起している。
医療システムは大量のデータの大量処理には適していない。
我々は,患者を夜間に,オンプレミスのバイオメディカルシステムから永久アーカイブとしてクラウドストレージの場所まで,患者のバイタルデータを同期するソリューションを開発した。
論文 参考訳(メタデータ) (2021-06-07T20:59:58Z) - A new paradigm for accelerating clinical data science at Stanford
Medicine [1.3814679165245243]
Stanford Medicineは、私たちの学術研究コミュニティがより良い臨床データサイエンスを行うための、新しいデータプラットフォームを構築している。
病院には大量の患者データがあり、研究者はそのデータとAIアプローチを再利用できることを実証している。
私たちは、データにアクセスし分析する時間を短縮することを目的とした、新しいセキュアなビッグデータプラットフォームを構築しています。
論文 参考訳(メタデータ) (2020-03-17T16:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。