論文の概要: Data Readiness for Scientific AI at Scale
- arxiv url: http://arxiv.org/abs/2507.23018v1
- Date: Wed, 30 Jul 2025 18:30:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.528349
- Title: Data Readiness for Scientific AI at Scale
- Title(参考訳): 大規模科学AIのためのデータ準備
- Authors: Wesley Brewer, Patrick Widener, Valentine Anantharaj, Feiyi Wang, Tom Beck, Arjun Shankar, Sarp Oral,
- Abstract要約: 本稿では,AIのためのデータ準備性(DRAI)の原則が,基礎モデルのトレーニングに使用されるリーダーシップスケールの科学的データセットにどのように適用されるかを検討する。
我々は, 気候, 核融合, 生物・健康, 材料など, 4つの代表的な領域にわたる古細菌の分析を行った。
我々は、データ準備レベル(AI対応)とデータ処理ステージ(シャードに最も近い)からなる2次元準備性フレームワークを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper examines how Data Readiness for AI (DRAI) principles apply to leadership-scale scientific datasets used to train foundation models. We analyze archetypal workflows across four representative domains - climate, nuclear fusion, bio/health, and materials - to identify common preprocessing patterns and domain-specific constraints. We introduce a two-dimensional readiness framework composed of Data Readiness Levels (raw to AI-ready) and Data Processing Stages (ingest to shard), both tailored to high performance computing (HPC) environments. This framework outlines key challenges in transforming scientific data for scalable AI training, emphasizing transformer-based generative models. Together, these dimensions form a conceptual maturity matrix that characterizes scientific data readiness and guides infrastructure development toward standardized, cross-domain support for scalable and reproducible AI for science.
- Abstract(参考訳): 本稿では,AIのためのデータ準備性(DRAI)の原則が,基礎モデルのトレーニングに使用されるリーダーシップスケールの科学的データセットにどのように適用されるかを検討する。
我々は、気候、核融合、生物・健康、材料という4つの代表的な領域にわたる考古学的ワークフローを分析し、一般的な前処理パターンとドメイン固有の制約を特定する。
我々は,ハイパフォーマンスコンピューティング(HPC)環境に適したデータ準備レベル(AI対応)とデータ処理ステージ(シャードに最も近い)からなる2次元の即応性フレームワークを導入する。
このフレームワークは、スケーラブルなAIトレーニングのための科学データ変換における重要な課題を概説し、トランスフォーマーベースの生成モデルを強調している。
これらの次元は、科学データの準備性を特徴付ける概念的な成熟度行列を形成し、科学のためのスケーラブルで再現可能なAIのための標準化されたクロスドメインサポートに向けたインフラ開発を導く。
関連論文リスト
- Data-Driven Breakthroughs and Future Directions in AI Infrastructure: A Comprehensive Review [0.0]
本稿では,過去15年間の人工知能(AI)の大きなブレークスルーを包括的に合成する。
計算リソース、データアクセス、アルゴリズム革新の収束をトレースすることで、AIの進化における重要なインフレクションポイントを特定する。
論文 参考訳(メタデータ) (2025-05-22T15:12:48Z) - Survey and Taxonomy: The Role of Data-Centric AI in Transformer-Based Time Series Forecasting [36.31269406067809]
データ中心のAIは、AIモデルのトレーニング、特にトランスフォーマーベースのTSFモデルの効率的なトレーニングに不可欠である、と私たちは主張する。
我々は、データ中心のAIの観点から、これまでの研究成果をレビューし、トランスフォーマーベースのアーキテクチャとデータ中心のAIの将来の開発のための基礎的な作業を行うつもりです。
論文 参考訳(メタデータ) (2024-07-29T08:27:21Z) - MMSci: A Dataset for Graduate-Level Multi-Discipline Multimodal Scientific Understanding [59.41495657570397]
本稿では,72の科学分野をカバーするNature Communicationsの記事からまとめられた包括的データセットについて述べる。
2つのベンチマークタスク(図のキャプションと複数選択)で19のプロプライエタリモデルとオープンソースモデルを評価し,人手による注釈を行った。
タスク固有データを用いた細調整Qwen2-VL-7Bは、GPT-4oや人間の専門家でさえも、マルチチョイス評価において優れた性能を示した。
論文 参考訳(メタデータ) (2024-07-06T00:40:53Z) - A survey of synthetic data augmentation methods in computer vision [0.0]
本稿では,合成データ拡張技術について概観する。
我々は、重要なデータ生成と拡張技術、アプリケーション全般の範囲、および特定のユースケースに焦点を当てる。
コンピュータビジョンモデルをトレーニングするための一般的な合成データセットの要約を提供する。
論文 参考訳(メタデータ) (2024-03-15T07:34:08Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - FAIR AI Models in High Energy Physics [16.744801048170732]
実験高エネルギー物理学におけるAIモデルに対するFAIR原則の実践的定義を提案する。
これらの原則を適用するためのテンプレートについて説明する。
本稿では,このFAIR AIモデルの堅牢性,ハードウェアアーキテクチャとソフトウェアフレームワーク間のポータビリティ,解釈可能性について報告する。
論文 参考訳(メタデータ) (2022-12-09T19:00:18Z) - FAIR principles for AI models, with a practical application for
accelerated high energy diffraction microscopy [1.9270896986812693]
我々は、統合された計算フレームワーク内でFAIRデータとAIモデルを作成し、共有する方法を紹介します。
ドメインに依存しないこの計算フレームワークが、自律的なAI駆動の発見を可能にする方法について説明する。
論文 参考訳(メタデータ) (2022-07-01T18:11:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。