論文の概要: Standards in the Preparation of Biomedical Research Metadata: A Bridge2AI Perspective
- arxiv url: http://arxiv.org/abs/2509.10432v1
- Date: Fri, 12 Sep 2025 17:38:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.185321
- Title: Standards in the Preparation of Biomedical Research Metadata: A Bridge2AI Perspective
- Title(参考訳): バイオメディカルリサーチメタデータ作成の基準:Bridge2AIの視点から
- Authors: Harry Caufield, Satrajit Ghosh, Sek Wong Kong, Jillian Parker, Nathan Sheffield, Bhavesh Patel, Andrew Williams, Timothy Clark, Monica C. Munoz-Torres,
- Abstract要約: Bridge2AIは、データセットがAI対応をレンダリングするために必要な基準を定義した。
これらの基準には、FAIRness、profance、キャラクタリゼーションの度合い、説明可能性、持続可能性、計算可能性が含まれる。
本報告は,Bridge2AIグランドチャレンジにおけるメタデータ作成と標準化の状況を評価する。
- 参考スコア(独自算出の注目度): 1.0389904886733017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-readiness describes the degree to which data may be optimally and ethically used for subsequent AI and Machine Learning (AI/ML) methods, where those methods may involve some combination of model training, data classification, and ethical, explainable prediction. The Bridge2AI consortium has defined the particular criteria a biomedical dataset may possess to render it AI-ready: in brief, a dataset's readiness is related to its FAIRness, provenance, degree of characterization, explainability, sustainability, and computability, in addition to its accompaniment with documentation about ethical data practices. To ensure AI-readiness and to clarify data structure and relationships within Bridge2AI's Grand Challenges (GCs), particular types of metadata are necessary. The GCs within the Bridge2AI initiative include four data-generating projects focusing on generating AI/ML-ready datasets to tackle complex biomedical and behavioral research problems. These projects develop standardized, multimodal data, tools, and training resources to support AI integration, while addressing ethical data practices. Examples include using voice as a biomarker, building interpretable genomic tools, modeling disease trajectories with diverse multimodal data, and mapping cellular and molecular health indicators across the human body. This report assesses the state of metadata creation and standardization in the Bridge2AI GCs, provides guidelines where required, and identifies gaps and areas for improvement across the program. New projects, including those outside the Bridge2AI consortium, would benefit from what we have learned about creating metadata as part of efforts to promote AI readiness.
- Abstract(参考訳): AIの可読性(AI-readiness)は、その後のAIおよび機械学習(AI/ML)手法にデータが最適かつ倫理的に使用される程度を記述している。
Bridge2AIコンソーシアムは、バイオメディカルデータセットがAI対応をレンダリングするために保持する特定の基準を定義している。簡単に言うと、データセットの準備ができていることは、倫理的なデータプラクティスに関するドキュメントに加えて、そのFAIRness、証明、キャラクタリゼーションの程度、説明可能性、持続可能性、計算可能性に関連する。
AIの可読性を確保し、Bridge2AIのグランドチャレンジ(GC)内のデータ構造と関係を明らかにするためには、特定のタイプのメタデータが必要である。
Bridge2AIイニシアチブのGCには、4つのデータ生成プロジェクトが含まれている。
これらのプロジェクトは、倫理的なデータプラクティスに対処しながら、AI統合をサポートするための標準化されたマルチモーダルデータ、ツール、トレーニングリソースを開発する。
例えば、音声をバイオマーカーとして使用したり、解釈可能なゲノムツールを構築したり、様々なマルチモーダルデータで疾患の軌跡をモデル化したり、細胞や分子の健康指標を人体にマッピングしたりしている。
本報告では,Bridge2AI GCにおけるメタデータ作成と標準化の状況を評価し,必要なガイドラインを提供し,プログラム全体のギャップと改善領域を特定する。
Bridge2AIコンソーシアム以外のプロジェクトを含む新しいプロジェクトは、AIの準備の充実を促進する取り組みの一環として、メタデータの作成について学んだことの恩恵を受けるだろう。
関連論文リスト
- PyTDC: A multimodal machine learning training, evaluation, and inference platform for biomedical foundation models [59.17570021208177]
PyTDCは、マルチモーダルな生物学的AIモデルのための合理化されたトレーニング、評価、推論ソフトウェアを提供する機械学習プラットフォームである。
本稿では、PyTDCのアーキテクチャの構成要素と、我々の知る限り、導入したシングルセルドラッグターゲットMLタスクにおける第一種ケーススタディについて論じる。
論文 参考訳(メタデータ) (2025-05-08T18:15:38Z) - A Large-Scale Vision-Language Dataset Derived from Open Scientific Literature to Advance Biomedical Generalist AI [70.06771291117965]
PubMed Central Open Accessサブセットから派生したオープンソースのデータセットであるBiomedicaを紹介する。
Biomedicaには600万以上の科学論文と2400万の画像テキストペアが含まれている。
私たちは、Webサーバを通じてスケーラブルなストリーミングと検索APIを提供し、AIシステムとのシームレスな統合を容易にします。
論文 参考訳(メタデータ) (2025-03-26T05:56:46Z) - Biomedical Foundation Model: A Survey [84.26268124754792]
ファンデーションモデルは、広範なラベルなしデータセットから学習する大規模な事前訓練モデルである。
これらのモデルは、質問応答や視覚的理解といった様々な応用に適応することができる。
本研究は,生物医学分野における基礎モデルの可能性を探るものである。
論文 参考訳(メタデータ) (2025-03-03T22:42:00Z) - DREAMS: A python framework for Training Deep Learning Models on EEG Data with Model Card Reporting for Medical Applications [7.2934799091933815]
脳波データに適用されたディープラーニングモデルのための自動モデルカードを生成するように設計されたPythonベースのフレームワークであるDREAMSを紹介する。
一般的なモデルレポートツールとは異なり、DREAMSはEEGベースのディープラーニングアプリケーションに特化している。
このフレームワークはディープラーニングパイプラインとシームレスに統合され、構造化YAMLベースのドキュメントを提供する。
論文 参考訳(メタデータ) (2024-09-26T13:12:13Z) - DeepDiveAI: Identifying AI Related Documents in Large Scale Literature Data [4.870043547158868]
本稿では,大規模文献データベースからAI関連文書を自動的に分類する手法を提案する。
データセット構築アプローチは、専門家の知識と高度なモデルの能力を統合する。
論文 参考訳(メタデータ) (2024-08-23T07:05:12Z) - Building Flexible, Scalable, and Machine Learning-ready Multimodal
Oncology Datasets [17.774341783844026]
本研究は、オンコロジーデータシステム(MINDS)のマルチモーダル統合を提案する。
MINDSはフレキシブルでスケーラブルで費用対効果の高いメタデータフレームワークで、公開ソースから異なるデータを効率的に分離する。
MINDSは、マルチモーダルデータを調和させることで、より分析能力の高い研究者を力づけることを目指している。
論文 参考訳(メタデータ) (2023-09-30T15:44:39Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Benchmark datasets driving artificial intelligence development fail to
capture the needs of medical professionals [4.799783526620609]
臨床およびバイオメディカル自然言語処理(NLP)の幅広い領域に関するデータセットとベンチマークのカタログを公開した。
450のNLPデータセットが手動で体系化され、豊富なメタデータで注釈付けされた。
我々の分析は、AIベンチマークの直接臨床関連性は乏しく、臨床医が対応したい仕事のほとんどをカバーできないことを示唆している。
論文 参考訳(メタデータ) (2022-01-18T15:05:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。