論文の概要: Toward Total Recall: Enhancing FAIRness through AI-Driven Metadata Standardization
- arxiv url: http://arxiv.org/abs/2504.05307v2
- Date: Sat, 07 Jun 2025 23:07:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 21:10:46.944608
- Title: Toward Total Recall: Enhancing FAIRness through AI-Driven Metadata Standardization
- Title(参考訳): トータルリコールに向けて - AI駆動メタデータ標準化によるFAIRnessの強化
- Authors: Sowmya S Sundaram, Rafael S. Gonçalves, Mark A Musen,
- Abstract要約: 本稿では,GPT-4とCEDAR知識ベースからの構造化メタデータテンプレートを組み合わせることで,メタデータを自動的に標準化する手法を提案する。
我々の標準化プロセスでは、CEDARテンプレートを使用してGPT-4をガイドし、メタデータのエントリを大まかに修正する。
- 参考スコア(独自算出の注目度): 2.4347641401231126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific metadata often suffer from incompleteness, inconsistency, and formatting errors, which hinder effective discovery and reuse of the associated datasets. We present a method that combines GPT-4 with structured metadata templates from the CEDAR knowledge base to automatically standardize metadata and to ensure compliance with established standards. A CEDAR template specifies the expected fields of a metadata submission and their permissible values. Our standardization process involves using CEDAR templates to guide GPT-4 in accurately correcting and refining metadata entries in bulk, resulting in significant improvements in metadata retrieval performance, especially in recall -- the proportion of relevant datasets retrieved from the total relevant datasets available. Using the BioSample and GEO repositories maintained by the National Center for Biotechnology Information (NCBI), we demonstrate that retrieval of datasets whose metadata are altered by GPT-4 when provided with CEDAR templates (GPT-4+CEDAR) is substantially better than retrieval of datasets whose metadata are in their original state and that of datasets whose metadata are altered using GPT-4 with only data-dictionary guidance (GPT-4+DD). The average recall increases dramatically, from 17.65\% with baseline raw metadata to 62.87\% with GPT-4+CEDAR. Furthermore, we evaluate the robustness of our approach by comparing GPT-4 against other large language models, including LLaMA-3 and MedLLaMA2, demonstrating consistent performance advantages for GPT-4+CEDAR. These results underscore the transformative potential of combining advanced language models with symbolic models of standardized metadata structures for more effective and reliable data retrieval, thus accelerating scientific discoveries and data-driven research.
- Abstract(参考訳): 科学的メタデータは、しばしば不完全性、矛盾、フォーマットエラーに悩まされ、関連するデータセットの効果的な発見と再利用を妨げる。
本稿では,GPT-4とCEDAR知識ベースからの構造化メタデータテンプレートを組み合わせることで,メタデータを自動的に標準化し,確立された標準に準拠する手法を提案する。
CEDARテンプレートはメタデータのサブミッションの期待されたフィールドと許容可能な値を指定する。
我々の標準化プロセスでは、CEDARテンプレートを使用して、GPT-4を使ってメタデータのエントリを正確に修正および精錬し、メタデータ検索性能、特にリコール時の -- 利用可能な関連するデータセットから取得したデータセットの割合を大幅に改善します。
国立バイオテクノロジー情報センター(NCBI)のBioSampleとGEOリポジトリを用いて、CEDARテンプレート(GPT-4+CEDAR)が提供されると、メタデータが元の状態にあるデータセットの検索よりも、GPT-4によってメタデータが変更されたデータセットの検索(GPT-4+DD)の方がかなり優れていることを示す。
平均的なリコールは、ベースラインの生メタデータで17.65\%から、GPT-4+CEDARで62.87\%へと劇的に増加する。
さらに,LLaMA-3 や MedLLaMA2 など他の大規模言語モデルと比較し,GPT-4+CEDAR に対して一貫した性能上の優位性を示すことによって,GPT-4 のロバスト性を評価する。
これらの結果は、高度な言語モデルと標準化されたメタデータ構造のシンボリックモデルを組み合わせることで、より効率的で信頼性の高いデータ検索を可能にし、科学的な発見とデータ駆動研究を加速させるという変革の可能性を示している。
関連論文リスト
- Dataset Regeneration for Sequential Recommendation [69.93516846106701]
DR4SRと呼ばれるモデルに依存しないデータセット再生フレームワークを用いて、理想的なトレーニングデータセットを開発するためのデータ中心のパラダイムを提案する。
データ中心のパラダイムの有効性を示すために、我々はフレームワークを様々なモデル中心の手法と統合し、4つの広く採用されているデータセット間で大きなパフォーマンス改善を観察する。
論文 参考訳(メタデータ) (2024-05-28T03:45:34Z) - Use of a Structured Knowledge Base Enhances Metadata Curation by Large Language Models [2.186740861187042]
メタデータは、データセットの発見可能性、アクセシビリティ、相互運用性、再利用性を保証する上で重要な役割を果たす。
本稿では,メタデータ標準への準拠性を改善するため,大規模言語モデル (LLM) の可能性について検討する。
NCBI BioSampleレポジトリの肺がん関連サンプルを無作為に記録した200データについて実験を行った。
論文 参考訳(メタデータ) (2024-04-08T22:29:53Z) - Genixer: Empowering Multimodal Large Language Models as a Powerful Data Generator [63.762209407570715]
Genixerは4つの重要なステップからなる包括的なデータ生成パイプラインである。
LLaVA1.5でトレーニングされた合成VQAライクなデータセットは、12のマルチモーダルベンチマークのうち10のパフォーマンスを向上させる。
タスク固有のデータセットで訓練されたMLLMは、複雑な命令チューニングデータを生成する際に、GPT-4Vを超えることができる。
論文 参考訳(メタデータ) (2023-12-11T09:44:41Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Instruction Tuning with GPT-4 [107.55078894215798]
本稿では, GPT-4を用いて命令追従データを生成し, 大規模言語モデルを微調整する試みについて述べる。
命令調整型LLaMAモデルの初期実験では、52Kの英語と中国語の命令追従データがGPT-4によって生成され、新しいタスクにおけるゼロショット性能が向上することが示された。
論文 参考訳(メタデータ) (2023-04-06T17:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。