論文の概要: Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent
- arxiv url: http://arxiv.org/abs/2604.08552v1
- Date: Tue, 10 Mar 2026 18:47:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.809541
- Title: Automated Standardization of Legacy Biomedical Metadata Using an Ontology-Constrained LLM Agent
- Title(参考訳): オントロジー制約LDMエージェントを用いたレガシーバイオメディカルメタデータの自動標準化
- Authors: Josef Hardi, Martin J. O'Connor, Marcos Martinez-Romero, Jean G. Rosario, Stephen A. Fisher, Mark A. Musen,
- Abstract要約: バイオメディカルメタデータの自動標準化システムを提案する。
システムは、要求に応じて正則正しい語彙語を検索するために、権威的用語サービスをリアルタイムでクエリする。
評価の結果,LLMをリアルタイムツールアクセスで拡張することにより,予測精度が一貫した向上が得られた。
- 参考スコア(独自算出の注目度): 0.1105171275481129
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific metadata are often incomplete and noncompliant with community standards, limiting dataset findability, interoperability, and reuse. When reporting guidelines exist, they typically lack machine-actionable representations. Producing FAIR datasets requires encoding metadata standards as machine-actionable templates with rich field specifications and precise value constraints. Recent work has shown that LLMs guided by field names and ontology constraints can improve metadata standardization, but these approaches treat constraints as static text prompts, relying on the model's training knowledge alone. We present an LLM-based metadata standardization system that queries authoritative biomedical terminology services in real time to retrieve canonically correct vocabulary terms on demand. We evaluate this approach on 839 legacy metadata records from the Human BioMolecular Atlas Program (HuBMAP) using an expert-curated gold standard for exact-match assessment. Our evaluation shows that augmenting the LLM with real-time tool access consistently improves prediction accuracy over the LLM alone across both ontology-constrained and non-ontology-constrained fields, demonstrating a practical, scalable approach to automated standardization of biomedical metadata.
- Abstract(参考訳): 科学メタデータは、しばしば不完全で、コミュニティ標準に準拠せず、データセットの発見可能性、相互運用性、再利用を制限する。
報告ガイドラインが存在する場合、通常、機械操作可能な表現が欠落する。
FAIRデータセットの作成には、豊富なフィールド仕様と正確な値制約を備えた、機械操作可能なテンプレートとしてメタデータ標準をエンコードする必要がある。
最近の研究によると、フィールド名やオントロジーの制約で導かれるLLMはメタデータの標準化を改善することができるが、これらのアプローチはモデルのトレーニング知識のみに依存する静的テキストプロンプトとして制約を扱う。
本稿では, LLMをベースとしたメタデータ標準化システムを提案する。
本手法は,HuBMAP(Human BioMolecular Atlas Program)から得られた839個のレガシメタデータを専門家によるゴールド標準を用いて評価し,正確なマッチング評価を行った。
評価の結果, リアルタイムツールアクセスによるLCMの拡張は, オントロジー制約と非オントロジー制約の両方の分野において, LLMの予測精度を一貫して向上させ, バイオメディカルメタデータの自動標準化への実践的かつスケーラブルなアプローチを示す。
関連論文リスト
- STELLAR-E: a Synthetic, Tailored, End-to-end LLM Application Rigorous Evaluator [0.2093721226649358]
カスタマイズサイズの高品質な合成データセットを生成する完全自動化システムSTELLAR-Eを提案する。
合成データセットは、既存の言語固有のベンチマークに対してLLM-as-a-judgeスコアの平均的な差+5.7%に達する。
論文 参考訳(メタデータ) (2026-04-27T14:39:41Z) - Can LLMs Clean Up Your Mess? A Survey of Application-Ready Data Preparation with LLMs [66.63911043019294]
データ準備は、生のデータセットを識別し、データセット間の関係を解明し、それらから貴重な洞察を抽出することを目的としている。
本稿では,様々な下流タスクのためのデータ準備にLLM技術を用いることに焦点を当てる。
データクリーニング、標準化、エラー処理、計算、データ統合、データ豊か化という3つの主要なタスクにフィールドを編成するタスク中心の分類を導入します。
論文 参考訳(メタデータ) (2026-01-22T12:02:45Z) - An Agentic Model Context Protocol Framework for Medical Concept Standardization [5.12407270785129]
モデルコンテキストプロトコル(MCP)に基づくゼロトレーニング・幻覚防止マッピングシステムの開発
このシステムは説明可能なマッピングを可能にし、最小限の労力で効率と精度を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-04T02:32:22Z) - Data-efficient Meta-models for Evaluation of Context-based Questions and Answers in LLMs [1.6332728502735252]
大規模言語モデル(LLM)とレトリーバル拡張生成(RAG)システムは、産業アプリケーションにますます多くデプロイされている。
その信頼性は、幻覚検出の課題によって妨げられている。
本稿では,データアノテーションのボトルネックを,トレーニングデータ要件の低減の可能性を検討することによって解決する。
論文 参考訳(メタデータ) (2025-05-29T09:50:56Z) - Enhancing Domain-Specific Encoder Models with LLM-Generated Data: How to Leverage Ontologies, and How to Do Without Them [9.952432291248954]
限られたデータを持つ領域におけるエンコーダモデルの連続事前学習におけるLLM生成データの利用について検討する。
侵入生物学における埋め込みモデルの性能を評価するためのベンチマークをコンパイルする。
提案手法は,小さなエンコーダモデルのドメイン固有理解を向上させるために,完全自動パイプラインを実現することを実証した。
論文 参考訳(メタデータ) (2025-03-27T21:51:24Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - Utilising a Large Language Model to Annotate Subject Metadata: A Case
Study in an Australian National Research Data Catalogue [18.325675189960833]
オープンで再現可能な研究をサポートするために、研究のために利用可能なデータセットが急速に増えている。
データセットの可用性が向上するにつれて、それらの発見と再利用のための品質メタデータを持つことがより重要になる。
本稿では,LLMに基づくインコンテキスト学習を通じて,大規模言語モデル(LLM)を用いて,主題メタデータのコスト効率のよいアノテーションを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:52:33Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z) - An Iterative Optimizing Framework for Radiology Report Summarization with ChatGPT [80.33783969507458]
放射線医学報告の「印象」セクションは、放射線医と他の医師とのコミュニケーションにとって重要な基盤である。
近年の研究では、大規模医療用テキストデータを用いた印象自動生成の有望な成果が得られている。
これらのモデルは、しばしば大量の医療用テキストデータを必要とし、一般化性能が劣る。
論文 参考訳(メタデータ) (2023-04-17T17:13:42Z) - Metadata Representations for Queryable ML Model Zoos [73.24799582702326]
機械学習(ML)の実践者や組織は、事前訓練されたモデルのモデル動物園を構築しており、モデルの性質を記述するメタデータを含んでいる。
メタタダは現在標準化されておらず、表現力は限られている。
本稿では,MLモデルのメタデータ表現と管理の標準化を提唱し,そのメタデータの管理とクエリを支援するツールキットを提案する。
論文 参考訳(メタデータ) (2022-07-19T15:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。