論文の概要: Clinical Document Metadata Extraction: A Scoping Review
- arxiv url: http://arxiv.org/abs/2601.09730v1
- Date: Sun, 28 Dec 2025 17:21:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-25 16:54:51.712039
- Title: Clinical Document Metadata Extraction: A Scoping Review
- Title(参考訳): 臨床文書メタデータ抽出 : Scoping レビュー
- Authors: Kurt Miller, Qiuhao Lu, William Hersh, Kirk Roberts, Steven Bedrick, Andrew Wen, Hongfang Liu,
- Abstract要約: このスコーピングレビューは,臨床文書メタデータ抽出研究のカタログ化を目的としている。
ルールベースおよび従来の機械学習から文書メタデータを抽出する方法が進歩している。
大規模言語モデルの出現は、タスクやデータセット間の一般化可能性の広範な探索を可能にした。
- 参考スコア(独自算出の注目度): 6.756965638374919
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical document metadata, such as document type, structure, author role, medical specialty, and encounter setting, is essential for accurate interpretation of information captured in clinical documents. However, vast documentation heterogeneity and drift over time challenge harmonization of document metadata. Automated extraction methods have emerged to coalesce metadata from disparate practices into target schema. This scoping review aims to catalog research on clinical document metadata extraction, identify methodological trends and applications, and highlight gaps. We followed the PRISMA-ScR (Preferred Reporting Items for Systematic Reviews and Meta-Analyses Extension for Scoping Reviews) guidelines to identify articles that perform clinical document metadata extraction. We initially found and screened 266 articles published between January 2011 and August 2025, then comprehensively reviewed 67 we deemed relevant to our study. Among the articles included, 45 were methodological, 17 used document metadata as features in a downstream application, and 5 analyzed document metadata composition. We observe myriad purposes for methodological study and application types. Available labelled public data remains sparse except for structural section datasets. Methods for extracting document metadata have progressed from largely rule-based and traditional machine learning with ample feature engineering to transformer-based architectures with minimal feature engineering. The emergence of large language models has enabled broader exploration of generalizability across tasks and datasets, allowing the possibility of advanced clinical text processing systems. We anticipate that research will continue to expand into richer document metadata representations and integrate further into clinical applications and workflows.
- Abstract(参考訳): 文献の種類,構造,著者の役割,専門医,出会う設定などの臨床文書メタデータは,臨床文書で取得した情報の正確な解釈に不可欠である。
しかし、膨大なドキュメントの不均一性と時間の経過とともに、ドキュメントメタデータの調和に挑戦する。
異なるプラクティスからターゲットスキーマにメタデータを合体させる自動抽出手法が登場した。
本研究の目的は,臨床文書メタデータ抽出研究のカタログ化,方法論的傾向と応用の同定,ギャップの強調である。
PRISMA-ScR(Preferred Reporting Items for Systematic Reviews and Meta-Analyses Extension for Scoping Reviews)ガイドラインに従って,臨床文書メタデータ抽出を行う項目を同定した。
われわれは2011年1月から2025年8月までに266件の論文を発見し,調査対象となった67件を概観した。
このうち,45項目は方法論的,17項目は文書メタデータを下流アプリケーションの特徴として用い,5項目は文書メタデータの構成を解析した。
メソジカル研究と応用タイプのための無数の目的を観察する。
利用可能なラベル付き公開データは、構造的なセクションデータセットを除いて、依然として疎いままである。
ドキュメントメタデータを抽出する手法は、ほとんどルールベースと従来の機械学習から、十分な機能エンジニアリングを備えたものから、最小機能エンジニアリングを備えたトランスフォーマーベースのアーキテクチャへと進歩してきた。
大規模言語モデルの出現は、タスクやデータセットをまたいだ一般化可能性の広範な探索を可能にし、高度な臨床テキスト処理システムの実現を可能にした。
我々は、よりリッチな文書メタデータ表現への研究の進展を期待し、臨床応用やワークフローへのさらなる統合を期待する。
関連論文リスト
- LongDA: Benchmarking LLM Agents for Long-Document Data Analysis [55.32211515932351]
LongDAは、長いドキュメントと複雑なデータをナビゲートする実際の設定をターゲットとしています。
LongTAは、ドキュメントアクセス、検索、コード実行を可能にするツール拡張されたエージェントフレームワークである。
実験の結果, 最先端モデルにおいても, かなりの性能差が認められた。
論文 参考訳(メタデータ) (2026-01-05T23:23:16Z) - CNSight: Evaluation of Clinical Note Segmentation Tools [3.673249612734457]
また,MIMIC-IVから得られた1000音符のキュレートデータセットを用いて,ルールベースベースベースライン,ドメイン固有トランスフォーマーモデル,および臨床ノートセグメンテーションのための大規模言語モデルの評価を行った。
GPT-5-miniは文レベルと自由テキストセグメンテーションで平均72.4のF1に達する。
論文 参考訳(メタデータ) (2025-12-28T05:40:15Z) - MOLE: Metadata Extraction and Validation in Scientific Papers Using LLMs [48.73595915402094]
MOLEは、アラビア語以外の言語のデータセットをカバーする科学論文からメタデータ属性を自動的に抽出するフレームワークである。
本手法では,複数の入力形式にまたがって文書全体を処理し,一貫した出力に対する堅牢な検証機構を組み込む。
論文 参考訳(メタデータ) (2025-05-26T10:31:26Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - A Survey of Historical Document Image Datasets [2.8707038627097226]
本稿では,文書画像解析のための画像データセットの体系的な文献レビューを行う。
手書きの写本や初期の版画などの史料に焦点が当てられている。
歴史的文書分析のための適切なデータセットを見つけることは、異なる機械学習アルゴリズムを用いた研究を促進するための重要な前提条件である。
論文 参考訳(メタデータ) (2022-03-16T09:56:48Z) - Multimodal Approach for Metadata Extraction from German Scientific
Publications [0.0]
ドイツ語の科学論文からメタデータを抽出するための多モーダル深層学習手法を提案する。
本稿では,自然言語処理と画像ビジョン処理を組み合わせることで,複数の入力データについて考察する。
提案手法は,約8800の文書からなるデータセットを用いて学習し,F1スコアの0.923を得ることができた。
論文 参考訳(メタデータ) (2021-11-10T15:19:04Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z) - What is the State of the Art of Computer Vision-Assisted Cytology? A
Systematic Literature Review [47.42354724922676]
現在,細胞診に応用されているコンピュータビジョン技術の現状を明らかにするために,システマティック文献レビューを実施している。
分析された研究で最も使われている方法は深層学習(70論文)であるが、古典的なコンピュータビジョンのみ(101論文)を使用するものは少ない。
結論として,多くの染色に対して高品質なデータセットがまだ存在せず,ほとんどの研究は日常的な臨床診断ルーチンに適用できるほど成熟していない。
論文 参考訳(メタデータ) (2021-05-24T13:50:45Z) - docExtractor: An off-the-shelf historical document element extraction [18.828438308738495]
文献からテキストやイラストなどの視覚的要素を抽出する汎用的手法である docExtractor を提案する。
さまざまなデータセットにまたがるオフザシェルフシステムとして,高品質なパフォーマンスを提供することを実証する。
IlluHisDocと呼ばれる新しい公開データセットを導入し、歴史文書におけるイラストのセグメンテーションを詳細に評価する。
論文 参考訳(メタデータ) (2020-12-15T10:19:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。