論文の概要: Health System Scale Semantic Search Across Unstructured Clinical Notes
- arxiv url: http://arxiv.org/abs/2604.25605v1
- Date: Tue, 28 Apr 2026 13:09:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-29 16:49:17.868078
- Title: Health System Scale Semantic Search Across Unstructured Clinical Notes
- Title(参考訳): 非構造的臨床ノートにおける健康システムスケールのセマンティックサーチ
- Authors: Faith Wavinya Mutinda, Spandana Makeneni, Anna Lin, Shivaji Dutta, Irit R. Rasooly, Patrick Dibussolo, Shivani Kamath Belman, Hessam Shahriari, Kevin Murphy, Alex B. Ruan, Barbara H. Chaiyachati, Sanjay Chainani, Robert W. Grundmeier, Scott M. Haag, Jeffrey M. Miller, Heather M. Griffis, Ian M. Campbell,
- Abstract要約: 我々は168万人の患者から1億6600万の臨床ノートを索引付けする意味検索システムを大小児病院に展開する。
このシステムは、サブレイテンシークエリのレイテンシ(現在237msのシングルユーザ、451msの20ユーザ)を毎月約4,000米ドルのコストで提供する。
- 参考スコア(独自算出の注目度): 1.599023522858371
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Introduction: Semantic search, which retrieves documents based on conceptual similarity rather than keyword matching, offers substantial advantages for retrieval of clinical information. However, deploying semantic search across entire health systems, comprising hundreds of millions of clinical notes, presents formidable engineering, cost, and governance challenges that have prevented adoption. Methods: We deployed a semantic search system at a large children's hospital indexing 166 million clinical notes (484 million vectors) from 1.68 million patients. The system uses instruction-tuned qwen3-embedding-0.6B embeddings, stores vectors in a managed database with storage-optimized indexing, maintains full-text metadata in a low-latency key-value store, and operates within a HIPAA-compliant governance framework. We evaluated the system through three experiments: optimization of embedding model and chunking strategy using a physician-authored benchmark dataset, characterization of full-scale performance (cost, latency, retrieval quality), and clinical utility assessment via comparison of chart abstraction efficiency across three tasks. Results: The system delivers sub-second query latency (median 237 ms single-user, 451 ms 20-user concurrency) with monthly costs of approximately USD 4,000. Qwen3 embeddings with 300-token chunk size achieved 94.6% accuracy on a clinical question-answering benchmark. In clinical utility evaluation across three abstraction tasks, semantic search reduced time-to-completion by 24 to 89% compared to clinician-performed chart review while maintaining comparable inter-rater agreement. Conclusion: Health-system-scale semantic search is both technically and operationally feasible. The system provides infrastructure supporting interactive search, cohort generation, and downstream LLM-powered clinical applications without requiring specialized informatics expertise.
- Abstract(参考訳): 紹介:セマンティック検索は,キーワードマッチングではなく概念的類似性に基づいて文書を検索する。
しかし、医療システム全体にわたってセマンティックサーチを展開し、何十億もの臨床論文をまとめ、導入を妨げた厳しいエンジニアリング、コスト、ガバナンスの課題を提示する。
方法: 重度小児病院に意味検索システムを導入し, 166万名(ベクター4400万件)を168万名から検索した。
このシステムは命令調整されたqwen3-embedding-0.6B埋め込みを使用し、ストレージ最適化インデックス付きマネージドデータベースにベクターを格納し、低レイテンシのキーバリューストアでフルテキストメタデータを保持し、HIPAA準拠のガバナンスフレームワーク内で動作する。
筆者らは,本システムについて,医師が作成したベンチマークデータセットを用いた埋め込みモデルとチャンキング戦略の最適化,コスト,レイテンシ,検索品質などの実測値,および3つのタスク間のチャート抽象効率の比較による臨床ユーティリティ評価の3つの実験により評価した。
結果: このシステムは,サブ秒以下のクエリレイテンシ(シングルユーザ237ms,20ユーザ同時実行451ms)を,約4,000米ドルの月額費用で提供する。
Qwen3埋め込みは300トンのチャンクサイズで94.6%の精度を実現した。
セマンティックサーチは,3つの抽象的タスクの臨床的有用性評価において,同等のラター間合意を維持しながら,クリニカル・パフォーマンス・チャートレビューと比較して24~89%短縮した。
結論: 医療システム規模のセマンティックサーチは技術的にも操作的にも実現可能である。
このシステムは、専門的な情報学の専門知識を必要とせず、インタラクティブ検索、コホート生成、下流のLSMによる臨床応用をサポートするインフラを提供する。
関連論文リスト
- MED-COPILOT: A Medical Assistant Powered by GraphRAG and Similar Patient Case Retrieval [12.265116154395434]
MED-COPILOTは,臨床医と研修医を対象としたインタラクティブな臨床意思決定支援システムである。
このシステムはWHOとNICEのガイドラインから構造化知識グラフを構築し、効率的な検索にコミュニティレベルの要約を適用し、36,000ケースの類似患者データベースを維持している。
論文 参考訳(メタデータ) (2026-02-28T04:32:03Z) - Collaborative Medical Triage under Uncertainty: A Multi-Agent Dynamic Matching Approach [4.474709234869498]
パンデミック後の医療需要の急増と重度の介護不足は、医療トリアージシステムに前例のない圧力を与えている。
我々は、現在のAIベースのトリアージシステムにおける3つの基本的な課題に対処する、医療トリアージのためのマルチエージェントインタラクティブなインテリジェントシステムを提案する。
論文 参考訳(メタデータ) (2025-07-30T09:21:59Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Zero-Shot Clinical Trial Patient Matching with LLMs [40.31971412825736]
大規模言語モデル(LLM)は、自動スクリーニングの有望なソリューションを提供する。
我々は,患者の診療歴を非構造的臨床テキストとして考慮し,その患者が包括的基準を満たしているかどうかを評価するLCMベースのシステムを構築した。
提案システムは,n2c2 2018コホート選択ベンチマークにおいて,最先端のスコアを達成している。
論文 参考訳(メタデータ) (2024-02-05T00:06:08Z) - Towards Unifying Anatomy Segmentation: Automated Generation of a
Full-body CT Dataset via Knowledge Aggregation and Anatomical Guidelines [113.08940153125616]
我々は533巻のボクセルレベルのラベルを142ドル(約1万2000円)で、全身CTスキャンのデータセットを作成し、解剖学的包括的カバレッジを提供する。
提案手法はラベル集約段階において手作業によるアノテーションに依存しない。
我々はCTデータに142ドルの解剖学的構造を予測できる統一解剖学的セグメンテーションモデルをリリースする。
論文 参考訳(メタデータ) (2023-07-25T09:48:13Z) - Detecting automatically the layout of clinical documents to enhance the
performances of downstream natural language processing [53.797797404164946]
我々は,臨床用PDF文書を処理し,臨床用テキストのみを抽出するアルゴリズムを設計した。
このアルゴリズムは、PDFを使った最初のテキスト抽出と、続いてボディテキスト、左書き、フッタなどのカテゴリに分類される。
それぞれのセクションのテキストから興味ある医学的概念を抽出し,医療的パフォーマンスを評価した。
論文 参考訳(メタデータ) (2023-05-23T08:38:33Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。