論文の概要: CLI-RAG: A Retrieval-Augmented Framework for Clinically Structured and Context Aware Text Generation with LLMs
- arxiv url: http://arxiv.org/abs/2507.06715v1
- Date: Wed, 09 Jul 2025 10:13:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-10 17:37:43.547888
- Title: CLI-RAG: A Retrieval-Augmented Framework for Clinically Structured and Context Aware Text Generation with LLMs
- Title(参考訳): CLI-RAG:LLMを用いた臨床構造化・コンテキスト認識テキスト生成のための検索フレームワーク
- Authors: Garapati Keerthana, Manik Gupta,
- Abstract要約: CLI-RAG (Clinically Informed Retrieval-Augmented Generation) は、構造的および臨床的な基盤となるテキスト生成のためのドメイン固有のフレームワークである。
臨床文書構造を尊重する新しい階層的チャンキング戦略を取り入れ、タスク固有の2段階検索機構を導入する。
本システムを用いて,MIMIC-IIIデータセットから15種類の臨床ノートを作成した。
- 参考スコア(独自算出の注目度): 0.1578515540930834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs), including zero-shot and few-shot paradigms, have shown promising capabilities in clinical text generation. However, real-world applications face two key challenges: (1) patient data is highly unstructured, heterogeneous, and scattered across multiple note types and (2) clinical notes are often long and semantically dense, making naive prompting infeasible due to context length constraints and the risk of omitting clinically relevant information. We introduce CLI-RAG (Clinically Informed Retrieval-Augmented Generation), a domain-specific framework for structured and clinically grounded text generation using LLMs. It incorporates a novel hierarchical chunking strategy that respects clinical document structure and introduces a task-specific dual-stage retrieval mechanism. The global stage identifies relevant note types using evidence-based queries, while the local stage extracts high-value content within those notes creating relevance at both document and section levels. We apply the system to generate structured progress notes for individual hospital visits using 15 clinical note types from the MIMIC-III dataset. Experiments show that it preserves temporal and semantic alignment across visits, achieving an average alignment score of 87.7%, surpassing the 80.7% baseline from real clinician-authored notes. The generated outputs also demonstrate high consistency across LLMs, reinforcing deterministic behavior essential for reproducibility, reliability, and clinical trust.
- Abstract(参考訳): ゼロショットや少数ショットのパラダイムを含む大規模言語モデル(LLM)は、臨床テキスト生成において有望な能力を示している。
しかし,(1)患者データは非常に非構造的で,異質で,複数のノートタイプに分散している,(2)臨床ノートは長く,意味的に密集していることが多く,文脈長の制約や臨床関連情報を省略する危険性が原因で,ナイーブなプロンプトが実現できない,という2つの課題に直面している。
LLMを用いたテキスト生成のためのドメイン固有フレームワークであるCLI-RAG(Clinically Informed Retrieval-Augmented Generation)を紹介する。
臨床文書構造を尊重する新しい階層的チャンキング戦略を取り入れ、タスク固有の2段階検索機構を導入する。
グローバルステージはエビデンスベースのクエリを使用して関連するノートタイプを特定し、ローカルステージはそれらのノート内の高価値コンテンツを抽出し、ドキュメントレベルとセクションレベルの両方で関連性を生成する。
本システムを用いて,MIMIC-IIIデータセットから15種類の臨床ノートを作成した。
実験の結果、訪問中の時間的・意味的なアライメントを保ち、平均アライメントスコアは87.7%であり、実際の臨床医が発行したノートの80.7%を超えている。
生成された出力はまた、LLM間で高い一貫性を示し、再現性、信頼性、臨床信頼に不可欠な決定論的行動を強化する。
関連論文リスト
- ProMedTS: A Self-Supervised, Prompt-Guided Multimodal Approach for Integrating Medical Text and Time Series [27.70300880284899]
大規模言語モデル (LLM) は、視覚の細かいタスクにおいて顕著な性能を示してきたが、医療分野におけるそれらの応用はいまだに探索されていない。
ProMedTSは、データ型を統一するために、プロンプト誘導学習を利用する、新しい自己教師型マルチモーダルフレームワークである。
実世界のデータセットを用いた診断タスクにおけるProMedTSの評価を行い,本手法が常に最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2025-02-19T07:56:48Z) - DeIDClinic: A Multi-Layered Framework for De-identification of Clinical Free-text Data [6.473402241020136]
本研究は,臨床テキストを微調整した深層学習モデルであるCeriorBERTを統合することにより,MASKフレームワークを強化する。
このシステムは、臨床文書内の機密性のある実体を効果的に識別し、再認識するか、置き換える。
リスク評価機能も開発され、文書内のコンテキストのユニークさを分析してリスクレベルに分類する。
論文 参考訳(メタデータ) (2024-10-02T15:16:02Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - A Hybrid Framework with Large Language Models for Rare Disease Phenotyping [4.550497164299771]
希少な疾患は、その頻度が低く、異質な臨床的プレゼンテーションのため、診断と治療において重大な課題となる。
本研究では,辞書ベースの自然言語処理(NLP)ツールと大規模言語モデル(LLM)を組み合わせたハイブリッドアプローチを開発することを目的とする。
本稿では,Orphanet Rare Disease Ontology (ORDO) とUnified Medical Language System (UMLS) を統合した新たなハイブリッドフレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-16T20:59:28Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - Knowledge-Infused Prompting: Assessing and Advancing Clinical Text Data Generation with Large Language Models [46.32860360019374]
大規模言語モデル(LLM)はこの領域で有望だが、それらの直接的なデプロイはプライバシーの問題につながる可能性がある。
我々は,そのプロセスに知識を注入する,革新的で資源効率のよいアプローチであるClinGenを提案する。
7つのNLPタスクと16のデータセットを比較検討した結果,ClinGenはさまざまなタスクのパフォーマンスを継続的に向上させることがわかった。
論文 参考訳(メタデータ) (2023-11-01T04:37:28Z) - Development and validation of a natural language processing algorithm to
pseudonymize documents in the context of a clinical data warehouse [53.797797404164946]
この研究は、この領域でツールやリソースを共有する際に直面する困難を浮き彫りにしている。
臨床文献のコーパスを12種類に分類した。
私たちは、ディープラーニングモデルと手動ルールの結果をマージして、ハイブリッドシステムを構築します。
論文 参考訳(メタデータ) (2023-03-23T17:17:46Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。