論文の概要: Less Context, Same Performance: A RAG Framework for Resource-Efficient LLM-Based Clinical NLP
- arxiv url: http://arxiv.org/abs/2505.20320v1
- Date: Fri, 23 May 2025 16:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.166437
- Title: Less Context, Same Performance: A RAG Framework for Resource-Efficient LLM-Based Clinical NLP
- Title(参考訳): 低コンテキスト, 同じパフォーマンス: 資源効率LLMベース臨床NLPのためのRAGフレームワーク
- Authors: Satya Narayana Cheetirala, Ganesh Raut, Dhavalkumar Patel, Fabio Sanatana, Robert Freeman, Matthew A Levin, Girish N. Nadkarni, Omar Dawkins, Reba Miller, Randolph M. Steinhagen, Eyal Klang, Prem Timsina,
- Abstract要約: トークン制限と高い計算コストのため,Large Language Models (LLM) では長いテキスト分類が困難である。
本研究では,最も関連性の高いテキストセグメントのみを用いた検索拡張生成(RAG)アプローチが,臨床ノート全体の処理性能に適合するかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.18149976637753015
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Long text classification is challenging for Large Language Models (LLMs) due to token limits and high computational costs. This study explores whether a Retrieval Augmented Generation (RAG) approach using only the most relevant text segments can match the performance of processing entire clinical notes with large context LLMs. We begin by splitting clinical documents into smaller chunks, converting them into vector embeddings, and storing these in a FAISS index. We then retrieve the top 4,000 words most pertinent to the classification query and feed these consolidated segments into an LLM. We evaluated three LLMs (GPT4o, LLaMA, and Mistral) on a surgical complication identification task. Metrics such as AUC ROC, precision, recall, and F1 showed no statistically significant differences between the RAG based approach and whole-text processing (p > 0.05p > 0.05). These findings indicate that RAG can significantly reduce token usage without sacrificing classification accuracy, providing a scalable and cost effective solution for analyzing lengthy clinical documents.
- Abstract(参考訳): トークン制限と高い計算コストのため,Large Language Models (LLM) では長いテキスト分類が難しい。
本研究では,最も関連性の高いテキストセグメントのみを用いた検索拡張生成(RAG)アプローチが,臨床ノート全体の処理性能と大きなコンテキストLLMとを一致させるかどうかを検討する。
まず、臨床文書を小さなチャンクに分割し、それらをベクター埋め込みに変換し、それらをFAISSインデックスに格納することから始めます。
次に、分類クエリに最も関連性の高い上位4,000語を検索し、統合されたセグメントをLLMにフィードする。
GPT4o, LLaMA, Mistralの3種類のLSMを外科的合併症同定作業で評価した。
AUC ROC、精度、リコール、F1などの指標では、RAGベースのアプローチと全文処理(p > 0.05p > 0.05)の間に統計的に有意な差は見られなかった。
これらの結果から,RAGは分類精度を犠牲にすることなくトークン使用量を大幅に削減できる可能性が示唆された。
関連論文リスト
- CaseReportBench: An LLM Benchmark Dataset for Dense Information Extraction in Clinical Case Reports [4.477840500181267]
IEMに着目したケースレポートの高密度情報抽出のためのエキスパートアノテートデータセットであるCaseReportBenchを紹介する。
我々は、カテゴリ固有のプロンプトやサブヘッダーによるデータ統合のような新しいアプローチを導入し、様々なモデルとプロンプト戦略を評価する。
臨床評価の結果,LSMは症例報告から臨床的に関連性のある詳細を抽出し,稀な疾患の診断と管理を支援することが示唆された。
論文 参考訳(メタデータ) (2025-05-22T20:21:32Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LaRA: Benchmarking Retrieval-Augmented Generation and Long-Context LLMs -- No Silver Bullet for LC or RAG Routing [70.35888047551643]
本稿では,RAGとLC LLMを厳格に比較するための新しいベンチマークであるLaRAを提案する。
LaRAは4つのQAタスクカテゴリと3種類の自然発生長文の2326のテストケースを含んでいる。
RAGとLCの最適選択は,モデルのパラメータサイズ,長文機能,コンテキスト長,タスクタイプ,取得したチャンクの特性など,複雑な相互作用に依存する。
論文 参考訳(メタデータ) (2025-02-14T08:04:22Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - From RAGs to riches: Utilizing large language models to write documents for clinical trials [0.0]
この記事は、現在ジャーナルのウェブサイトで公開されている: https://journals.sagepub.com/doi177/174077452520806。
公開リンク: https://pubmed.ncbi.nlm.nih.gov/40013826/
論文 参考訳(メタデータ) (2024-02-26T08:59:05Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。