論文の概要: Application of NotebookLM, a Large Language Model with Retrieval-Augmented Generation, for Lung Cancer Staging
- arxiv url: http://arxiv.org/abs/2410.10869v1
- Date: Tue, 08 Oct 2024 12:42:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-20 09:11:15.090940
- Title: Application of NotebookLM, a Large Language Model with Retrieval-Augmented Generation, for Lung Cancer Staging
- Title(参考訳): 検索型大規模言語モデル NotebookLM の肺癌診断への応用
- Authors: Ryota Tozuka, Hisashi Johno, Akitomo Amakawa, Junichi Sato, Mizuki Muto, Shoichiro Seki, Atsushi Komaba, Hiroshi Onishi,
- Abstract要約: 本研究は,最近リリースされたRAG-LLM(NotebookLM)の有用性と信頼性について検討した。
NotebookLMは肺がんのステージング実験において86%の診断精度を達成し、GPT-4oを39%の精度で上回った。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Purpose: In radiology, large language models (LLMs), including ChatGPT, have recently gained attention, and their utility is being rapidly evaluated. However, concerns have emerged regarding their reliability in clinical applications due to limitations such as hallucinations and insufficient referencing. To address these issues, we focus on the latest technology, retrieval-augmented generation (RAG), which enables LLMs to reference reliable external knowledge (REK). Specifically, this study examines the utility and reliability of a recently released RAG-equipped LLM (RAG-LLM), NotebookLM, for staging lung cancer. Materials and methods: We summarized the current lung cancer staging guideline in Japan and provided this as REK to NotebookLM. We then tasked NotebookLM with staging 100 fictional lung cancer cases based on CT findings and evaluated its accuracy. For comparison, we performed the same task using a gold-standard LLM, GPT-4 Omni (GPT-4o), both with and without the REK. Results: NotebookLM achieved 86% diagnostic accuracy in the lung cancer staging experiment, outperforming GPT-4o, which recorded 39% accuracy with the REK and 25% without it. Moreover, NotebookLM demonstrated 95% accuracy in searching reference locations within the REK. Conclusion: NotebookLM successfully performed lung cancer staging by utilizing the REK, demonstrating superior performance compared to GPT-4o. Additionally, it provided highly accurate reference locations within the REK, allowing radiologists to efficiently evaluate the reliability of NotebookLM's responses and detect possible hallucinations. Overall, this study highlights the potential of NotebookLM, a RAG-LLM, in image diagnosis.
- Abstract(参考訳): 目的: 放射線学においては,ChatGPTを含む大規模言語モデル(LLM)が近年注目され,その実用性は急速に評価されている。
しかし、幻覚や参照不足などの限界により、臨床応用における信頼性が懸念されている。
これらの課題に対処するため、LLMが信頼性のある外部知識(REK)を参照できるようにする最新の技術である検索強化世代(RAG)に焦点を当てる。
具体的には,最近リリースされたRAG-LLM(NotebookLM)の有用性と信頼性について検討した。
資料と方法:本邦における現在の肺癌ステージングガイドラインを要約し,REK to NotebookLMとして提供した。
その後,CTによる肺がん100例のステージングを行い,その精度を評価した。
比較のために, 金標準LLM, GPT-4 Omni (GPT-4o) を用いて, REKを使用・使用せずに同じ作業を行った。
結果: NotebookLM は肺がんステージング実験において 86% の診断精度を達成し, GPT-4o を39% の精度で上回り, 25% の精度を示した。
さらに、NotebookLMは、REK内の参照位置を95%精度で検索することを示した。
結論: NotebookLM は REK を用いて肺がんのステージングを成功させ,GPT-4o よりも優れた性能を示した。
さらに、REK内の高精度な参照位置を提供し、放射線学者はNotebookLMの応答の信頼性を効率的に評価し、幻覚を検出できる。
本研究は、画像診断におけるRAG-LLMであるNotebookLMの可能性を明らかにする。
関連論文リスト
- Comprehensive and Practical Evaluation of Retrieval-Augmented Generation Systems for Medical Question Answering [70.44269982045415]
Retrieval-augmented Generation (RAG) は,大規模言語モデル (LLM) の性能向上のための有望なアプローチとして登場した。
医療用QAデータセットに様々な補助的要素を提供するMedRGB(MedRGB)を導入する。
実験結果から,検索した文書のノイズや誤情報の処理能力に限界があることが判明した。
論文 参考訳(メタデータ) (2024-11-14T06:19:18Z) - Preference Fine-Tuning for Factuality in Chest X-Ray Interpretation Models Without Human Feedback [10.826651024680169]
放射線技師は医療画像を医療報告に翻訳することで重要な役割を担っている。
視覚言語モデル(VLM)を用いた自動アプローチは、アシスタントとして有望であるが、非常に高い精度を必要とする。
胸部X線(CXR)レポート生成に着目し,放射線学におけるVLMの自動選好アライメント手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T16:07:11Z) - Closing the gap between open-source and commercial large language models for medical evidence summarization [20.60798771155072]
大規模言語モデル(LLM)は、医学的証拠の要約において大きな可能性を秘めている。
最近の研究は、プロプライエタリなLLMの応用に焦点を当てている。
オープンソースのLLMは透明性とカスタマイズを向上するが、そのパフォーマンスはプロプライエタリなものに比べて低下する。
論文 参考訳(メタデータ) (2024-07-25T05:03:01Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - Boosting Medical Image-based Cancer Detection via Text-guided Supervision from Reports [68.39938936308023]
本研究では, 高精度ながん検出を実現するための新しいテキスト誘導学習法を提案する。
本手法は,大規模プレトレーニングVLMによる臨床知識の活用により,一般化能力の向上が期待できる。
論文 参考訳(メタデータ) (2024-05-23T07:03:38Z) - Development and Testing of Retrieval Augmented Generation in Large
Language Models -- A Case Study Report [2.523433459887027]
Retrieval Augmented Generation (RAG)は、大規模言語モデル(LLM)におけるドメイン知識をカスタマイズするための有望なアプローチとして出現する。
LLM-RAGモデルを35の術前ガイドラインを用いて開発し,人為的反応に対して試験を行った。
このモデルでは平均15~20秒で回答が生成され、人間の要求する10分よりもはるかに速くなった。
論文 参考訳(メタデータ) (2024-01-29T06:49:53Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - MKRAG: Medical Knowledge Retrieval Augmented Generation for Medical Question Answering [45.84961106102445]
大規模言語モデル(LLM)は、医療質問応答(QA)のようなドメイン固有のタスクでよく機能しないことが多い。
本稿では,医学的事実を外部知識ベースから抽出し,LLMのクエリプロンプトに注入するための総合的検索手法を提案する。
Vicuna-7Bは44.46%から48.54%の精度向上を示した。
論文 参考訳(メタデータ) (2023-09-27T21:26:03Z) - How far is Language Model from 100% Few-shot Named Entity Recognition in Medical Domain [14.635536657783613]
本研究の目的は、医療領域における100%Few-shot NERのLMのパフォーマンスを比較して、医療領域における100%Few-shot NERのLMのパフォーマンスについて答えることである。
以上の結果から, LLMは, 適切な例や適切な論理的枠組みの存在から, 数発のNERタスクにおいてSLMよりも優れていたことが示唆された。
本研究では, 検索者, 関連事例, 思考者として機能し, ステップ・バイ・ステップの推論プロセスを採用する,textscRT (Retrieving and Thinking) という, シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-07-01T01:18:09Z) - Is ChatGPT Good at Search? Investigating Large Language Models as
Re-Ranking Agents [56.104476412839944]
大規模言語モデル(LLM)は、様々な言語関連タスクにまたがる顕著なゼロショットの一般化を実証している。
本稿では、情報検索(IR)における関連性ランキングのためのジェネレーティブLLMについて検討する。
LLMのデータ汚染に関する懸念に対処するため,我々はNovereEvalという新しいテストセットを収集した。
実世界のアプリケーションの効率を向上させるため、ChatGPTのランキング能力を小さな特殊モデルに蒸留する可能性を探る。
論文 参考訳(メタデータ) (2023-04-19T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。