論文の概要: MedThink: Inducing Medical Large-scale Visual Language Models to Hallucinate Less by Thinking More
- arxiv url: http://arxiv.org/abs/2406.11451v1
- Date: Mon, 17 Jun 2024 12:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:01:35.485674
- Title: MedThink: Inducing Medical Large-scale Visual Language Models to Hallucinate Less by Thinking More
- Title(参考訳): MedThink: 医療用大規模ビジュアル言語モデルの導入
- Authors: Yue Jiang, Jiawei Chen, Dingkang Yang, Mingcheng Li, Shunli Wang, Tong Wu, Ke Li, Lihua Zhang,
- Abstract要約: 大規模視覚言語モデル(LVLM)は多モード医療生成タスクに適用される。
LVLMは、重要なモデル幻覚に悩まされる。
本稿では,人間の認知過程を模倣して微細な命令ペアを構築する手法を提案する。
- 参考スコア(独自算出の注目度): 20.59298361626719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When Large Vision Language Models (LVLMs) are applied to multimodal medical generative tasks, they suffer from significant model hallucination issues. This severely impairs the model's generative accuracy, making it challenging for LVLMs to be implemented in real-world medical scenarios to assist doctors in diagnosis. Enhancing the training data for downstream medical generative tasks is an effective way to address model hallucination. Moreover, the limited availability of training data in the medical field and privacy concerns greatly hinder the model's accuracy and generalization capabilities. In this paper, we introduce a method that mimics human cognitive processes to construct fine-grained instruction pairs and apply the concept of chain-of-thought (CoT) from inference scenarios to training scenarios, thereby proposing a method called MedThink. Our experiments on various LVLMs demonstrate that our novel data construction method tailored for the medical domain significantly improves the model's performance in medical image report generation tasks and substantially mitigates the hallucinations. All resources of this work will be released soon.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)をマルチモーダルな医療生成タスクに適用する場合、それらは重要なモデル幻覚に悩まされる。
これにより、モデルの生成精度が著しく低下し、LVLMが現実の医療シナリオで実施され、医師が診断を行うのを助けることが困難になる。
下流医療生成タスクのトレーニングデータを強化することは、モデル幻覚に対処する効果的な方法である。
さらに、医療分野におけるトレーニングデータの可用性の制限とプライバシに関する懸念により、モデルの精度と一般化能力は大きく損なわれる。
本稿では,人間の認知過程を模倣して微細な命令ペアを構築する手法を提案し,推論シナリオからトレーニングシナリオへのチェーン・オブ・シント(CoT)の概念の適用により,MedThinkと呼ばれる手法を提案する。
種々のLVLMに関する実験により,医療領域に適した新しいデータ構築手法が,医用画像レポート作成タスクにおけるモデルの性能を大幅に改善し,幻覚を著しく軽減することを示した。
この作業のすべてのリソースはまもなくリリースされます。
関連論文リスト
- MINDSETS: Multi-omics Integration with Neuroimaging for Dementia Subtyping and Effective Temporal Study [0.7751705157998379]
アルツハイマー病(AD)と血管性認知症(VaD)は最も多い認知症である。
本稿では、ADとVaDを正確に区別する革新的なマルチオミクス手法を提案し、89.25%の精度で診断を行う。
論文 参考訳(メタデータ) (2024-11-06T10:13:28Z) - MMed-RAG: Versatile Multimodal RAG System for Medical Vision Language Models [49.765466293296186]
近年,Med-LVLM (Med-LVLMs) の進歩により,対話型診断ツールの新たな可能性が高まっている。
Med-LVLMは、しばしば事実の幻覚に悩まされ、誤った診断につながることがある。
我々は,Med-LVLMの現実性を高めるために,多目的マルチモーダルRAGシステムMMed-RAGを提案する。
論文 参考訳(メタデータ) (2024-10-16T23:03:27Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - MiniGPT-Med: Large Language Model as a General Interface for Radiology Diagnosis [28.421857904824627]
MiniGPT-Medは、大規模言語モデルから派生したヴィジュアル言語モデルであり、医学的応用に適したものである。
医療報告生成、視覚的質問応答(VQA)、医療画像内の疾患識別などのタスクを実行することができる。
医療報告生成の最先端性能は,従来の最良モデルよりも19%高い精度で達成される。
論文 参考訳(メタデータ) (2024-07-04T18:21:10Z) - Towards Knowledge-Infused Automated Disease Diagnosis Assistant [14.150224660741939]
患者と医師の相互作用に基づく疾患を識別する診断アシスタントを構築した。
本稿では,患者と医師のコミュニケーションを符号化した2チャンネル型談話認識疾患診断モデル(KI-DDI)を提案する。
次の段階では、会話と知識グラフの埋め込みが統合され、病気の識別のためにディープニューラルネットワークに供給される。
論文 参考訳(メタデータ) (2024-05-18T05:18:50Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Leveraging A Medical Knowledge Graph into Large Language Models for
Diagnosis Prediction [7.5569033426158585]
自動診断におけるLarge Language Models (LLMs) の習熟度を高めるための革新的なアプローチを提案する。
我々は,国立医科大学統一医療言語システム(UMLS)からKGを抽出した。
我々のアプローチは説明可能な診断経路を提供し、AIによる診断決定支援システムの実現に近づいている。
論文 参考訳(メタデータ) (2023-08-28T06:05:18Z) - PromptMRG: Diagnosis-Driven Prompts for Medical Report Generation [7.508437260320598]
医療報告作成のための診断駆動プロンプト(PromptMRG)を提案する。
PromptMRGは、追加の疾患分類ブランチを持つエンコーダデコーダアーキテクチャに基づいている。
クロスモーダル機能拡張は、クエリイメージの診断を支援するために、データベースから類似したレポートを検索する。
論文 参考訳(メタデータ) (2023-08-24T07:10:31Z) - Cross-Modal Causal Intervention for Medical Report Generation [109.83549148448469]
医療報告生成(MRG)は、コンピュータ支援診断と治療指導に不可欠である。
視覚的および言語的バイアスによって引き起こされる画像テキストデータ内の素早い相関のため、病変領域を確実に記述した正確なレポートを生成することは困難である。
本稿では,視覚分解モジュール (VDM) と言語分解モジュール (LDM) からなるMRGのための新しい視覚言語因果干渉 (VLCI) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-16T07:23:55Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - Graph-Evolving Meta-Learning for Low-Resource Medical Dialogue
Generation [150.52617238140868]
ソース疾患からターゲット疾患へ診断経験を移すために、低リソースの医療対話生成を提案します。
また,新しい疾患の症状相関を推論するためのコモンセンスグラフの進化を学習するグラフ進化メタラーニングフレームワークを開発した。
論文 参考訳(メタデータ) (2020-12-22T13:20:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。