論文の概要: MedThink: Inducing Medical Large-scale Visual Language Models to Hallucinate Less by Thinking More
- arxiv url: http://arxiv.org/abs/2406.11451v1
- Date: Mon, 17 Jun 2024 12:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 15:01:35.485674
- Title: MedThink: Inducing Medical Large-scale Visual Language Models to Hallucinate Less by Thinking More
- Title(参考訳): MedThink: 医療用大規模ビジュアル言語モデルの導入
- Authors: Yue Jiang, Jiawei Chen, Dingkang Yang, Mingcheng Li, Shunli Wang, Tong Wu, Ke Li, Lihua Zhang,
- Abstract要約: 大規模視覚言語モデル(LVLM)は多モード医療生成タスクに適用される。
LVLMは、重要なモデル幻覚に悩まされる。
本稿では,人間の認知過程を模倣して微細な命令ペアを構築する手法を提案する。
- 参考スコア(独自算出の注目度): 20.59298361626719
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When Large Vision Language Models (LVLMs) are applied to multimodal medical generative tasks, they suffer from significant model hallucination issues. This severely impairs the model's generative accuracy, making it challenging for LVLMs to be implemented in real-world medical scenarios to assist doctors in diagnosis. Enhancing the training data for downstream medical generative tasks is an effective way to address model hallucination. Moreover, the limited availability of training data in the medical field and privacy concerns greatly hinder the model's accuracy and generalization capabilities. In this paper, we introduce a method that mimics human cognitive processes to construct fine-grained instruction pairs and apply the concept of chain-of-thought (CoT) from inference scenarios to training scenarios, thereby proposing a method called MedThink. Our experiments on various LVLMs demonstrate that our novel data construction method tailored for the medical domain significantly improves the model's performance in medical image report generation tasks and substantially mitigates the hallucinations. All resources of this work will be released soon.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)をマルチモーダルな医療生成タスクに適用する場合、それらは重要なモデル幻覚に悩まされる。
これにより、モデルの生成精度が著しく低下し、LVLMが現実の医療シナリオで実施され、医師が診断を行うのを助けることが困難になる。
下流医療生成タスクのトレーニングデータを強化することは、モデル幻覚に対処する効果的な方法である。
さらに、医療分野におけるトレーニングデータの可用性の制限とプライバシに関する懸念により、モデルの精度と一般化能力は大きく損なわれる。
本稿では,人間の認知過程を模倣して微細な命令ペアを構築する手法を提案し,推論シナリオからトレーニングシナリオへのチェーン・オブ・シント(CoT)の概念の適用により,MedThinkと呼ばれる手法を提案する。
種々のLVLMに関する実験により,医療領域に適した新しいデータ構築手法が,医用画像レポート作成タスクにおけるモデルの性能を大幅に改善し,幻覚を著しく軽減することを示した。
この作業のすべてのリソースはまもなくリリースされます。
関連論文リスト
- MedVH: Towards Systematic Evaluation of Hallucination for Large Vision Language Models in the Medical Context [21.562034852024272]
LVLM(Large Vision Language Models)は、最近、自然画像やテキストデータにおける様々なタスクにおいて、優れたパフォーマンスを実現している。
それらの進歩にもかかわらず、より小さなデータセットで微調整された場合の幻覚に対するこれらのモデルの堅牢性について、精査された研究がなされている。
領域固有のLVLMの幻覚を評価するために,新しいベンチマークデータセットであるMedVH(MedVH)を導入する。
論文 参考訳(メタデータ) (2024-07-03T00:59:03Z) - STLLaVA-Med: Self-Training Large Language and Vision Assistant for Medical [58.79671189792399]
STLLaVA-Medは、医療ビジュアルインストラクションデータを自動生成できるポリシーモデルを訓練するために設計されている。
STLLaVA-Medの有効性とデータ効率を3つの主要な医用視覚質問応答(VQA)ベンチマークで検証した。
論文 参考訳(メタデータ) (2024-06-28T15:01:23Z) - Disease-informed Adaptation of Vision-Language Models [14.081146704890745]
本稿では,医用画像解析におけるVLMを用いた伝達学習の可能性について検討する。
VLMの効果的な適応は、疾患概念のニュアンス表現学習に影響を及ぼすと論じている。
本稿では,新しい病原体学習フレームワークにおいて,病原体によるコンテキストプロンプトを導入する。
論文 参考訳(メタデータ) (2024-05-24T17:18:02Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Large Language Model Distilling Medication Recommendation Model [61.89754499292561]
大規模言語モデル(LLM)の強力な意味理解と入力非依存特性を利用する。
本研究は, LLMを用いて既存の薬剤推奨手法を変換することを目的としている。
これを軽減するため,LLMの習熟度をよりコンパクトなモデルに伝達する機能レベルの知識蒸留技術を開発した。
論文 参考訳(メタデータ) (2024-02-05T08:25:22Z) - Improving Medical Report Generation with Adapter Tuning and Knowledge
Enhancement in Vision-Language Foundation Models [26.146579369491718]
この研究は、一般的な大規模基盤モデルをカスタマイズするための最先端のビジョン言語事前学習および微調整アプローチBLIP-2に基づく。
ImageCLEFmedical 2023のデータセットのバリデーションでは、いくつかの最先端手法に対して、最も優れた平均結果が得られる。
論文 参考訳(メタデータ) (2023-12-07T01:01:45Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Towards Medical Artificial General Intelligence via Knowledge-Enhanced
Multimodal Pretraining [121.89793208683625]
医療人工知能(MAGI)は、1つの基礎モデルで異なる医療課題を解くことができる。
我々は、Micical-knedge-enhanced mulTimOdal pretRaining (motoR)と呼ばれる新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-04-26T01:26:19Z) - Understanding the Tricks of Deep Learning in Medical Image Segmentation:
Challenges and Future Directions [66.40971096248946]
本稿では,モデル実装の異なるフェーズに対して,MedISegの一連のトリックを収集する。
本稿では,これらの手法の有効性を一貫したベースライン上で実験的に検討する。
私たちはまた、それぞれのコンポーネントがプラグインとプレイの利点を持つ強力なMedISegリポジトリをオープンソースにしました。
論文 参考訳(メタデータ) (2022-09-21T12:30:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。