論文の概要: Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations
- arxiv url: http://arxiv.org/abs/2501.02385v1
- Date: Sat, 04 Jan 2025 21:23:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:09:17.659339
- Title: Guiding Medical Vision-Language Models with Explicit Visual Prompts: Framework Design and Comprehensive Exploration of Prompt Variations
- Title(参考訳): 鮮明な視覚プロンプトを用いた医用視覚ランゲージモデルの指導:フレームワーク設計とプロンプト変動の包括的探索
- Authors: Kangyu Zhu, Ziyuan Qin, Huahui Yi, Zekun Jiang, Qicheng Lao, Shaoting Zhang, Kang Li,
- Abstract要約: 医用視覚言語モデルのための視覚的プロンプト生成および微調整フレームワークであるMedVPを紹介する。
我々は、複数の医療用VQAデータセットにおいて、最新の最先端の大規模モデルを上回る結果を得た。
- 参考スコア(独自算出の注目度): 15.052986179046076
- License:
- Abstract: With the recent advancements in vision-language models (VLMs) driven by large language models (LLMs), many researchers have focused on models that comprised of an image encoder, an image-to-language projection layer, and a text decoder architectures, leading to the emergence of works like LLava-Med. However, these works primarily operate at the whole-image level, aligning general information from 2D medical images without attending to finer details. As a result, these models often provide irrelevant or non-clinically valuable information while missing critical details. Medical vision-language tasks differ significantly from general images, particularly in their focus on fine-grained details, while excluding irrelevant content. General domain VLMs tend to prioritize global information due to their design, which compresses the entire image into a multi-token representation that is passed into the LLM decoder. Therefore, current VLMs all lack the capability to restrict their attention to particular areas. To address this critical issue in the medical domain, we introduce MedVP, an visual prompt generation and fine-tuning framework, which involves extract medical entities, generate visual prompts, and adapt datasets for visual prompt guided fine-tuning. To the best of our knowledge, this is the first work to explicitly introduce visual prompt into medical VLMs, and we successfully outperform recent state-of-the-art large models across multiple medical VQA datasets. Extensive experiments are conducted to analyze the impact of different visual prompt forms and how they contribute to performance improvement. The results demonstrate both the effectiveness and clinical significance of our approach
- Abstract(参考訳): 大規模言語モデル(LLM)によって駆動される視覚言語モデル(VLM)の最近の進歩により、多くの研究者が画像エンコーダ、画像から言語への投影層、テキストデコーダアーキテクチャからなるモデルに注目し、LLava-Medのような作品の出現につながった。
しかし、これらの作品は、主に画像全体のレベルで動作し、2次元の医療画像からの一般的な情報を、より詳細な情報に出席することなく整列する。
その結果、これらのモデルは、重要な詳細を欠いている間に、無関係または非臨床的に価値のある情報を提供することが多い。
医用視覚言語タスクは一般的な画像とは大きく異なり、特に細かな細部に焦点をあてるが、無関係な内容は除く。
一般的なドメイン VLM は設計上グローバルな情報を優先する傾向があり、LLMデコーダに渡されるマルチトークン表現に全体像を圧縮する。
したがって、現在のVLMには、特定の領域に注意を向ける能力がない。
医用領域におけるこの重要な問題に対処するために,医用物体の抽出,視覚的プロンプトの生成,および視覚的プロンプトガイドによる微調整のためのデータセットの適応を含む視覚的プロンプト生成および微調整フレームワークであるMedVPを紹介する。
我々の知る限りでは、これは医療用VLMに視覚的プロンプトを明示的に導入する最初の試みであり、複数の医療用VQAデータセットで最新の最先端の大規模モデルを上回ることに成功しました。
様々な視覚的プロンプトフォームの影響と、それらがパフォーマンス改善にどのように貢献するかを分析するために、広範囲な実験が行われた。
その結果,我々のアプローチの有効性と臨床的意義が示された。
関連論文リスト
- A Survey of Medical Vision-and-Language Applications and Their Techniques [48.268198631277315]
医療ビジョン・アンド・ランゲージモデル(MVLM)は、複雑な医療データを解釈するための自然言語インタフェースを提供する能力から、大きな関心を集めている。
本稿では,MVLMの概要と適用した各種医療課題について概観する。
また、これらのタスクに使用するデータセットについても検討し、標準化された評価指標に基づいて異なるモデルの性能を比較した。
論文 参考訳(メタデータ) (2024-11-19T03:27:05Z) - LLaVA-Ultra: Large Chinese Language and Vision Assistant for Ultrasound [7.941670191244354]
パラメータ効率の調整による中国の医用視覚会話のための微粒化適応型VLMアーキテクチャを提案する。
具体的には、微妙な医用視覚意味論の強化を実現するために、微細な視覚エンコーダを備えた融合モジュールを考案する。
実施にあたっては,病院から得られた大規模マルチモーダル中国語超音波データセットを利用する。
論文 参考訳(メタデータ) (2024-10-19T11:38:31Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Intensive Vision-guided Network for Radiology Report Generation [22.030289124516326]
医用画像エンコーダにおける多視点視覚知覚をシミュレートし統合するためのGIAモジュールを提案する。
また,複数モーダル信号を用いて正確な一致したレポートを生成する方法,すなわち,予測済みの単語を領域認識型視覚コンテンツと統合して次の単語予測を行う方法について検討する。
論文 参考訳(メタデータ) (2024-02-06T06:46:46Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Artificial General Intelligence for Medical Imaging Analysis [92.3940918983821]
大規模人工知能(AGI)モデルは、様々な汎用ドメインタスクにおいて前例のない成功を収めた。
これらのモデルは、医学分野固有の複雑さとユニークな特徴から生じる顕著な課題に直面している。
このレビューは、医療画像、医療などにおけるAGIの将来的な意味についての洞察を提供することを目的としている。
論文 参考訳(メタデータ) (2023-06-08T18:04:13Z) - Medical Image Understanding with Pretrained Vision Language Models: A
Comprehensive Study [8.547751745702156]
我々は、事前学習された視覚言語モデル(VLM)から知識を引き出すための、よく設計された医療プロンプトが鍵であることを示している。
医用プロンプトの自動生成のための3つのアプローチを開発し,専門家レベルの医療知識と画像特異的情報を微粒な接地プロンプトに注入する。
論文 参考訳(メタデータ) (2022-09-30T15:06:13Z) - Multi-modal Understanding and Generation for Medical Images and Text via
Vision-Language Pre-Training [5.119201893752376]
本稿では,トランスフォーマーアーキテクチャと新しいマルチモーダルアテンションマスキング手法を組み合わせた医療ビジョン言語学習システム(MedViLL)を提案する。
我々は,タスク固有のアーキテクチャを含む様々なベースラインに対して,MedViLLのより優れたダウンストリームタスク性能を実証的に示す。
論文 参考訳(メタデータ) (2021-05-24T15:14:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。