論文の概要: Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images
- arxiv url: http://arxiv.org/abs/2504.01838v1
- Date: Wed, 02 Apr 2025 15:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:21:16.437519
- Title: Prompting Medical Vision-Language Models to Mitigate Diagnosis Bias by Generating Realistic Dermoscopic Images
- Title(参考訳): 実写皮膚内視鏡画像による診断バイアス軽減のための医用視線モデルの構築
- Authors: Nusrat Munia, Abdullah-Al-Zubaer Imran,
- Abstract要約: 皮膚科拡散変換器(DermDiT)
本稿では,視覚言語モデルとマルチモーダルテキスト画像学習を用いて生成したテキストプロンプトを利用して,新たな皮膚画像を生成する,新しい生成AIベースのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 0.31077024712075796
- License:
- Abstract: Artificial Intelligence (AI) in skin disease diagnosis has improved significantly, but a major concern is that these models frequently show biased performance across subgroups, especially regarding sensitive attributes such as skin color. To address these issues, we propose a novel generative AI-based framework, namely, Dermatology Diffusion Transformer (DermDiT), which leverages text prompts generated via Vision Language Models and multimodal text-image learning to generate new dermoscopic images. We utilize large vision language models to generate accurate and proper prompts for each dermoscopic image which helps to generate synthetic images to improve the representation of underrepresented groups (patient, disease, etc.) in highly imbalanced datasets for clinical diagnoses. Our extensive experimentation showcases the large vision language models providing much more insightful representations, that enable DermDiT to generate high-quality images. Our code is available at https://github.com/Munia03/DermDiT
- Abstract(参考訳): 皮膚疾患の診断における人工知能(AI)は大幅に改善されているが、特に皮膚色などの敏感な属性に関して、これらのモデルがサブグループ間に偏りのある性能を示すことが大きな懸念点である。
これらの問題に対処するために、視覚言語モデルとマルチモーダルテキスト画像学習を用いて生成したテキストプロンプトを利用して新しい皮膚内視鏡画像を生成する、新しい生成AIベースのフレームワークであるDermatology Diffusion Transformer(DermDiT)を提案する。
臨床診断のための高度にバランスのとれたデータセットにおいて、画像の合成を補助し、低発現群(患者、疾患等)の表現を改善するために、大規模な視覚言語モデルを用いて、各皮膚内視鏡画像に対して正確かつ適切なプロンプトを生成する。
我々の大規模な実験では、DermDiTが高品質な画像を生成することができるような、より洞察力に富んだ表現を提供する大規模な視覚言語モデルが紹介されている。
私たちのコードはhttps://github.com/Munia03/DermDiTで利用可能です。
関連論文リスト
- MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。
本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文 参考訳(メタデータ) (2025-02-11T09:42:13Z) - GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning [3.5948668755510136]
本稿では,視覚的特徴とテキスト的特徴を組み合わせた視覚的イメージキャプションのための新しい視覚言語モデルを提案する。
DeepEyeNetデータセットの実験では、0.023 BLEU@4の改善と重要な定性的な進歩が示されている。
論文 参考訳(メタデータ) (2024-12-23T03:49:29Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - Self-supervised Multi-modal Training from Uncurated Image and Reports
Enables Zero-shot Oversight Artificial Intelligence in Radiology [31.045221580446963]
医療用クロスアテンションビジョンランゲージモデル(医療用X-VL)を提案する。
我々のモデルは、ゼロショット分類からゼロショット誤り訂正まで、さまざまなゼロショットタスクを監視できる。
提案手法は,データ制限設定において特に有効であり,医療領域に広く適用可能である可能性が示唆された。
論文 参考訳(メタデータ) (2022-08-10T04:35:58Z) - Towards Highly Expressive Machine Learning Models of Non-Melanoma Skin
Cancer [0.0]
非メラノーマ皮膚癌の問題領域に離散的モデリング技術を適用する実験を行った。
我々は、病理学用語を用いて自然言語記述を生成するシーケンス・ツー・シーケンス・トランスフォーマーを訓練した。
その結果は、高度に表現力のある機械学習システムに向けた、有望な手段となる。
論文 参考訳(メタデータ) (2022-07-09T04:53:25Z) - Photorealistic Text-to-Image Diffusion Models with Deep Language
Understanding [53.170767750244366]
Imagenは、前例のないフォトリアリズムと深い言語理解を備えたテキスト間拡散モデルである。
テキスト・ツー・イメージ・モデルをより深く評価するために,テキスト・ツー・イメージ・モデルの総合的かつ挑戦的なベンチマークであるDrawBenchを紹介した。
論文 参考訳(メタデータ) (2022-05-23T17:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。