論文の概要: VisionCLIP: An Med-AIGC based Ethical Language-Image Foundation Model for Generalizable Retina Image Analysis
- arxiv url: http://arxiv.org/abs/2403.10823v1
- Date: Sat, 16 Mar 2024 06:21:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 21:35:14.993561
- Title: VisionCLIP: An Med-AIGC based Ethical Language-Image Foundation Model for Generalizable Retina Image Analysis
- Title(参考訳): VisionCLIP: 一般化可能な網膜画像解析のためのMed-AIGCに基づく倫理的言語画像基盤モデル
- Authors: Hao Wei, Bowen Liu, Minqing Zhang, Peilun Shi, Wu Yuan,
- Abstract要約: VisionCLIPと呼ばれる網膜画像解析のための倫理的言語イメージ基盤モデルをキュレートするために、自然言語記述と組み合わせた100万のオープンソース合成基礎画像を利用する。
VisionCLIPは、ゼロショット方式で実世界のデータで事前訓練された既存の方法と比較して、3つの外部データセット上での競合性能を達成する。
人工的に合成された画像と、それに対応するテキストデータとを併用することにより、医療基盤モデルは、疾患症状学の知識をうまく同化することができ、患者の機密性の潜在的な侵害を回避することができる。
- 参考スコア(独自算出の注目度): 10.151693987418348
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalist foundation model has ushered in newfound capabilities in medical domain. However, the contradiction between the growing demand for high-quality annotated data with patient privacy continues to intensify. The utilization of medical artificial intelligence generated content (Med-AIGC) as an inexhaustible resource repository arises as a potential solution to address the aforementioned challenge. Here we harness 1 million open-source synthetic fundus images paired with natural language descriptions, to curate an ethical language-image foundation model for retina image analysis named VisionCLIP. VisionCLIP achieves competitive performance on three external datasets compared with the existing method pre-trained on real-world data in a zero-shot fashion. The employment of artificially synthetic images alongside corresponding textual data for training enables the medical foundation model to successfully assimilate knowledge of disease symptomatology, thereby circumventing potential breaches of patient confidentiality.
- Abstract(参考訳): ジェネラリスト基礎モデルは、医療領域における新しい基礎的能力の基盤となっている。
しかし、高品質な注釈付きデータの需要の増加と患者のプライバシーとの矛盾はますます強まり続けている。
医療用人工知能生成コンテンツ(Med-AIGC)の資源リポジトリとしての利用は、上記の課題に対処するための潜在的な解決策として生じる。
ここでは、自然言語記述と組み合わせた100万のオープンソース合成基礎画像を用いて、VisionCLIPという網膜画像解析のための倫理的言語イメージ基盤モデルをキュレートする。
VisionCLIPは、ゼロショット方式で実世界のデータで事前訓練された既存の方法と比較して、3つの外部データセット上での競合性能を達成する。
人工的に合成された画像と、それに対応するテキストデータとを併用することにより、医療基盤モデルは、疾患症状学の知識をうまく同化することができ、患者の機密性の潜在的な侵害を回避することができる。
関連論文リスト
- An Integrated Approach to AI-Generated Content in e-health [0.0]
合成医用画像とテキストデータを生成するためのエンドツーエンドのクラス条件付きフレームワークを提案する。
我々のフレームワークはDiffusion and Large Language Models(LLM)を統合し、現実世界のパターンによくマッチするデータを生成する。
論文 参考訳(メタデータ) (2025-01-18T14:35:29Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
大規模なデータセットのトレーニングによるスケーリングは、画像生成の品質と忠実度を高め、拡散モデルによる操作を可能にすることが示されている。
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
本研究は,異なる微調整方式と組み合わせた場合,様々なシナリオにおいて顕著な性能向上を示すものである。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - GCS-M3VLT: Guided Context Self-Attention based Multi-modal Medical Vision Language Transformer for Retinal Image Captioning [3.5948668755510136]
本稿では,視覚的特徴とテキスト的特徴を組み合わせた視覚的イメージキャプションのための新しい視覚言語モデルを提案する。
DeepEyeNetデータセットの実験では、0.023 BLEU@4の改善と重要な定性的な進歩が示されている。
論文 参考訳(メタデータ) (2024-12-23T03:49:29Z) - RET-CLIP: A Retinal Image Foundation Model Pre-trained with Clinical Diagnostic Reports [19.915033191502328]
Vision-Language Foundationモデルは、コンピュータビジョンと自然言語処理の分野でますます研究されている。
この問題に対処するために,CLIP型網膜画像基盤モデルを開発した。
我々の基礎モデルであるRET-CLIPは、カラーファンドスの一般的な特徴を抽出するために、193,865人の患者のデータセットで特別に訓練されている。
論文 参考訳(メタデータ) (2024-05-23T03:20:51Z) - MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis [4.541407789437896]
MediSynは6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルである。
合成画像と実画像との直接比較により,本モデルが新規画像の合成を行い,患者のプライバシを重要視する可能性が確認された。
本研究は,一般画像生成モデルが医学におけるアルゴリズム研究と開発を加速する大きな可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-16T04:28:44Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Adapting Pretrained Vision-Language Foundational Models to Medical
Imaging Domains [3.8137985834223502]
臨床の文脈を忠実に描写する医療画像の生成モデルを構築することは、医療データセットの不明瞭さを軽減するのに役立つ。
安定拡散パイプラインのサブコンポーネントを探索し、モデルを微調整して医用画像を生成する。
我々の最良の性能モデルは、安定な拡散ベースラインを改善し、合成ラジオグラフィ画像に現実的な異常を挿入するように条件付けすることができる。
論文 参考訳(メタデータ) (2022-10-09T01:43:08Z) - Data-driven generation of plausible tissue geometries for realistic
photoacoustic image synthesis [53.65837038435433]
光音響トモグラフィ(pat)は形態的および機能的組織特性を回復する可能性がある。
我々は,PATデータシミュレーションの新たなアプローチを提案し,これを「シミュレーションの学習」と呼ぶ。
我々は、意味的注釈付き医療画像データに基づいて訓練されたGAN(Generative Adversarial Networks)の概念を活用して、可塑性組織ジオメトリを生成する。
論文 参考訳(メタデータ) (2021-03-29T11:30:18Z) - Privacy-preserving medical image analysis [53.4844489668116]
医用画像におけるプライバシ保護機械学習(PPML)のためのソフトウェアフレームワークであるPriMIAを提案する。
集合型学習モデルの分類性能は,未発見データセットの人間専門家と比較して有意に良好である。
グラデーションベースのモデル反転攻撃に対するフレームワークのセキュリティを実証的に評価する。
論文 参考訳(メタデータ) (2020-12-10T13:56:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。