論文の概要: Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks
- arxiv url: http://arxiv.org/abs/2403.19880v1
- Date: Thu, 28 Mar 2024 23:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:54:17.924646
- Title: Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks
- Title(参考訳): 心エコー図を用いた視覚言語合成データの構築
- Authors: Pooria Ashrafian, Milad Yazdani, Moein Heidari, Dena Shahriari, Ilker Hacihaliloglu,
- Abstract要約: 本稿では,近年の視覚言語モデルを用いて,多彩でリアルな人工心エコー画像データを作成する。
合成データに含まれるリッチな文脈情報は、下流タスクの精度と解釈可能性を高める可能性があることを示す。
- 参考スコア(独自算出の注目度): 4.1942958779358674
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-quality, large-scale data is essential for robust deep learning models in medical applications, particularly ultrasound image analysis. Diffusion models facilitate high-fidelity medical image generation, reducing the costs associated with acquiring and annotating new images. This paper utilizes recent vision-language models to produce diverse and realistic synthetic echocardiography image data, preserving key features of the original images guided by textual and semantic label maps. Specifically, we investigate three potential avenues: unconditional generation, generation guided by text, and a hybrid approach incorporating both textual and semantic supervision. We show that the rich contextual information present in the synthesized data potentially enhances the accuracy and interpretability of downstream tasks, such as echocardiography segmentation and classification with improved metrics and faster convergence. Our implementation with checkpoints, prompts, and the created synthetic dataset will be publicly available at \href{https://github.com/Pooria90/DiffEcho}{GitHub}.
- Abstract(参考訳): 医療応用、特に超音波画像解析における堅牢なディープラーニングモデルには、高品質で大規模なデータが不可欠である。
拡散モデルは高忠実度医用画像生成を促進し、新しい画像の取得と注釈付けに伴うコストを低減させる。
本稿では,近年の視覚言語モデルを用いて,テキスト・セマンティック・ラベル・マップでガイドされた原画像のキーとなる特徴を保存し,多種多様かつリアルな合成心エコー画像データを生成する。
具体的には、非条件生成、テキストガイドによる生成、テキストと意味の両方を取り入れたハイブリッドアプローチの3つの道について検討する。
合成されたデータに含まれるリッチな文脈情報により、心エコー区分けや分類などの下流タスクの精度と解釈性が向上し、メトリクスが向上し、より高速な収束が期待できることを示す。
チェックポイント、プロンプト、生成した合成データセットによる実装は、 \href{https://github.com/Pooria90/DiffEcho}{GitHub}で公開されます。
関連論文リスト
- Transesophageal Echocardiography Generation using Anatomical Models [0.5679566039341877]
合成TEE画像と対応するセマンティックラベルを生成するパイプラインを開発する。
In the pipeline's unpaired image-to-image (I2I) translation section, we explore two generative methods。
合成画像を用いてデータセットを拡大すると、ダイススコアが最大10%向上する。
論文 参考訳(メタデータ) (2024-10-09T11:20:28Z) - MediSyn: A Generalist Text-Guided Latent Diffusion Model For Diverse Medical Image Synthesis [4.541407789437896]
MediSynは6つの専門医と10種類の画像から合成画像を生成することができるテキスト誘導潜在拡散モデルである。
合成画像と実画像との直接比較により,本モデルが新規画像の合成を行い,患者のプライバシを重要視する可能性が確認された。
本研究は,一般画像生成モデルが医学におけるアルゴリズム研究と開発を加速する大きな可能性を浮き彫りにした。
論文 参考訳(メタデータ) (2024-05-16T04:28:44Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - DiffBoost: Enhancing Medical Image Segmentation via Text-Guided Diffusion Model [3.890243179348094]
医療応用のための堅牢で成功したディープラーニングモデルを開発するためには、大規模で大きな変動のある高品質なデータが不可欠である。
本稿では,DiffBoostと呼ばれる医用画像合成のための制御可能な拡散モデルを提案する。
近年の拡散確率モデルを利用して、現実的で多様な合成医用画像データを生成する。
論文 参考訳(メタデータ) (2023-10-19T16:18:02Z) - MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images [22.455833806331384]
本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。
現在の最先端のアプローチは、低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。
論文 参考訳(メタデータ) (2023-10-05T14:16:22Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Text-guided Foundation Model Adaptation for Pathological Image
Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文 参考訳(メタデータ) (2023-07-27T14:44:56Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。