論文の概要: Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks
- arxiv url: http://arxiv.org/abs/2403.19880v1
- Date: Thu, 28 Mar 2024 23:26:45 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-01 16:54:17.924646
- Title: Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks
- Title(参考訳): 心エコー図を用いた視覚言語合成データの構築
- Authors: Pooria Ashrafian, Milad Yazdani, Moein Heidari, Dena Shahriari, Ilker Hacihaliloglu,
- Abstract要約: 本稿では,近年の視覚言語モデルを用いて,多彩でリアルな人工心エコー画像データを作成する。
合成データに含まれるリッチな文脈情報は、下流タスクの精度と解釈可能性を高める可能性があることを示す。
- 参考スコア(独自算出の注目度): 4.1942958779358674
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: High-quality, large-scale data is essential for robust deep learning models in medical applications, particularly ultrasound image analysis. Diffusion models facilitate high-fidelity medical image generation, reducing the costs associated with acquiring and annotating new images. This paper utilizes recent vision-language models to produce diverse and realistic synthetic echocardiography image data, preserving key features of the original images guided by textual and semantic label maps. Specifically, we investigate three potential avenues: unconditional generation, generation guided by text, and a hybrid approach incorporating both textual and semantic supervision. We show that the rich contextual information present in the synthesized data potentially enhances the accuracy and interpretability of downstream tasks, such as echocardiography segmentation and classification with improved metrics and faster convergence. Our implementation with checkpoints, prompts, and the created synthetic dataset will be publicly available at \href{https://github.com/Pooria90/DiffEcho}{GitHub}.
- Abstract(参考訳): 医療応用、特に超音波画像解析における堅牢なディープラーニングモデルには、高品質で大規模なデータが不可欠である。
拡散モデルは高忠実度医用画像生成を促進し、新しい画像の取得と注釈付けに伴うコストを低減させる。
本稿では,近年の視覚言語モデルを用いて,テキスト・セマンティック・ラベル・マップでガイドされた原画像のキーとなる特徴を保存し,多種多様かつリアルな合成心エコー画像データを生成する。
具体的には、非条件生成、テキストガイドによる生成、テキストと意味の両方を取り入れたハイブリッドアプローチの3つの道について検討する。
合成されたデータに含まれるリッチな文脈情報により、心エコー区分けや分類などの下流タスクの精度と解釈性が向上し、メトリクスが向上し、より高速な収束が期待できることを示す。
チェックポイント、プロンプト、生成した合成データセットによる実装は、 \href{https://github.com/Pooria90/DiffEcho}{GitHub}で公開されます。
関連論文リスト
- Transesophageal Echocardiography Generation using Anatomical Models [0.5679566039341877]
合成TEE画像と対応するセマンティックラベルを生成するパイプラインを開発する。
In the pipeline's unpaired image-to-image (I2I) translation section, we explore two generative methods。
合成画像を用いてデータセットを拡大すると、ダイススコアが最大10%向上する。
論文 参考訳(メタデータ) (2024-10-09T11:20:28Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images [22.455833806331384]
本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。
現在の最先端のアプローチは、低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。
論文 参考訳(メタデータ) (2023-10-05T14:16:22Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z) - Text-guided Foundation Model Adaptation for Pathological Image
Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。
CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文 参考訳(メタデータ) (2023-07-27T14:44:56Z) - Generalizable Synthetic Image Detection via Language-guided Contrastive
Learning [22.4158195581231]
偽ニュースの拡散や偽のプロフィールの作成などの合成画像の真偽の使用は、画像の真正性に関する重要な懸念を提起する。
本稿では,言語指導によるコントラスト学習と検出問題の新たな定式化による,シンプルで効果的な合成画像検出手法を提案する。
提案したLanguAge-guided SynThEsis Detection (LASTED) モデルでは,画像生成モデルに対する一般化性が大幅に向上していることが示されている。
論文 参考訳(メタデータ) (2023-05-23T08:13:27Z) - RoentGen: Vision-Language Foundation Model for Chest X-ray Generation [7.618389245539657]
我々は,胸部X線のコーパスに事前学習した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。
テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。
得られたモデル(RoentGen)が視覚的に説得力があり多様な合成CXR画像を生成することができることを示す。
論文 参考訳(メタデータ) (2022-11-23T06:58:09Z) - Re-Imagen: Retrieval-Augmented Text-to-Image Generator [58.60472701831404]
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
検索用テキスト・ツー・イメージ・ジェネレータ(再画像)
論文 参考訳(メタデータ) (2022-09-29T00:57:28Z) - Semantic segmentation of multispectral photoacoustic images using deep
learning [53.65837038435433]
光音響イメージングは医療に革命をもたらす可能性がある。
この技術の臨床的翻訳には、高次元取得したデータを臨床的に関連性があり解釈可能な情報に変換する必要がある。
本稿では,多スペクトル光音響画像のセマンティックセグメンテーションに対する深層学習に基づくアプローチを提案する。
論文 参考訳(メタデータ) (2021-05-20T09:33:55Z) - Deep Co-Attention Network for Multi-View Subspace Learning [73.3450258002607]
マルチビューサブスペース学習のための深層コアテンションネットワークを提案する。
共通情報と相補情報の両方を敵意で抽出することを目的としている。
特に、新しいクロス再構成損失を使用し、ラベル情報を利用して潜在表現の構築を誘導する。
論文 参考訳(メタデータ) (2021-02-15T18:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。