論文の概要: Synthetic Boost: Leveraging Synthetic Data for Enhanced Vision-Language
Segmentation in Echocardiography
- arxiv url: http://arxiv.org/abs/2309.12829v1
- Date: Fri, 22 Sep 2023 12:36:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-25 14:40:31.462344
- Title: Synthetic Boost: Leveraging Synthetic Data for Enhanced Vision-Language
Segmentation in Echocardiography
- Title(参考訳): 合成ブースト:心エコー図における視覚言語セグメンテーション強化のための合成データの利用
- Authors: Rabin Adhikari, Manish Dhakal, Safal Thapaliya, Kanchan Poudel,
Prasiddha Bhandari, Bishesh Khanal
- Abstract要約: VLSM(Vision-Language Models)は、リッチなコンテキスト情報を組み込んで、正確で説明可能なセグメンテーションを支援する。
本研究では,セマンティック拡散モデル(SDM)の合成データセットを用いて心エコー区分けのためのVLSMを強化する。
実画像の微調整前に,SDM合成画像上でのVLSMの事前学習において,測定値の改善と収束の高速化が得られた。
- 参考スコア(独自算出の注目度): 0.9324036842528547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate segmentation is essential for echocardiography-based assessment of
cardiovascular diseases (CVDs). However, the variability among sonographers and
the inherent challenges of ultrasound images hinder precise segmentation. By
leveraging the joint representation of image and text modalities,
Vision-Language Segmentation Models (VLSMs) can incorporate rich contextual
information, potentially aiding in accurate and explainable segmentation.
However, the lack of readily available data in echocardiography hampers the
training of VLSMs. In this study, we explore using synthetic datasets from
Semantic Diffusion Models (SDMs) to enhance VLSMs for echocardiography
segmentation. We evaluate results for two popular VLSMs (CLIPSeg and CRIS)
using seven different kinds of language prompts derived from several
attributes, automatically extracted from echocardiography images, segmentation
masks, and their metadata. Our results show improved metrics and faster
convergence when pretraining VLSMs on SDM-generated synthetic images before
finetuning on real images. The code, configs, and prompts are available at
https://github.com/naamiinepal/synthetic-boost.
- Abstract(参考訳): 心血管疾患(CVD)の心エコーによる評価には,正確なセグメンテーションが不可欠である。
しかし、ソノグラフィーの多様性と超音波画像の固有の課題は、正確なセグメンテーションを妨げている。
VLSM(Vision-Language Segmentation Models)は、画像とテキストのモダリティの合同表現を活用することで、リッチなコンテキスト情報を組み込んで、正確で説明可能なセグメンテーションを支援する。
しかし, 心エコー図におけるデータ不足は, VLSMの訓練を妨げている。
本研究では,セマンティック拡散モデル(SDM)の合成データセットを用いて心エコー区分けのためのVLSMを強化する。
心エコー画像,セグメンテーションマスク,およびそれらのメタデータから自動的に抽出される,いくつかの属性から派生した7種類の言語プロンプトを用いて,人気のVLSM (CLIPSeg と CRIS) の評価を行った。
実画像の微調整前に,SDM合成画像上でのVLSMの事前学習において,測定値の改善と収束の高速化が得られた。
コード、設定、プロンプトはhttps://github.com/naamiinepal/synthetic-boost.comで入手できる。
関連論文リスト
- Vision-Language Synthetic Data Enhances Echocardiography Downstream Tasks [4.1942958779358674]
本稿では,近年の視覚言語モデルを用いて,多彩でリアルな人工心エコー画像データを作成する。
合成データに含まれるリッチな文脈情報は、下流タスクの精度と解釈可能性を高める可能性があることを示す。
論文 参考訳(メタデータ) (2024-03-28T23:26:45Z) - CathFlow: Self-Supervised Segmentation of Catheters in Interventional Ultrasound Using Optical Flow and Transformers [66.15847237150909]
縦型超音波画像におけるカテーテルのセグメンテーションのための自己教師型ディープラーニングアーキテクチャを提案する。
ネットワークアーキテクチャは、Attention in Attentionメカニズムで構築されたセグメンテーショントランスフォーマであるAiAReSeg上に構築されている。
我々は,シリコンオルタファントムから収集した合成データと画像からなる実験データセット上で,我々のモデルを検証した。
論文 参考訳(メタデータ) (2024-03-21T15:13:36Z) - CMRxRecon: An open cardiac MRI dataset for the competition of
accelerated image reconstruction [62.61209705638161]
ディープラーニングベースのCMRイメージングアルゴリズムへの関心が高まっている。
ディープラーニング手法は大規模なトレーニングデータセットを必要とする。
このデータセットには300人の被験者のマルチコントラスト、マルチビュー、マルチスライス、マルチコイルCMRイメージングデータが含まれている。
論文 参考訳(メタデータ) (2023-09-19T15:14:42Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - LOTUS: Learning to Optimize Task-based US representations [39.81131738128329]
超音波画像における臓器の解剖学的セグメンテーションは多くの臨床応用に不可欠である。
既存のディープニューラルネットワークは、臨床的に許容できるパフォーマンスを達成するために、トレーニングのために大量のラベル付きデータを必要とする。
本稿では,タスクベース超音速画像表現を最適化する学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-29T16:29:39Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Mixed-UNet: Refined Class Activation Mapping for Weakly-Supervised
Semantic Segmentation with Multi-scale Inference [28.409679398886304]
我々は、デコードフェーズに2つの並列分岐を持つMixed-UNetという新しいモデルを開発する。
地域病院や公開データセットから収集したデータセットに対して,いくつかの一般的なディープラーニングに基づくセグメンテーションアプローチに対して,設計したMixed-UNetを評価した。
論文 参考訳(メタデータ) (2022-05-06T08:37:02Z) - Voice-assisted Image Labelling for Endoscopic Ultrasound Classification
using Neural Networks [48.732863591145964]
本稿では,臨床医が提示した生音声からのEUS画像にラベルを付けるマルチモーダル畳み込みニューラルネットワークアーキテクチャを提案する。
その結果,5つのラベルを持つデータセットにおいて,画像レベルでの予測精度は76%であった。
論文 参考訳(メタデータ) (2021-10-12T21:22:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。