論文の概要: HeartBeat: Towards Controllable Echocardiography Video Synthesis with Multimodal Conditions-Guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2406.14098v2
- Date: Fri, 5 Jul 2024 01:56:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 22:35:04.337742
- Title: HeartBeat: Towards Controllable Echocardiography Video Synthesis with Multimodal Conditions-Guided Diffusion Models
- Title(参考訳): マルチモーダル条件誘導拡散モデルによる制御可能な心エコービデオ合成に向けたHeartBeat
- Authors: Xinrui Zhou, Yuhao Huang, Wufeng Xue, Haoran Dou, Jun Cheng, Han Zhou, Dong Ni,
- Abstract要約: 本稿では、制御可能で高忠実なECHOビデオ合成のためのHeartBeatという新しいフレームワークを提案する。
HeartBeatは、マルチモーダル条件を同時に認識し、制御可能な生成をガイドする統合フレームワークとして機能する。
このように、ユーザはマルチモーダル制御信号を組み合わせることで、心的イメージに適合するECHOビデオを合成することができる。
- 参考スコア(独自算出の注目度): 14.280181445804226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Echocardiography (ECHO) video is widely used for cardiac examination. In clinical, this procedure heavily relies on operator experience, which needs years of training and maybe the assistance of deep learning-based systems for enhanced accuracy and efficiency. However, it is challenging since acquiring sufficient customized data (e.g., abnormal cases) for novice training and deep model development is clinically unrealistic. Hence, controllable ECHO video synthesis is highly desirable. In this paper, we propose a novel diffusion-based framework named HeartBeat towards controllable and high-fidelity ECHO video synthesis. Our highlight is three-fold. First, HeartBeat serves as a unified framework that enables perceiving multimodal conditions simultaneously to guide controllable generation. Second, we factorize the multimodal conditions into local and global ones, with two insertion strategies separately provided fine- and coarse-grained controls in a composable and flexible manner. In this way, users can synthesize ECHO videos that conform to their mental imagery by combining multimodal control signals. Third, we propose to decouple the visual concepts and temporal dynamics learning using a two-stage training scheme for simplifying the model training. One more interesting thing is that HeartBeat can easily generalize to mask-guided cardiac MRI synthesis in a few shots, showcasing its scalability to broader applications. Extensive experiments on two public datasets show the efficacy of the proposed HeartBeat.
- Abstract(参考訳): 心エコー法(ECHO)ビデオは心臓検査に広く用いられている。
臨床では、この手順は長年の訓練と、精度と効率を高めるためのディープラーニングベースのシステムの助けを必要とするオペレーターの経験に大きく依存している。
しかし、初級訓練や深層モデル開発に十分なカスタマイズデータ(例:異常事例)を取得することは臨床的に非現実的であるため、困難である。
したがって、制御可能なECHOビデオ合成が極めて望ましい。
本稿では,HeartBeatという新しい拡散型フレームワークを提案する。
私たちのハイライトは3倍です。
第一に、HeartBeatは、制御可能な生成を導くために、同時にマルチモーダル条件を知覚できる統一されたフレームワークとして機能する。
第2に,マルチモーダル条件を局所的・大域的に分類し,個別に細粒度と粗粒度を構成可能かつ柔軟に制御する2つの挿入戦略を提案する。
このように、ユーザはマルチモーダル制御信号を組み合わせることで、心的イメージに適合するECHOビデオを合成することができる。
第3に、モデルトレーニングを簡素化する2段階のトレーニングスキームを用いて、視覚概念と時間力学学習を分離することを提案する。
もう一つ興味深いのは、HeartBeatがマスクで誘導された心臓MRI合成を数枚の写真で簡単に一般化できることだ。
2つの公開データセットに対する大規模な実験は、提案されたHeartBeatの有効性を示している。
関連論文リスト
- HeartBERT: A Self-Supervised ECG Embedding Model for Efficient and Effective Medical Signal Analysis [1.124958340749622]
HeartBertは自然言語処理におけるBERT(Bidirectional Representations from Transformers)にインスパイアされ、自己教師型学習アプローチで強化されている。
提案モデルの汎用性,一般化性,効率性を示すために,睡眠ステージ検出と心拍分類という2つの重要な下流課題が選択された。
HeartBERTの優位性と進歩を示すための一連の実験が実施されている。
論文 参考訳(メタデータ) (2024-11-08T14:25:00Z) - ECHOPulse: ECG controlled echocardio-grams video generation [30.753399869167588]
心エコー検査(ECHO)は心臓評価に必須である。
ECHOビデオ生成は、自動監視を改善するソリューションを提供する。
ECHOPULSEはECG条件のECHOビデオ生成モデルである。
論文 参考訳(メタデータ) (2024-10-04T04:49:56Z) - PMT: Progressive Mean Teacher via Exploring Temporal Consistency for Semi-Supervised Medical Image Segmentation [51.509573838103854]
医用画像セグメンテーションのための半教師付き学習フレームワークであるプログレッシブ平均教師(PMT)を提案する。
我々のPMTは、トレーニングプロセスにおいて、堅牢で多様な特徴を学習することで、高忠実な擬似ラベルを生成する。
CT と MRI の異なる2つのデータセットに対する実験結果から,本手法が最先端の医用画像分割法より優れていることが示された。
論文 参考訳(メタデータ) (2024-09-08T15:02:25Z) - Explainable and Controllable Motion Curve Guided Cardiac Ultrasound Video Generation [11.879436948659691]
心エコー画像生成のための説明可能かつ制御可能な手法を提案する。
まず,各心部分構造から運動情報を抽出し,運動曲線を構築する。
第2に,動作曲線に意味的特徴をマッピングできる構造間アライメントモジュールを提案する。
第三に、位置認識型アテンション機構は、構造的位置情報を持つガウスマスクを用いて、映像の一貫性を高めるように設計されている。
論文 参考訳(メタデータ) (2024-07-31T09:59:20Z) - NeuroPictor: Refining fMRI-to-Image Reconstruction via Multi-individual Pretraining and Multi-level Modulation [55.51412454263856]
本稿では,fMRI信号を用いた拡散モデル生成過程を直接変調することを提案する。
様々な個人から約67,000 fMRI-imageペアのトレーニングを行うことで,fMRI-to-imageデコーディング能力に優れたモデルが得られた。
論文 参考訳(メタデータ) (2024-03-27T02:42:52Z) - Dynamic Contrastive Distillation for Image-Text Retrieval [90.05345397400144]
画像テキスト検索モデルを圧縮するための新しいプラグイン動的コントラスト蒸留(DCD)フレームワークを提案する。
提案したDCD戦略を2つの最先端の視覚言語事前訓練モデル、すなわち ViLT と METER に適用することに成功している。
MS-COCOとFlickr30Kベンチマークの実験では、DCDフレームワークの有効性と効率が示されている。
論文 参考訳(メタデータ) (2022-07-04T14:08:59Z) - Weakly-supervised High-fidelity Ultrasound Video Synthesis with Feature
Decoupling [13.161739586288704]
臨床実践において、分析と診断は、動的解剖情報を得るために単一の画像ではなくアメリカのシーケンスに依存することが多い。
患者からの適切なビデオで練習することは、臨床的には実践的ではないため、初心者には学ぶことが難しい。
我々は,高忠実度US動画を合成するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-07-01T14:53:22Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - One to Many: Adaptive Instrument Segmentation via Meta Learning and
Dynamic Online Adaptation in Robotic Surgical Video [71.43912903508765]
MDALは、ロボット支援手術における機器セグメンテーションのための動的オンライン適応学習スキームです。
ビデオ固有のメタ学習パラダイムを通じて、楽器の一般的な知識と高速適応能力を学ぶ。
2つのデータセットで他の最先端のメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-03-24T05:02:18Z) - Echo-SyncNet: Self-supervised Cardiac View Synchronization in
Echocardiography [11.407910072022018]
本研究では,外部入力を使わずに,医療用クロスオブケア2Dエコーシリーズを同期する自己教師型学習フレームワークであるEcho-Sync-Netを提案する。
Apical 2 chamberとApical 4 chamber Heartc viewの同期が期待できる結果を得た。
また, 心臓検出のワンショット学習シナリオにおいて, 学習表現の有用性を示す。
論文 参考訳(メタデータ) (2021-02-03T20:48:16Z) - Unpaired Multi-modal Segmentation via Knowledge Distillation [77.39798870702174]
本稿では,不対向画像分割のための新しい学習手法を提案する。
提案手法では,CTおよびMRI間での畳み込みカーネルの共有により,ネットワークパラメータを多用する。
我々は2つの多クラスセグメンテーション問題に対するアプローチを広範囲に検証した。
論文 参考訳(メタデータ) (2020-01-06T20:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。