論文の概要: From Transthoracic to Transesophageal: Cross-Modality Generation using LoRA Diffusion
- arxiv url: http://arxiv.org/abs/2508.13077v1
- Date: Mon, 18 Aug 2025 16:48:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-19 14:49:11.490481
- Title: From Transthoracic to Transesophageal: Cross-Modality Generation using LoRA Diffusion
- Title(参考訳): 経胸壁から経食道へ: LoRA 拡散による経食道間質形成
- Authors: Emmanuel Oladokun, Yuxuan Ou, Anna Novikova, Daria Kulikova, Sarina Thomas, Jurica Šprem, Vicente Grau,
- Abstract要約: 深部拡散モデルは、現実的な画像合成において優れているが、大きなトレーニングセットを必要とする。
TEEは、このハイインパクトなモダリティにおいて、ディープラーニングの到達範囲を制限し、批判的に不足している。
TTEをトレーニングしたマスク条件の拡散バックボーンをTEEに適合させるには,新しい症例が限られただけであり,パラメータが105ドル以下である。
- 参考スコア(独自算出の注目度): 0.4757510821125642
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep diffusion models excel at realistic image synthesis but demand large training sets-an obstacle in data-scarce domains like transesophageal echocardiography (TEE). While synthetic augmentation has boosted performance in transthoracic echo (TTE), TEE remains critically underrepresented, limiting the reach of deep learning in this high-impact modality. We address this gap by adapting a TTE-trained, mask-conditioned diffusion backbone to TEE with only a limited number of new cases and adapters as small as $10^5$ parameters. Our pipeline combines Low-Rank Adaptation with MaskR$^2$, a lightweight remapping layer that aligns novel mask formats with the pretrained model's conditioning channels. This design lets users adapt models to new datasets with a different set of anatomical structures to the base model's original set. Through a targeted adaptation strategy, we find that adapting only MLP layers suffices for high-fidelity TEE synthesis. Finally, mixing less than 200 real TEE frames with our synthetic echoes improves the dice score on a multiclass segmentation task, particularly boosting performance on underrepresented right-heart structures. Our results demonstrate that (1) semantically controlled TEE images can be generated with low overhead, (2) MaskR$^2$ effectively transforms unseen mask formats into compatible formats without damaging downstream task performance, and (3) our method generates images that are effective for improving performance on a downstream task of multiclass segmentation.
- Abstract(参考訳): 深部拡散モデルは、現実的な画像合成において優れているが、経食道心エコー法(TEE)のようなデータスカース領域における大きなトレーニングセットを必要とする。
人工的な増強は経胸壁エコー(TTE)の性能を高めるが、TEEは批判的に低発現であり、この高インパクトモードにおける深層学習の到達範囲を制限している。
TTEでトレーニングされたマスク条件の拡散バックボーンをTEEに適用することで、このギャップに対処する。
我々のパイプラインは、トレーニング済みモデルの条件付きチャネルと新しいマスクフォーマットを整列する軽量リマッピング層であるMaskR$^2$と低ランク適応を組み合わせたものです。
この設計により、ユーザーはベースモデルのオリジナルのセットに異なる解剖学的構造を持つ新しいデータセットにモデルを適用することができる。
目的とする適応戦略により,MLP層のみを適応させることで高忠実度TEE合成が可能であることが判明した。
最後に,200フレーム未満の実TEEフレームと合成エコーを混合することにより,マルチクラスセグメンテーションタスクにおけるダイススコアが向上する。
以上の結果から,(1)意味的に制御されたTEE画像は,低オーバーヘッドで生成可能であること,(2)MaskR$^2$は,ダウンストリームタスクのパフォーマンスを損なうことなく,見えないマスクフォーマットを互換性のあるフォーマットに効果的に変換できること,(3)マルチクラスセグメンテーションの下流タスクのパフォーマンス向上に有効な画像を生成すること,などが示されている。
関連論文リスト
- LAMM-ViT: AI Face Detection via Layer-Aware Modulation of Region-Guided Attention [4.0810988694972385]
本稿では,顔偽造検出のための視覚変換器であるLayer-Aware Mask Modulation Vision Transformer (LAMM-ViT)を紹介する。
LAMM-ViTはリージョンガイド型マルチヘッドアテンション(RG-MHA)とレイヤ対応マスク変調(LAMM)を各レイヤに統合する。
クロスモデル一般化テストでは、LAMM-ViT は優れた性能を示し、平均 ACC は94.09%、平均 AP は98.62% である。
論文 参考訳(メタデータ) (2025-05-12T16:42:19Z) - Ultra-Resolution Adaptation with Ease [62.56434979517156]
我々は,EmphURAEと呼ばれる超高分解能適応のための重要なガイドラインのセットを提案する。
重み行列の小さな成分のチューニングは、合成データが利用できない場合に広く使用される低ランクアダプタよりも優れていることを示す。
URAEは、FLUX1.1[Pro] Ultraのような最先端のクローズドソースモデルに匹敵する2K世代の性能を達成している。
論文 参考訳(メタデータ) (2025-03-20T16:44:43Z) - Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。
MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文 参考訳(メタデータ) (2025-02-05T18:42:04Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Tissue-Contrastive Semi-Masked Autoencoders for Segmentation Pretraining on Chest CT [10.40407976789742]
胸部CT画像のモデリングのための組織コントラストセミマスクオートエンコーダ(TCS-MAE)と呼ばれるMIM法を提案する。
本手法は, 組織型マスキング再構成法により, より微細な解剖学的特徴を捉えるとともに, マスク画像とオリジナル画像との対比学習を施した二重AEアーキテクチャを設計した。
論文 参考訳(メタデータ) (2024-07-12T03:24:17Z) - Cross-view Masked Diffusion Transformers for Person Image Synthesis [21.242398582282522]
ポーズ誘導画像生成のための新しい拡散モデルであるX-MDPTを提案する。
X-MDPTは、潜伏パッチで動作するマスク付き拡散トランスフォーマーを用いて、自分自身を区別する。
我々のモデルはDeepFashionデータセットにおける最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2024-02-02T15:57:13Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - DiffiT: Diffusion Vision Transformers for Image Generation [88.08529836125399]
ViT(Vision Transformer)は、特に認識タスクにおいて、強力なモデリング機能とスケーラビリティを実証している。
拡散型生成学習におけるViTの有効性について検討し、拡散ビジョン変換器(DiffiT)と呼ばれる新しいモデルを提案する。
DiffiTはパラメータ効率が大幅に向上した高忠実度画像を生成するのに驚くほど効果的である。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Brain Lesion Synthesis via Progressive Adversarial Variational
Auto-Encoder [0.9954435559869312]
レーザー間質熱療法(LITT)前後のROIセグメンテーションにより自動的に病変の定量化が可能となった。
CNNはROIセグメンテーションのための最先端のソリューションであるが、トレーニング中に大量のアノテートデータを必要とする。
トレーニングデータセットの量と多様性を両立させるため,進行性脳病変合成フレームワーク(PAVAE)を提案する。
論文 参考訳(メタデータ) (2022-08-05T14:39:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。