論文の概要: Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement
- arxiv url: http://arxiv.org/abs/2603.10519v1
- Date: Wed, 11 Mar 2026 08:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.844168
- Title: Visually-Guided Controllable Medical Image Generation via Fine-Grained Semantic Disentanglement
- Title(参考訳): 微粒化セマンティックアンタングルによる医用医用画像生成
- Authors: Xin Huang, Junjie Liang, Qingshan Hou, Peng Cao, Jinzhu Yang, Xiaoli Liu, Osmar R. Zaiane,
- Abstract要約: 医療画像合成は、データの不足とプライバシーの制約を軽減するために不可欠である。
微調整の一般的なテキスト・ツー・イメージ(T2I)モデルは依然として困難である。
視覚的にガイドされたテキスト・ディスタングルメント・フレームワークを提案する。
- 参考スコア(独自算出の注目度): 13.410085175938486
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical image synthesis is crucial for alleviating data scarcity and privacy constraints. However, fine-tuning general text-to-image (T2I) models remains challenging, mainly due to the significant modality gap between complex visual details and abstract clinical text. In addition, semantic entanglement persists, where coarse-grained text embeddings blur the boundary between anatomical structures and imaging styles, thus weakening controllability during generation. To address this, we propose a Visually-Guided Text Disentanglement framework. We introduce a cross-modal latent alignment mechanism that leverages visual priors to explicitly disentangle unstructured text into independent semantic representations. Subsequently, a Hybrid Feature Fusion Module (HFFM) injects these features into a Diffusion Transformer (DiT) through separated channels, enabling fine-grained structural control. Experimental results in three datasets demonstrate that our method outperforms existing approaches in terms of generation quality and significantly improves performance on downstream classification tasks. The source code is available at https://github.com/hx111/VG-MedGen.
- Abstract(参考訳): 医療画像合成は、データの不足とプライバシーの制約を軽減するために不可欠である。
しかし、複雑な視覚的詳細と抽象的な臨床テキストの間に大きなモダリティの差があるため、微調整の一般的なテキスト・ツー・イメージ(T2I)モデルは依然として困難である。
さらに、意味的絡み合いが続き、粗い粒度のテキスト埋め込みは解剖学的構造とイメージングスタイルの境界を曖昧にし、生成時の制御性が低下する。
そこで我々は,視覚的にガイドされたテキスト・ディスタングルメント・フレームワークを提案する。
視覚的先行情報を利用して、非構造化テキストを独立意味表現に明示的に切り離すクロスモーダル遅延アライメント機構を導入する。
その後、ハイブリッド・フィーチャー・フュージョン・モジュール(HFFM)が分離チャネルを介してこれらの機能を拡散変換器(DiT)に注入し、きめ細かい構造制御を可能にする。
3つのデータセットによる実験結果から,本手法は生成品質において既存手法よりも優れ,下流分類タスクにおける性能が著しく向上することが示された。
ソースコードはhttps://github.com/hx111/VG-MedGenで入手できる。
関連論文リスト
- Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation [51.509572354327986]
本稿では,CTRG(Computed Tomography Report Generation)に適した新しい2段階(構造とレポートの学習)フレームワークを提案する。
第1段階では、CT画像中の対応する構造を学習可能な構造特異的な視覚的クエリーの集合を観察し、その結果として得られる観察トークンと、それに伴う放射線学レポートから抽出された構造特異的なテキスト特徴とを、構造的に画像テキストのコントラストロスとで対比する。
第2段階では、視覚構造クエリを凍結し、各解剖学的構造を描写したクリティカルイメージパッチ埋め込みを選択するために使用し、メモリ消費を低減しつつ、無関係領域からの注意を最小化する。
論文 参考訳(メタデータ) (2026-03-05T07:07:07Z) - Graph Conditioned Diffusion for Controllable Histopathology Image Generation [26.102552837222103]
グラフ合成拡散のためのグラフベースオブジェクトレベル表現を提案する。
提案手法は,画像の各主要構造に対応するグラフノードを生成し,個々の特徴と関係をカプセル化する。
我々は,本手法を実世界の病理組織学のユースケースを用いて評価し,下流セグメンテーションタスクにおける注釈付き患者データに確実に代用できることを実証した。
論文 参考訳(メタデータ) (2025-10-08T15:26:08Z) - Text-driven Multiplanar Visual Interaction for Semi-supervised Medical Image Segmentation [48.76848912120607]
半教師付き医用画像セグメンテーションは,高コストなデータアノテーションを緩和するための重要な手法である。
半教師型医用画像セグメンテーションのための新しいテキスト駆動型多面的視覚インタラクションフレームワーク(Termed Text-SemiSeg)を提案する。
我々のフレームワークは3つの主要なモジュールで構成されている。テキスト強化多平面表現(TMR)、カテゴリー認識セマンティックアライメント(CSA)、動的認知強化(DCA)である。
論文 参考訳(メタデータ) (2025-07-16T16:29:30Z) - PathDiff: Histopathology Image Synthesis with Unpaired Text and Mask Conditions [38.32128533564591]
公開データセットには、同じ病理像に対するペアテキストとマスクデータがない。
マスクテキストデータから効果的に学習する拡散フレームワークPathDiffを提案する。
PathDiffは、構造的特徴と文脈的特徴を正確に制御し、高品質で意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2025-06-30T00:31:03Z) - A Multimodal Approach Combining Structural and Cross-domain Textual Guidance for Weakly Supervised OCT Segmentation [12.948027961485536]
Weakly Supervised Semantic (WSSS) アプローチを提案する。
本手法は診断精度の向上と医用画像の効率向上に資する技術である。
論文 参考訳(メタデータ) (2024-11-19T16:20:27Z) - Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Contextualized Diffusion Models for Text-Guided Image and Video Generation [67.69171154637172]
条件拡散モデルは高忠実度テキスト誘導視覚生成および編集において優れた性能を示した。
本研究では,テキスト条件と視覚的サンプル間の相互作用とアライメントを包含するクロスモーダルコンテキストを組み込むことにより,コンテキスト拡散モデル(ContextDiff)を提案する。
理論的導出を伴うDDPMとDDIMの両方にモデルを一般化し、テキスト・ツー・イメージ生成とテキスト・ツー・ビデオ編集という2つの課題を伴う評価において、モデルの有効性を実証する。
論文 参考訳(メタデータ) (2024-02-26T15:01:16Z) - MedSyn: Text-guided Anatomy-aware Synthesis of High-Fidelity 3D CT Images [22.455833806331384]
本稿では,テキスト情報によって誘導される高品質な3次元肺CT画像を作成するための革新的な手法を提案する。
現在の最先端のアプローチは、低解像度の出力に限られており、放射線学レポートの豊富な情報を不活用している。
論文 参考訳(メタデータ) (2023-10-05T14:16:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。