論文の概要: PathDiff: Histopathology Image Synthesis with Unpaired Text and Mask Conditions
- arxiv url: http://arxiv.org/abs/2506.23440v1
- Date: Mon, 30 Jun 2025 00:31:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-01 21:27:53.876638
- Title: PathDiff: Histopathology Image Synthesis with Unpaired Text and Mask Conditions
- Title(参考訳): PathDiff: 欠損テキストとマスク条件を用いた病理画像合成
- Authors: Mahesh Bhosale, Abdul Wasi, Yuanhao Zhai, Yunjie Tian, Samuel Border, Nan Xi, Pinaki Sarder, Junsong Yuan, David Doermann, Xuan Gong,
- Abstract要約: 公開データセットには、同じ病理像に対するペアテキストとマスクデータがない。
マスクテキストデータから効果的に学習する拡散フレームワークPathDiffを提案する。
PathDiffは、構造的特徴と文脈的特徴を正確に制御し、高品質で意味論的に正確な画像を生成する。
- 参考スコア(独自算出の注目度): 38.32128533564591
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generative models have shown promise in synthesizing histopathology images to address data scarcity caused by privacy constraints. Diagnostic text reports provide high-level semantic descriptions, and masks offer fine-grained spatial structures essential for representing distinct morphological regions. However, public datasets lack paired text and mask data for the same histopathological images, limiting their joint use in image generation. This constraint restricts the ability to fully exploit the benefits of combining both modalities for enhanced control over semantics and spatial details. To overcome this, we propose PathDiff, a diffusion framework that effectively learns from unpaired mask-text data by integrating both modalities into a unified conditioning space. PathDiff allows precise control over structural and contextual features, generating high-quality, semantically accurate images. PathDiff also improves image fidelity, text-image alignment, and faithfulness, enhancing data augmentation for downstream tasks like nuclei segmentation and classification. Extensive experiments demonstrate its superiority over existing methods.
- Abstract(参考訳): 拡散に基づく生成モデルは、プライバシー制約によって引き起こされるデータの不足に対処するために、病理像の合成において有望であることを示す。
診断テキストレポートは、高いレベルの意味記述を提供し、マスクは、異なる形態的領域を表すのに不可欠なきめ細かい空間構造を提供する。
しかし、公開データセットには、同じ病理像に対するペアテキストとマスクデータがなく、画像生成における共同使用を制限している。
この制約は、意味論と空間的詳細に関する制御を強化するために、両方のモダリティを組み合わせる利点を最大限に活用する能力を制限する。
この問題を解決するために,両モードを統一された条件空間に統合することにより,マスクテキストデータから効果的に学習する拡散フレームワークPathDiffを提案する。
PathDiffは、構造的特徴と文脈的特徴を正確に制御し、高品質で意味論的に正確な画像を生成する。
PathDiffはまた、イメージの忠実さ、テキストイメージアライメント、忠実さを改善し、核のセグメンテーションや分類といった下流タスクのためのデータ拡張を強化する。
大規模な実験は、既存の方法よりも優れていることを示す。
関連論文リスト
- CoSimGen: Controllable Diffusion Model for Simultaneous Image and Mask Generation [1.9393128408121891]
既存の生成モデルは、高品質で同時画像マスク生成の必要性に対処できない。
本稿では,同時画像生成とマスク生成を同時に行うための拡散型フレームワークであるCoSimGenを提案する。
CoSimGenはすべてのデータセットで最先端のパフォーマンスを達成し、データセットで0.11、LPIPSで0.53の最低KIDを達成した。
論文 参考訳(メタデータ) (2025-03-25T13:48:22Z) - Synthetic Lung X-ray Generation through Cross-Attention and Affinity Transformation [4.956977275061966]
本稿では,合成肺X線画像から高精度なセマンティックマスクの自動生成手法を提案する。
テキストと画像間の相互アテンションマッピングを使用して、テキスト駆動画像合成をセマンティックマスク生成に拡張する。
実験結果から,本手法を用いて生成した合成データに基づいて学習したセグメンテーションモデルは,実際のデータセットで学習したモデルと同等であり,場合によっては同等であることがわかった。
論文 参考訳(メタデータ) (2025-03-10T11:48:26Z) - Learned representation-guided diffusion models for large-image generation [58.192263311786824]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Exploring Semantic Consistency in Unpaired Image Translation to Generate
Data for Surgical Applications [1.8011391924021904]
本研究では,外科的応用における適切なデータを生成するための画像翻訳手法を実験的に検討した。
構造相似性損失と対照的学習の単純な組み合わせが、最も有望な結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2023-09-06T14:43:22Z) - Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation [36.20575570779196]
拡散モデルの潜在空間に対して,細粒度から細粒度まで,低レベルから高レベルの特徴階層を利用する。
HDAEの階層的潜在空間は本質的に異なる抽象的な意味論のレベルを符号化し、より包括的な意味表現を提供する。
提案手法の有効性を実験的に検証し,画像再構成,スタイル混合,制御可能,ディテール保存,不整合な画像操作に応用した。
論文 参考訳(メタデータ) (2023-04-24T05:35:59Z) - DiffuMask: Synthesizing Images with Pixel-level Annotations for Semantic
Segmentation Using Diffusion Models [68.21154597227165]
本研究では,オフザシェルフ安定拡散モデルにより生成された合成画像の正確なセマンティックマスクを自動で取得できることを示す。
我々のアプローチはDiffuMaskと呼ばれ、テキストと画像間の相互注意マップの可能性を利用しています。
論文 参考訳(メタデータ) (2023-03-21T08:43:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。