論文の概要: Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2603.13386v1
- Date: Wed, 11 Mar 2026 06:14:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.15048
- Title: Layout-Guided Controllable Pathology Image Generation with In-Context Diffusion Transformers
- Title(参考訳): In-Context Diffusion Transformer を用いたレイアウト型可制御型画像生成
- Authors: Yuntao Shou, Xiangyong Cao, Qian Zhao, Deyu Meng,
- Abstract要約: 制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識生成モデルである。
IC-DiTは既存の方法よりも忠実度が高く、空間制御性が強く、診断の整合性が良くなる。
- 参考スコア(独自算出の注目度): 57.54843029965778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable pathology image synthesis requires reliable regulation of spatial layout, tissue morphology, and semantic detail. However, existing text-guided diffusion models offer only coarse global control and lack the ability to enforce fine-grained structural constraints. Progress is further limited by the absence of large datasets that pair patch-level spatial layouts with detailed diagnostic descriptions, since generating such annotations for gigapixel whole-slide images is prohibitively time-consuming for human experts. To overcome these challenges, we first develop a scalable multi-agent LVLM annotation framework that integrates image description, diagnostic step extraction, and automatic quality judgment into a coordinated pipeline, and we evaluate the reliability of the system through a human verification process. This framework enables efficient construction of fine-grained and clinically aligned supervision at scale. Building on the curated data, we propose In-Context Diffusion Transformer (IC-DiT), a layout-aware generative model that incorporates spatial layouts, textual descriptions, and visual embeddings into a unified diffusion transformer. Through hierarchical multimodal attention, IC-DiT maintains global semantic coherence while accurately preserving structural and morphological details. Extensive experiments on five histopathology datasets show that IC-DiT achieves higher fidelity, stronger spatial controllability, and better diagnostic consistency than existing methods. In addition, the generated images serve as effective data augmentation resources for downstream tasks such as cancer classification and survival analysis.
- Abstract(参考訳): 制御可能な病理画像合成には、空間配置、組織形態、意味的詳細の信頼できる規制が必要である。
しかし、既存のテキスト誘導拡散モデルは、粗いグローバルコントロールのみを提供し、きめ細かい構造的制約を強制する能力がない。
プログレッシブは、パッチレベルの空間レイアウトを詳細な診断記述と組み合わせる大きなデータセットがないことにより、さらに制限されている。
これらの課題を克服するために、まず画像記述、診断ステップ抽出、自動品質判断を協調パイプラインに統合するスケーラブルなマルチエージェントLVLMアノテーションフレームワークを開発し、人間の検証プロセスを通じてシステムの信頼性を評価する。
この枠組みは、微細で臨床的に整合した監督を大規模に効率的に構築することを可能にする。
In-Context Diffusion Transformer (IC-DiT) は,空間レイアウト,テキスト記述,視覚的埋め込みを統合拡散変換器に組み込んだレイアウト認識型生成モデルである。
階層的マルチモーダル・アテンションを通じて、IC-DiTは構造的および形態的詳細を正確に保存しつつ、グローバルな意味的コヒーレンスを維持している。
5つの病理組織学的データセットの大規模な実験により、IC-DiTは既存の方法よりも高い忠実度、より強い空間制御性、診断の整合性を達成できることが示された。
さらに、生成された画像は、がん分類や生存分析などの下流タスクに有効なデータ拡張リソースとして機能する。
関連論文リスト
- Fusing Pixels and Genes: Spatially-Aware Learning in Computational Pathology [46.83014413674925]
STAMPは空間的トランスクリプトミクスを付加したマルチモーダルな病理表現学習フレームワークである。
本研究は、自己教師型遺伝子誘導訓練が、病理画像表現の学習に堅牢でタスクに依存しない信号を提供することを示す。
6つのデータセットと4つの下流タスクにまたがってSTAMPを検証する。
論文 参考訳(メタデータ) (2026-02-15T00:59:13Z) - Structure-constrained Language-informed Diffusion Model for Unpaired Low-dose Computed Tomography Angiography Reconstruction [72.80209358480424]
ヨウ素化コントラスト培地(ICM)の過剰摂取は、腎臓の損傷と致命的なアレルギー反応を引き起こす。
深層学習法は、低線量ICMから正常線量ICMのCT画像を生成することができ、必要な線量を減らすことができる。
本研究では,構造シナジーと空間知性を統合した構造制約型言語情報拡散モデル(SLDM)を提案する。
論文 参考訳(メタデータ) (2026-01-28T06:54:06Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Graph Conditioned Diffusion for Controllable Histopathology Image Generation [26.102552837222103]
グラフ合成拡散のためのグラフベースオブジェクトレベル表現を提案する。
提案手法は,画像の各主要構造に対応するグラフノードを生成し,個々の特徴と関係をカプセル化する。
我々は,本手法を実世界の病理組織学のユースケースを用いて評価し,下流セグメンテーションタスクにおける注釈付き患者データに確実に代用できることを実証した。
論文 参考訳(メタデータ) (2025-10-08T15:26:08Z) - Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。
本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文 参考訳(メタデータ) (2025-04-20T01:54:18Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
報酬信号は、テキストの意味情報を合成画像と整合させるように設計されている。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - TransAttUnet: Multi-level Attention-guided U-Net with Transformer for
Medical Image Segmentation [33.45471457058221]
本稿では,TransAttUnetと呼ばれるトランスフォーマーベースの医用画像セマンティックセマンティック・セマンティック・フレームワークを提案する。
特に,デコーダブロック間の複数スケールのスキップ接続を確立することで,セマンティック・スケールのアップサンプリング機能を集約する。
我々の手法は一貫して最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2021-07-12T09:17:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。