論文の概要: Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control
- arxiv url: http://arxiv.org/abs/2512.21058v1
- Date: Wed, 24 Dec 2025 08:52:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.74367
- Title: Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control
- Title(参考訳): ピクセルシミュレーションを超えて:診断的意味トークンとプロトタイプ制御による病理画像生成
- Authors: Minghao Han, YiChen Liu, Yizhou Liu, Zizhi Chen, Jingqun Tang, Xuecheng Wu, Dingkang Yang, Lihua Zhang,
- Abstract要約: セマンティクス駆動の病理画像生成フレームワークUniPathを紹介する。
UniPathは、Multi-Stream Control: a Raw-Text stream; a High-Level Semantics stream: a learnable query to a frozen pathology MLLM。
データ面では、2.65Mイメージテキストコーパスと、微調整で高品質な68Kサブセットをキュレートして、データの不足を軽減する。
実験によりUniPathのSOTA性能が実証され、Path-FIDは80.9(第2ベストより51%良い)で、セマンティックコントロールは98.7%の精度で実現された。
- 参考スコア(独自算出の注目度): 45.749134892112714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In computational pathology, understanding and generation have evolved along disparate paths: advanced understanding models already exhibit diagnostic-level competence, whereas generative models largely simulate pixels. Progress remains hindered by three coupled factors: the scarcity of large, high-quality image-text corpora; the lack of precise, fine-grained semantic control, which forces reliance on non-semantic cues; and terminological heterogeneity, where diverse phrasings for the same diagnostic concept impede reliable text conditioning. We introduce UniPath, a semantics-driven pathology image generation framework that leverages mature diagnostic understanding to enable controllable generation. UniPath implements Multi-Stream Control: a Raw-Text stream; a High-Level Semantics stream that uses learnable queries to a frozen pathology MLLM to distill paraphrase-robust Diagnostic Semantic Tokens and to expand prompts into diagnosis-aware attribute bundles; and a Prototype stream that affords component-level morphological control via a prototype bank. On the data front, we curate a 2.65M image-text corpus and a finely annotated, high-quality 68K subset to alleviate data scarcity. For a comprehensive assessment, we establish a four-tier evaluation hierarchy tailored to pathology. Extensive experiments demonstrate UniPath's SOTA performance, including a Patho-FID of 80.9 (51% better than the second-best) and fine-grained semantic control achieving 98.7% of the real-image. The meticulously curated datasets, complete source code, and pre-trained model weights developed in this study will be made openly accessible to the public.
- Abstract(参考訳): 高度な理解モデルはすでに診断レベルの能力を示しており、生成モデルは主としてピクセルをシミュレートしている。
大きくて高品質な画像テキストコーパスの不足、正確できめ細かなセマンティックコントロールの欠如、そして同じ診断概念に対する多様な言い回しが信頼性のあるテキストコンディショニングを阻害する用語的異質性、の3つの組み合わせによって、進歩は依然として妨げられている。
我々は、成熟した診断理解を活用して制御可能な生成を可能にするセマンティクス駆動の病理画像生成フレームワークUniPathを紹介する。
UniPathは、Multi-Stream Control: a Raw-Text stream; a High-Level Semantics stream; a high-Level Semantics stream: a learnable query to a frozen pathology MLLM to sample paraphrase-robust Diagnostic Semantic Tokens and to expand prompts into diagnosis-aware attribute bundles; and a Prototype stream that a component-level morphological control via a prototype bank。
データ面では、2.65Mイメージテキストコーパスと、微調整で高品質な68Kサブセットをキュレートして、データの不足を軽減する。
総合的な評価のために,病理学に適した4階層評価階層を構築した。
大規模な実験でUniPathのSOTA性能が実証され、Path-FIDは80.9(第2ベストより51%良い)で、精細なセマンティックコントロールが98.7%に達している。
この研究で開発された厳密にキュレートされたデータセット、完全なソースコード、および事前訓練されたモデルの重み付けは、一般公開される。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Multi-Aspect Knowledge-Enhanced Medical Vision-Language Pretraining with Multi-Agent Data Generation [13.362188283113788]
医用画像分析の強力なパラダイムとして、視覚言語による事前訓練が登場している。
マルチエージェントデータジェネレーション(MAGEN)システムとオントロジーに基づくマルチアスペクト知識強化(O-MAKE)プリトレーニングを統合する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T04:55:54Z) - MedROV: Towards Real-Time Open-Vocabulary Detection Across Diverse Medical Imaging Modalities [89.81463562506637]
医用画像のための最初のリアルタイムオープン語彙検出モデルであるMedROVを紹介する。
対照的な学習とクロスモーダル表現を活用することで、MedROVは既知の構造と新しい構造の両方を効果的に検出する。
論文 参考訳(メタデータ) (2025-11-25T18:59:53Z) - Graph Conditioned Diffusion for Controllable Histopathology Image Generation [26.102552837222103]
グラフ合成拡散のためのグラフベースオブジェクトレベル表現を提案する。
提案手法は,画像の各主要構造に対応するグラフノードを生成し,個々の特徴と関係をカプセル化する。
我々は,本手法を実世界の病理組織学のユースケースを用いて評価し,下流セグメンテーションタスクにおける注釈付き患者データに確実に代用できることを実証した。
論文 参考訳(メタデータ) (2025-10-08T15:26:08Z) - PathDiff: Histopathology Image Synthesis with Unpaired Text and Mask Conditions [38.32128533564591]
公開データセットには、同じ病理像に対するペアテキストとマスクデータがない。
マスクテキストデータから効果的に学習する拡散フレームワークPathDiffを提案する。
PathDiffは、構造的特徴と文脈的特徴を正確に制御し、高品質で意味論的に正確な画像を生成する。
論文 参考訳(メタデータ) (2025-06-30T00:31:03Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
報酬信号は、テキストの意味情報を合成画像と整合させるように設計されている。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - Diverse Image Generation with Diffusion Models and Cross Class Label Learning for Polyp Classification [4.747649393635696]
そこで我々は,多種多様な特徴を持つテキスト制御合成画像を生成する新しいモデルPathoPolyp-Diffを開発した。
モデルが他のクラスから特徴を学習できるように、クラス間ラベル学習を導入し、データアノテーションの面倒な作業を減らす。
論文 参考訳(メタデータ) (2025-02-08T04:26:20Z) - PathLDM: Text conditioned Latent Diffusion Model for Histopathology [62.970593674481414]
そこで我々は,高品質な病理像を生成するためのテキスト条件付き遅延拡散モデルPathLDMを紹介した。
提案手法は画像とテキストデータを融合して生成プロセスを強化する。
我々は,TCGA-BRCAデータセット上でのテキスト・ツー・イメージ生成において,SoTA FIDスコア7.64を達成し,FID30.1と最も近いテキスト・コンディショナブル・コンペティタを著しく上回った。
論文 参考訳(メタデータ) (2023-09-01T22:08:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。