論文の概要: CoSimGen: Controllable Diffusion Model for Simultaneous Image and Mask Generation
- arxiv url: http://arxiv.org/abs/2503.19661v1
- Date: Tue, 25 Mar 2025 13:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:55:13.470213
- Title: CoSimGen: Controllable Diffusion Model for Simultaneous Image and Mask Generation
- Title(参考訳): CoSimGen:同時画像とマスク生成のための制御可能な拡散モデル
- Authors: Rupak Bose, Chinedu Innocent Nwoye, Aditya Bhat, Nicolas Padoy,
- Abstract要約: 既存の生成モデルは、高品質で同時画像マスク生成の必要性に対処できない。
本稿では,同時画像生成とマスク生成を同時に行うための拡散型フレームワークであるCoSimGenを提案する。
CoSimGenはすべてのデータセットで最先端のパフォーマンスを達成し、データセットで0.11、LPIPSで0.53の最低KIDを達成した。
- 参考スコア(独自算出の注目度): 1.9393128408121891
- License:
- Abstract: The acquisition of annotated datasets with paired images and segmentation masks is a critical challenge in domains such as medical imaging, remote sensing, and computer vision. Manual annotation demands significant resources, faces ethical constraints, and depends heavily on domain expertise. Existing generative models often target single-modality outputs, either images or segmentation masks, failing to address the need for high-quality, simultaneous image-mask generation. Additionally, these models frequently lack adaptable conditioning mechanisms, restricting control over the generated outputs and limiting their applicability for dataset augmentation and rare scenario simulation. We propose CoSimGen, a diffusion-based framework for controllable simultaneous image and mask generation. Conditioning is intuitively achieved through (1) text prompts grounded in class semantics, (2) spatial embedding of context prompts to provide spatial coherence, and (3) spectral embedding of timestep information to model noise levels during diffusion. To enhance controllability and training efficiency, the framework incorporates contrastive triplet loss between text and class embeddings, alongside diffusion and adversarial losses. Initial low-resolution outputs 128 x 128 are super-resolved to 512 x 512, producing high-fidelity images and masks with strict adherence to conditions. We evaluate CoSimGen on metrics such as FID, KID, LPIPS, Class FID, Positive predicted value for image fidelity and semantic alignment of generated samples over 4 diverse datasets. CoSimGen achieves state-of-the-art performance across all datasets, achieving the lowest KID of 0.11 and LPIPS of 0.53 across datasets.
- Abstract(参考訳): ペア画像とセグメンテーションマスクを備えた注釈付きデータセットの取得は、医療画像、リモートセンシング、コンピュータビジョンといった領域において重要な課題である。
手動のアノテーションは重要なリソースを必要とし、倫理的な制約に直面し、ドメインの専門知識に大きく依存します。
既存の生成モデルは、画像またはセグメンテーションマスクのいずれかの単一モダリティ出力をターゲットにしており、高品質で同時画像マスク生成の必要性に対処することができないことが多い。
さらに、これらのモデルには適応可能な条件付け機構がなく、生成した出力の制御を制限し、データセット拡張や稀なシナリオシミュレーションの適用性を制限することがしばしばある。
本稿では,同時画像生成とマスク生成を同時に行うための拡散型フレームワークであるCoSimGenを提案する。
条件付けは(1)クラス意味論に基づくテキストプロンプト、(2)空間コヒーレンスを提供するための文脈プロンプトの空間埋め込み、(3)拡散中の雑音レベルをモデル化するための時間ステップ情報のスペクトル埋め込みによって直感的に達成される。
このフレームワークは、制御性と訓練効率を高めるために、テキストとクラス埋め込みの間の対照的な三重項の損失と、拡散と対向的な損失を取り入れている。
初期低解像度出力128×128を512×512に超解して、条件に厳格に固執した高忠実な画像およびマスクを生成する。
FID, KID, LPIPS, Class FID, Positive predict value for image fidelity and semantic alignment of generated sample over four various datasets。
CoSimGenはすべてのデータセットで最先端のパフォーマンスを達成し、データセットで0.11、LPIPSで0.53の最低KIDを達成した。
関連論文リスト
- SimGen: A Diffusion-Based Framework for Simultaneous Surgical Image and Segmentation Mask Generation [1.9393128408121891]
テキスト・トゥ・イメージのような生成AIモデルは、セグメンテーションマスクのような空間アノテーションを取り入れることで、データの不足を軽減することができる。
本研究は,同時画像とマスク生成のための新しいタスクと手法であるSimGenを紹介する。
SimGenはDDPMフレームワークとResidual U-Netに基づく拡散モデルであり、高忠実度手術画像とそれに対応するセグメンテーションマスクを共同で生成するように設計されている。
論文 参考訳(メタデータ) (2025-01-15T18:48:38Z) - Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - OminiControl: Minimal and Universal Control for Diffusion Transformer [68.3243031301164]
我々は,Diffusion Transformer(DiT)アーキテクチャに画像条件をどのように統合するかを再考する,新しいアプローチであるOminiControlを提案する。
OminiControlは3つの重要なイノベーションを通じて、これらの制限に対処する。
論文 参考訳(メタデータ) (2024-11-22T17:55:15Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - Discriminative Hamiltonian Variational Autoencoder for Accurate Tumor Segmentation in Data-Scarce Regimes [2.8498944632323755]
医用画像分割のためのエンドツーエンドハイブリッドアーキテクチャを提案する。
ハミルトン変分オートエンコーダ(HVAE)と識別正則化を用いて生成画像の品質を向上する。
我々のアーキテクチャはスライス・バイ・スライス・ベースで3Dボリュームを分割し、リッチな拡張データセットをカプセル化する。
論文 参考訳(メタデータ) (2024-06-17T15:42:08Z) - 3D MRI Synthesis with Slice-Based Latent Diffusion Models: Improving Tumor Segmentation Tasks in Data-Scarce Regimes [2.8498944632323755]
本稿では,ボリュームデータ生成の複雑さに対処するスライスに基づく遅延拡散アーキテクチャを提案する。
この手法は,医療用画像と関連するマスクの同時分布モデルを拡張し,データスカース体制下での同時生成を可能にする。
構造は, 大きさ, 形状, 相対位置などの腫瘍特性によって調節できるため, 腫瘍の多様性は様々である。
論文 参考訳(メタデータ) (2024-06-08T09:53:45Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - 3D fluorescence microscopy data synthesis for segmentation and
benchmarking [0.9922927990501083]
3次元蛍光顕微鏡のための現実的な画像データを生成するために、条件付き生成対向ネットワークを利用することができる。
細胞構造のさらなる位置条件付けにより、位置依存的な強度特性の再構築が可能となる。
パッチワイド動作原理とその後のフルサイズ再組み立て戦略を用いて、任意のサイズと異なる生物の画像データを生成する。
論文 参考訳(メタデータ) (2021-07-21T16:08:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。