論文の概要: Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation
- arxiv url: http://arxiv.org/abs/2507.23058v1
- Date: Wed, 30 Jul 2025 19:43:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.623881
- Title: Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation
- Title(参考訳): マルチモーダルカウンティファクト生成のための参照ガイド拡散インペインティング
- Authors: Alexandru Buburuzan,
- Abstract要約: 自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。
本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
- 参考スコア(独自算出の注目度): 55.2480439325792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Safety-critical applications, such as autonomous driving and medical image analysis, require extensive multimodal data for rigorous testing. Synthetic data methods are gaining prominence due to the cost and complexity of gathering real-world data, but they demand a high degree of realism and controllability to be useful. This work introduces two novel methods for synthetic data generation in autonomous driving and medical image analysis, namely MObI and AnydoorMed, respectively. MObI is a first-of-its-kind framework for Multimodal Object Inpainting that leverages a diffusion model to produce realistic and controllable object inpaintings across perceptual modalities, demonstrated simultaneously for camera and lidar. Given a single reference RGB image, MObI enables seamless object insertion into existing multimodal scenes at a specified 3D location, guided by a bounding box, while maintaining semantic consistency and multimodal coherence. Unlike traditional inpainting methods that rely solely on edit masks, this approach uses 3D bounding box conditioning to ensure accurate spatial positioning and realistic scaling. AnydoorMed extends this paradigm to the medical imaging domain, focusing on reference-guided inpainting for mammography scans. It leverages a diffusion-based model to inpaint anomalies with impressive detail preservation, maintaining the reference anomaly's structural integrity while semantically blending it with the surrounding tissue. Together, these methods demonstrate that foundation models for reference-guided inpainting in natural images can be readily adapted to diverse perceptual modalities, paving the way for the next generation of systems capable of constructing highly realistic, controllable and multimodal counterfactual scenarios.
- Abstract(参考訳): 自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。
実世界のデータ収集のコストと複雑さにより、合成データ手法が注目されているが、有用性を得るためには、高度なリアリズムと制御性が必要である。
本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
MObIはMultimodal Object Inpaintingのための第一種フレームワークであり、拡散モデルを利用して知覚的モダリティをまたいだ現実的で制御可能なオブジェクトインパインティングを生成し、カメラとライダーで同時に実証する。
単一の参照RGB画像が与えられた場合、MObIは、セマンティック一貫性とマルチモーダルコヒーレンスを維持しながら、特定の3D位置で既存のマルチモーダルシーンへのシームレスなオブジェクト挿入を可能にする。
マスクの編集にのみ依存する従来の塗装法とは異なり、このアプローチでは正確な空間位置決めと現実的なスケーリングを確保するために3D境界ボックスコンディショニングを使用する。
AnydoorMedは、このパラダイムを医療画像領域に拡張し、マンモグラフィースキャンのための基準誘導塗装に焦点を当てている。
拡散モデルを利用して、顕著な微細な保存を施し、参照異常の構造的整合性を維持しながら、それを周囲の組織と意味的にブレンドする。
これらの手法により, 自然画像における参照誘導塗装の基礎モデルが, 多様な知覚的モダリティに容易に適応できることが示され, 現実的で制御可能な, マルチモーダルなカウンターファクトのシナリオを構築できる次世代システムへの道が開かれた。
関連論文リスト
- Hierarchical Diffusion Framework for Pseudo-Healthy Brain MRI Inpainting with Enhanced 3D Consistency [3.4844189568364348]
Pseudo-Healthy Image inpaintingは、病理脳MRIスキャンを解析するための重要な前処理ステップである。
現在の塗装法の多くは、平面内忠実度の高いスライス2Dモデルを好むが、スライス間の独立性はボリュームに不連続をもたらす。
直接3次元モデリングを2つの粗い2次元ステージに置き換えることで,これらの制約を階層的な拡散フレームワークで解決する。
論文 参考訳(メタデータ) (2025-07-23T20:21:29Z) - MObI: Multimodal Object Inpainting Using Diffusion Models [52.07640413626605]
マルチモーダル・オブジェクト・インペイントのための新しいフレームワークであるMObIを紹介する。
単一の参照RGBイメージを使用して、MObIは既存のマルチモーダルシーンにオブジェクトをシームレスに挿入できる。
マスクの編集だけに頼っている従来の塗り絵とは違って、3Dバウンディングボックスコンディショニングは、オブジェクトの正確な空間的位置決めとリアルなスケーリングを可能にします。
論文 参考訳(メタデータ) (2025-01-06T17:43:26Z) - Latent Drifting in Diffusion Models for Counterfactual Medical Image Synthesis [55.959002385347645]
遅延ドリフトにより、医療画像に対して拡散モデルを条件付けし、反ファクト画像生成の複雑なタスクに適合させることができる。
我々は,脳MRIと胸部X線による3つの時系列的ベンチマークデータセットを用いて,対物画像生成法について検討した。
論文 参考訳(メタデータ) (2024-12-30T01:59:34Z) - Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。
MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。
我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文 参考訳(メタデータ) (2024-10-29T03:49:40Z) - Multi-Conditioned Denoising Diffusion Probabilistic Model (mDDPM) for Medical Image Synthesis [22.0080610434872]
アノテーションを用いた合成画像の制御生成フレームワークを提案する。
本手法は, 解剖学的に忠実に表現できる, 注記式肺CT画像を作成することができることを示す。
本実験は, この自然の制御された生成フレームワークが, ほぼすべての最先端画像生成モデルを超えることを実証した。
論文 参考訳(メタデータ) (2024-09-07T01:19:02Z) - Diff-Mosaic: Augmenting Realistic Representations in Infrared Small Target Detection via Diffusion Prior [63.64088590653005]
本稿では拡散モデルに基づくデータ拡張手法であるDiff-Mosaicを提案する。
我々は,モザイク画像を高度に調整し,リアルな画像を生成するPixel-Priorという拡張ネットワークを導入する。
第2段階では,Diff-Prior という画像強調戦略を提案する。
論文 参考訳(メタデータ) (2024-06-02T06:23:05Z) - Learning stochastic object models from medical imaging measurements by
use of advanced AmbientGANs [7.987904193401004]
GAN(Generative Adversarial Network)は、そのようなタスクの可能性を秘めている。
GAN(Generative Adversarial Network)のような深層生成ニューラルネットワークは、そのようなタスクの可能性を秘めている。
本研究では,現代進行的・多分解能的な訓練手法に適した改良型アンビエントGANトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2021-06-27T21:46:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。