論文の概要: SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow
- arxiv url: http://arxiv.org/abs/2405.20282v1
- Date: Thu, 30 May 2024 17:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 13:09:46.960168
- Title: SemFlow: Binding Semantic Segmentation and Image Synthesis via Rectified Flow
- Title(参考訳): SemFlow: 正規化フローによるセマンティックセグメンテーションと画像合成
- Authors: Chaoyang Wang, Xiangtai Li, Lu Qi, Henghui Ding, Yunhai Tong, Ming-Hsuan Yang,
- Abstract要約: セマンティックセグメンテーションとセマンティックイメージ合成のための統合拡散ベースフレームワーク(SemFlow)を提案する。
トレーニング対象が対称であるため、イメージとセマンティックマスクの2つの分布に属するサンプルは、無理なく可逆的に転送することができる。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
- 参考スコア(独自算出の注目度): 94.90853153808987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantic segmentation and semantic image synthesis are two representative tasks in visual perception and generation. While existing methods consider them as two distinct tasks, we propose a unified diffusion-based framework (SemFlow) and model them as a pair of reverse problems. Specifically, motivated by rectified flow theory, we train an ordinary differential equation (ODE) model to transport between the distributions of real images and semantic masks. As the training object is symmetric, samples belonging to the two distributions, images and semantic masks, can be effortlessly transferred reversibly. For semantic segmentation, our approach solves the contradiction between the randomness of diffusion outputs and the uniqueness of segmentation results. For image synthesis, we propose a finite perturbation approach to enhance the diversity of generated results without changing the semantic categories. Experiments show that our SemFlow achieves competitive results on semantic segmentation and semantic image synthesis tasks. We hope this simple framework will motivate people to rethink the unification of low-level and high-level vision. Project page: https://github.com/wang-chaoyang/SemFlow.
- Abstract(参考訳): セマンティックセグメンテーションとセマンティック画像合成は視覚知覚と生成における2つの代表的なタスクである。
既存の手法ではこれらを2つの異なるタスクとみなすが、統一拡散ベースフレームワーク(SemFlow)を提案し、逆問題としてモデル化する。
具体的には, 正規微分方程式(ODE)モデルを用いて, 実画像の分布とセマンティックマスクを伝達する。
トレーニング対象が対称であるため、イメージとセマンティックマスクの2つの分布に属するサンプルは、無理なく可逆的に転送することができる。
セグメンテーションでは,拡散出力のランダム性とセグメンテーション結果の特異性との矛盾を解消する。
画像合成において, 意味的カテゴリを変更することなく, 生成結果の多様性を高めるための有限摂動手法を提案する。
実験の結果,セマンティックセグメンテーションとセマンティック画像合成タスクにおいて,セマンティックセグメンテーションと競合する結果が得られた。
このシンプルなフレームワークが、低レベルかつ高レベルのビジョンの統合を再考する動機になることを期待しています。
プロジェクトページ: https://github.com/wang-chaoyang/SemFlow.com
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis [8.080248399002663]
本稿では,セマンティック画像合成を画像認識タスクとして扱う。
スタイル参照はまずランダムノイズで汚染され、その後IIDMによって徐々に認知される。
改良,色変換,モデルアンサンブルの3つの手法が提案され,生成品質がさらに向上した。
論文 参考訳(メタデータ) (2024-03-20T08:21:00Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Edge Guided GANs with Multi-Scale Contrastive Learning for Semantic
Image Synthesis [139.2216271759332]
本稿では,難解なセマンティック画像合成タスクのための新しいECGANを提案する。
セマンティックラベルは詳細な構造情報を提供しておらず、局所的な詳細や構造を合成することは困難である。
畳み込み、ダウンサンプリング、正規化といった広く採用されているCNN操作は、通常、空間分解能の損失を引き起こす。
本稿では,同じセマンティッククラスに属する画素埋め込みを強制して,より類似した画像コンテンツを生成することを目的とした,新しいコントラスト学習手法を提案する。
論文 参考訳(メタデータ) (2023-07-22T14:17:19Z) - Cross-modal tumor segmentation using generative blending augmentation and self training [1.6440045168835438]
本稿では,新しいデータ拡張手法によって強化された従来の画像合成に基づくクロスモーダルセグメンテーション手法を提案する。
Generative Blending Augmentation (GBA)は、単一のトレーニング画像から代表的生成特徴を学習し、腫瘍の外観を現実的に多様化させる。
提案手法は,MICCAI CrossMoDA 2022 チャレンジの検証および試験段階において,前庭神経ショーノマ(VS)セグメンテーションにおいて第1位となった。
論文 参考訳(メタデータ) (2023-04-04T11:01:46Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。