論文の概要: UniGS: Unified Representation for Image Generation and Segmentation
- arxiv url: http://arxiv.org/abs/2312.01985v1
- Date: Mon, 4 Dec 2023 15:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 14:53:27.131729
- Title: UniGS: Unified Representation for Image Generation and Segmentation
- Title(参考訳): UniGS:イメージ生成とセグメンテーションのための統一表現
- Authors: Lu Qi, Lehan Yang, Weidong Guo, Yu Xu, Bo Du, Varun Jampani,
Ming-Hsuan Yang
- Abstract要約: カラーマップを使用してエンティティレベルのマスクを表現し、さまざまなエンティティ番号の課題に対処します。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールが提案されている。
- 参考スコア(独自算出の注目度): 105.08152635402858
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces a novel unified representation of diffusion models for
image generation and segmentation. Specifically, we use a colormap to represent
entity-level masks, addressing the challenge of varying entity numbers while
aligning the representation closely with the image RGB domain. Two novel
modules, including the location-aware color palette and progressive dichotomy
module, are proposed to support our mask representation. On the one hand, a
location-aware palette guarantees the colors' consistency to entities'
locations. On the other hand, the progressive dichotomy module can efficiently
decode the synthesized colormap to high-quality entity-level masks in a
depth-first binary search without knowing the cluster numbers. To tackle the
issue of lacking large-scale segmentation training data, we employ an
inpainting pipeline and then improve the flexibility of diffusion models across
various tasks, including inpainting, image synthesis, referring segmentation,
and entity segmentation. Comprehensive experiments validate the efficiency of
our approach, demonstrating comparable segmentation mask quality to
state-of-the-art and adaptability to multiple tasks. The code will be released
at \href{https://github.com/qqlu/Entity}{https://github.com/qqlu/Entity}.
- Abstract(参考訳): 本稿では,画像生成とセグメンテーションのための拡散モデルの統一表現を提案する。
具体的には、カラーマップを使用してエンティティレベルのマスクを表現し、画像RGBドメインと密に表現を調整しながら、さまざまなエンティティ番号の課題に対処する。
マスク表現を支援するために、位置認識カラーパレットとプログレッシブ二分法モジュールを含む2つの新しいモジュールを提案する。
一方、位置認識パレットは、エンティティのロケーションに対する色の一貫性を保証する。
一方、プログレッシブ二分法モジュールは、クラスタ番号を知らずに、ディープファーストバイナリサーチにおいて、合成したカラーマップを高品質なエンティティレベルマスクに効率的に復号することができる。
大規模セグメンテーショントレーニングデータの欠如に対処するため,インペインティングパイプラインを用い,インペインティング,画像合成,参照セグメンテーション,エンティティセグメンテーションなど,様々なタスクにおける拡散モデルの柔軟性を向上させる。
総合的な実験により、我々のアプローチの効率を検証し、複数のタスクに対する最先端および適応性に匹敵するセグメンテーションマスクの品質を示す。
コードは \href{https://github.com/qqlu/Entity}{https://github.com/qqlu/Entity} でリリースされる。
関連論文リスト
- IIDM: Image-to-Image Diffusion Model for Semantic Image Synthesis [8.080248399002663]
本稿では,セマンティック画像合成を画像認識タスクとして扱う。
スタイル参照はまずランダムノイズで汚染され、その後IIDMによって徐々に認知される。
改良,色変換,モデルアンサンブルの3つの手法が提案され,生成品質がさらに向上した。
論文 参考訳(メタデータ) (2024-03-20T08:21:00Z) - Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - Few-shot semantic segmentation via mask aggregation [5.886986014593717]
セマンティックセグメンテーションは、ラベル付きデータが少ない新しいクラスを認識することを目的としている。
従来の研究では、これをピクセル単位の分類問題と見なしていた。
この問題に対処するためのマスクベースの分類手法を提案する。
論文 参考訳(メタデータ) (2022-02-15T07:13:09Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。