論文の概要: LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation
- arxiv url: http://arxiv.org/abs/2303.12343v1
- Date: Wed, 22 Mar 2023 06:55:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 15:00:07.692757
- Title: LD-ZNet: A Latent Diffusion Approach for Text-Based Image Segmentation
- Title(参考訳): LD-ZNet:テキストベース画像分割のための遅延拡散手法
- Authors: Koutilya Pnvr, Bharat Singh, Pallabi Ghosh, Behjat Siddiquie, David
Jacobs
- Abstract要約: インターネット規模のデータセットでトレーニングした潜在拡散モデル(LDM)を用いて,実画像とAI画像のセグメンテーション手法を示す。
自然画像のテキストと画像のセグメンテーションにおいて,標準ベースラインよりも6%向上することを示す。
AI生成画像では、最先端技術と比較して20%近く改善されている。
- 参考スコア(独自算出の注目度): 16.718130897251324
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a technique for segmenting real and AI-generated images using
latent diffusion models (LDMs) trained on internet-scale datasets. First, we
show that the latent space of LDMs (z-space) is a better input representation
compared to other feature representations like RGB images or CLIP encodings for
text-based image segmentation. By training the segmentation models on the
latent z-space, which creates a compressed representation across several
domains like different forms of art, cartoons, illustrations, and photographs,
we are also able to bridge the domain gap between real and AI-generated images.
We show that the internal features of LDMs contain rich semantic information
and present a technique in the form of LD-ZNet to further boost the performance
of text-based segmentation. Overall, we show up to 6% improvement over standard
baselines for text-to-image segmentation on natural images. For AI-generated
imagery, we show close to 20% improvement compared to state-of-the-art
techniques.
- Abstract(参考訳): 本稿では,インターネットスケールデータセット上で学習した潜在拡散モデル(ldms)を用いた実画像とai画像の分割手法を提案する。
まず,テキストベース画像セグメンテーションのためのRGB画像やCLIPエンコーディングなどの他の特徴表現と比較して,LDMの潜時空間(z空間)が入力表現に優れていることを示す。
異なる形式のアート、漫画、イラスト、写真など、複数のドメインにまたがる圧縮表現を生成する潜在的なz空間上でセグメンテーションモデルをトレーニングすることで、実画像とai生成画像の間のドメインギャップを橋渡しすることができる。
本報告では, LDMの内部特徴が豊富な意味情報を含んでいることを示すとともに, LD-ZNet方式でテキストセグメンテーションの性能をさらに向上させる手法を提案する。
総じて、自然画像上のテキストから画像へのセグメンテーションの標準ベースラインよりも6%改善しています。
AI生成画像では、最先端技術と比較して20%近く改善されている。
関連論文リスト
- Language Guided Domain Generalized Medical Image Segmentation [68.93124785575739]
単一ソースドメインの一般化は、より信頼性が高く一貫性のあるイメージセグメンテーションを現実の臨床環境にわたって約束する。
本稿では,テキストエンコーダ機能によって案内されるコントラスト学習機構を組み込むことで,テキスト情報を明確に活用する手法を提案する。
文献における既存手法に対して,本手法は良好な性能を発揮する。
論文 参考訳(メタデータ) (2024-04-01T17:48:15Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Exploring Limits of Diffusion-Synthetic Training with Weakly Supervised Semantic Segmentation [16.863038973001483]
本研究は拡散合成セマンティックセマンティックセグメンテーショントレーニングの3つの手法を紹介する。
第一に、信頼性に配慮した堅牢なトレーニングは、もともと弱い教師付き学習で用いられ、合成マスクの品質が不十分なセグメンテーションに役立つ。
第2に、画像Net-1kクラスの画像にバックボーンだけでなく、全体セグメンテーションモデルの大規模事前トレーニングを行うことで、下流のセグメンテーションタスクにメリットがある。
第3に,テキストリソースの制限により,トレーニング画像のスケールアップと多様化を図るために,プロンプトテキストセットにプロンプト拡張,データ拡張を導入する。
論文 参考訳(メタデータ) (2023-09-04T05:34:19Z) - Zero-shot spatial layout conditioning for text-to-image diffusion models [52.24744018240424]
大規模テキスト・画像拡散モデルでは、生成画像モデリングにおける技術の現状が大幅に改善されている。
画像キャンバスのセグメントに関連付けられたテキストからの画像生成を考察し、直感的な自然言語インタフェースと生成されたコンテンツの正確な空間制御を組み合わせた。
ZestGuideは,事前学習したテキスト・画像拡散モデルにプラグイン可能なゼロショットセグメンテーション誘導手法である。
論文 参考訳(メタデータ) (2023-06-23T19:24:48Z) - Spatial Latent Representations in Generative Adversarial Networks for
Image Generation [0.0]
StyleGAN2 に対して空間潜在空間の族を定義する。
我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-25T20:01:11Z) - STAIR: Learning Sparse Text and Image Representation in Grounded Tokens [84.14528645941128]
疎結合なセマンティック表現を構築することは、密度の高いプレゼンテーションと同程度、あるいはそれ以上に強力であることを示す。
CLIPモデルを拡張してスパーステキストと画像表現(STAIR)を構築し、画像とテキストをスパーストークン空間にマッピングする。
CLIPモデルでは、+4.9%$と+4.3%$絶対リコール@1の改善で大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2023-01-30T17:21:30Z) - Learning to Generate Text-grounded Mask for Open-world Semantic
Segmentation from Only Image-Text Pairs [10.484851004093919]
我々は,任意の視覚概念をイメージに分割する学習を目的とした,オープンワールドセマンティックセマンティックセマンティックセマンティクスに取り組む。
既存のオープンワールドセグメンテーション手法は、多様な視覚概念を学習するためにコントラッシブラーニング(CL)を採用することで、目覚ましい進歩を見せている。
そこで本研究では,モデルが地域テキストアライメントを直接学習することのできる,新しいテキストグラウンド・コントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-01T18:59:03Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。