論文の概要: CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image
Diffusion Models
- arxiv url: http://arxiv.org/abs/2312.06059v1
- Date: Mon, 11 Dec 2023 01:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 17:16:54.627699
- Title: CONFORM: Contrast is All You Need For High-Fidelity Text-to-Image
Diffusion Models
- Title(参考訳): コンフォーマル:コントラストは高精細テキストと画像の拡散モデルに必要なもの
- Authors: Tuna Han Salih Meral, Enis Simsar, Federico Tombari, Pinar Yanardag
- Abstract要約: テキスト間の拡散モデルによって生成された画像は、提供されたテキストプロンプトの意味的な意図を忠実に表現するとは限らない。
私たちの研究は、対照的な文脈でこの課題に取り組むことによって、新しい視点を導入します。
さまざまなシナリオにまたがって広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含む。
- 参考スコア(独自算出の注目度): 48.10798436003449
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Images produced by text-to-image diffusion models might not always faithfully
represent the semantic intent of the provided text prompt, where the model
might overlook or entirely fail to produce certain objects. Existing solutions
often require customly tailored functions for each of these problems, leading
to sub-optimal results, especially for complex prompts. Our work introduces a
novel perspective by tackling this challenge in a contrastive context. Our
approach intuitively promotes the segregation of objects in attention maps
while also maintaining that pairs of related attributes are kept close to each
other. We conduct extensive experiments across a wide variety of scenarios,
each involving unique combinations of objects, attributes, and scenes. These
experiments effectively showcase the versatility, efficiency, and flexibility
of our method in working with both latent and pixel-based diffusion models,
including Stable Diffusion and Imagen. Moreover, we publicly share our source
code to facilitate further research.
- Abstract(参考訳): テキストから画像への拡散モデルによって生成された画像は、提供されるテキストプロンプトの意味的意図を常に忠実に表現するとは限らない。
既存の解はしばしばこれらの問題に対してカスタムに調整された関数を必要とし、特に複雑なプロンプトに対して準最適結果をもたらす。
我々の研究は、この課題を対照的な文脈で取り組むことによって、新しい視点を導入している。
本手法は,注目マップ内のオブジェクトの分離を直感的に促進するとともに,関連属性のペアが互いに近接していることを維持する。
さまざまなシナリオで広範な実験を行い、それぞれがオブジェクト、属性、シーンのユニークな組み合わせを含んでいます。
これらの実験は, 安定拡散やイメージnを含む, 潜時および画素ベース拡散モデルの両方で動作する手法の汎用性, 効率, 柔軟性を効果的に示すものである。
さらに、さらなる研究を促進するためにソースコードを公開しています。
関連論文リスト
- Text-to-Image Diffusion Models are Great Sketch-Photo Matchmakers [127.67444974452411]
本稿では,ゼロショットスケッチに基づく画像検索(ZS-SBIR)のためのテキスト・画像拡散モデルについて検討する。
スケッチと写真の間のギャップをシームレスに埋めるテキストと画像の拡散モデルの能力。
論文 参考訳(メタデータ) (2024-03-12T00:02:03Z) - Training-Free Consistent Text-to-Image Generation [84.51727853278007]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Explicit and implicit models in infrared and visible image fusion [5.842112272932475]
本稿では,画像融合におけるディープラーニングモデルの限界とそれに対応する最適化戦略について論じる。
21個の試験セットの比較実験を10種類のモデルで行った。
定性的かつ定量的な結果は、暗黙的なモデルが画像の特徴を学習するより包括的な能力を持っていることを示している。
論文 参考訳(メタデータ) (2022-06-20T06:05:09Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。