論文の概要: Style-Content Disentanglement in Language-Image Pretraining
Representations for Zero-Shot Sketch-to-Image Synthesis
- arxiv url: http://arxiv.org/abs/2206.01661v1
- Date: Fri, 3 Jun 2022 16:14:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-06 15:55:37.474053
- Title: Style-Content Disentanglement in Language-Image Pretraining
Representations for Zero-Shot Sketch-to-Image Synthesis
- Title(参考訳): ゼロショットスケッチ・ツー・イメージ合成のための言語-画像事前学習表現におけるスタイルコンテントの絡み合い
- Authors: Jan Zuiderveld
- Abstract要約: パラメータを(再)学習することなく,画像生成器をスケッチ・ツー・イメージ生成器として利用するために,コンテンツとスタイル表現のアンタングル化が可能であることを示す。
提案手法は,入力スケッチの表現における情報の構成性を仮定する算術初等演算からなる簡易な手法である。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we propose and validate a framework to leverage language-image
pretraining representations for training-free zero-shot sketch-to-image
synthesis. We show that disentangled content and style representations can be
utilized to guide image generators to employ them as sketch-to-image generators
without (re-)training any parameters. Our approach for disentangling style and
content entails a simple method consisting of elementary arithmetic assuming
compositionality of information in representations of input sketches. Our
results demonstrate that this approach is competitive with state-of-the-art
instance-level open-domain sketch-to-image models, while only depending on
pretrained off-the-shelf models and a fraction of the data.
- Abstract(参考訳): 本研究では,ゼロショットスケッチ画像合成のための言語画像事前学習表現を利用するフレームワークの提案と検証を行う。
パラメータを(再)学習することなく,画像生成器をスケッチ・ツー・イメージ生成器として利用するために,コンテンツとスタイル表現のアンタングル化が可能であることを示す。
本手法は,入力スケッチの表現における情報の合成性を仮定した初等算術からなる簡易な手法である。
提案手法は,既訓練のオフ・ザ・シェルフモデルと少数のデータにのみ依存しながら,最先端のインスタンスレベルのオープンドメインスケッチ・ツー・イメージモデルと競合することを示す。
関連論文リスト
- DiffMorph: Text-less Image Morphing with Diffusion Models [0.0]
verb|DiffMorph|は、テキストプロンプトを使わずに概念を混ぜたイメージを合成する。
verb|DiffMorph|は、アーティストが描いたスケッチを条件付けして初期画像を取得し、モルヒネ画像を生成する。
トレーニング済みのテキスト・ツー・イメージ拡散モデルを用いて、各画像を忠実に再構成する。
論文 参考訳(メタデータ) (2024-01-01T12:42:32Z) - Customize StyleGAN with One Hand Sketch [0.0]
本稿では,単一のユーザスケッチでスタイルGAN画像を制御するフレームワークを提案する。
我々は、エネルギーベース学習により、事前学習したStyleGANモデルの潜在空間における条件分布を学習する。
我々のモデルは、入力スケッチにセマンティックに整合したマルチモーダル画像を生成することができる。
論文 参考訳(メタデータ) (2023-10-29T09:32:33Z) - DiffSketching: Sketch Control Image Synthesis with Diffusion Models [10.172753521953386]
スケッチ・ツー・イメージ合成のためのディープラーニングモデルは、視覚的な詳細なしに歪んだ入力スケッチを克服する必要がある。
我々のモデルは、クロスドメイン制約を通じてスケッチにマッチし、画像合成をより正確に導くために分類器を使用する。
我々のモデルは、生成品質と人的評価の点でGANベースの手法に勝ることができ、大規模なスケッチ画像データセットに依存しない。
論文 参考訳(メタデータ) (2023-05-30T07:59:23Z) - Text-Guided Scene Sketch-to-Photo Synthesis [5.431298869139175]
テキストガイダンスを用いたシーンレベルのスケッチ・ツー・フォト合成手法を提案する。
モデルのトレーニングには,写真の集合から自己教師付き学習を用いる。
実験により,カラー画像から抽出されていないオリジナルスケッチ画像を視覚的品質の高い写真に変換することを確認した。
論文 参考訳(メタデータ) (2023-02-14T08:13:36Z) - Sketch-Guided Text-to-Image Diffusion Models [57.12095262189362]
本稿では,事前訓練されたテキスト-画像拡散モデルを示す普遍的なアプローチを提案する。
本手法では,タスク専用のモデルや専用エンコーダをトレーニングする必要はない。
我々は、スケッチ・ツー・イメージの翻訳タスクに特に焦点をあて、画像を生成する堅牢で表現力のある方法を明らかにする。
論文 参考訳(メタデータ) (2022-11-24T18:45:32Z) - AI Illustrator: Translating Raw Descriptions into Images by Prompt-based
Cross-Modal Generation [61.77946020543875]
本稿では,複雑な意味論による生の記述を意味的に対応する画像に翻訳するフレームワークを提案する。
本フレームワークは,テキスト埋め込みから画像埋め込みへのプロンプトに基づくプロジェクションモジュールと,StyleGAN上に構築された適応画像生成モジュールの2つのコンポーネントから構成される。
本手法は,事前学習モデルに適合し,複雑な記述を処理でき,外部のペアデータを必要としない。
論文 参考訳(メタデータ) (2022-09-07T13:53:54Z) - More Control for Free! Image Synthesis with Semantic Diffusion Guidance [79.88929906247695]
制御可能な画像合成モデルは、サンプル画像からテキスト命令やガイダンスに基づいて多様な画像を作成することができる。
セマンティックな拡散誘導のための新しい統合フレームワークを導入し、言語や画像の誘導、あるいはその両方を可能にした。
FFHQとLSUNのデータセットで実験を行い、微細なテキスト誘導画像合成結果を示す。
論文 参考訳(メタデータ) (2021-12-10T18:55:50Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Zero-Shot Text-to-Image Generation [15.135825501365007]
テキストと画像トークンを単一のデータストリームとして自動回帰モデル化する変換器について述べる。
十分なデータとスケールで、ゼロショットで評価した場合、従来のドメイン固有モデルと競合するアプローチです。
論文 参考訳(メタデータ) (2021-02-24T06:42:31Z) - SketchyCOCO: Image Generation from Freehand Scene Sketches [71.85577739612579]
本稿では,シーンレベルのフリーハンドスケッチから画像の自動生成手法を提案する。
主要なコントリビューションは、EdgeGANと呼ばれる属性ベクトルをブリッジしたGeneversarative Adrial Networkである。
我々はSketchyCOCOと呼ばれる大規模複合データセットを構築し、ソリューションをサポートし評価した。
論文 参考訳(メタデータ) (2020-03-05T14:54:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。