論文の概要: Divide and Compose with Score Based Generative Models
- arxiv url: http://arxiv.org/abs/2302.02272v1
- Date: Sun, 5 Feb 2023 00:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-07 19:09:53.568109
- Title: Divide and Compose with Score Based Generative Models
- Title(参考訳): スコアに基づく生成モデルによる分割と構成
- Authors: Sandesh Ghimire, Armand Comas, Davin Hill, Aria Masoomi, Octavia
Camps, Jennifer Dy
- Abstract要約: スコアベースの学習によって、興味深いコンポーネントを学習し、生成を通じてそれらを視覚化できることを示す。
また、この新たな分解によって、夢のような興味深い方法で画像を作成し、生成し、修正することができることを示す。
- 参考スコア(独自算出の注目度): 1.129429794826002
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While score based generative models, or diffusion models, have found success
in image synthesis, they are often coupled with text data or image label to be
able to manipulate and conditionally generate images. Even though manipulation
of images by changing the text prompt is possible, our understanding of the
text embedding and our ability to modify it to edit images is quite limited.
Towards the direction of having more control over image manipulation and
conditional generation, we propose to learn image components in an unsupervised
manner so that we can compose those components to generate and manipulate
images in informed manner. Taking inspiration from energy based models, we
interpret different score components as the gradient of different energy
functions. We show how score based learning allows us to learn interesting
components and we can visualize them through generation. We also show how this
novel decomposition allows us to compose, generate and modify images in
interesting ways akin to dreaming. We make our code available at
https://github.com/sandeshgh/Score-based-disentanglement
- Abstract(参考訳): スコアベースの生成モデル(または拡散モデル)は画像合成の成功を見出しているが、しばしばテキストデータや画像ラベルと結合して画像を操作し、条件付きで生成することができる。
テキストプロンプトの変更による画像操作は可能だが,テキスト埋め込みの理解と画像編集への修正能力は非常に限られている。
画像操作や条件生成をより制御する方向に向け,教師なしの方法で画像成分を学習し,それらの成分を構成して情報的に画像を生成し,操作することを提案する。
エネルギーモデルからインスピレーションを得て、異なるスコア成分を異なるエネルギー関数の勾配として解釈する。
スコアベースの学習によって、興味深いコンポーネントを学習し、生成を通じてそれらを視覚化できることを示す。
また、この新たな分解によって、夢のような興味深い方法で画像を作成し、生成し、修正することができることを示す。
コードはhttps://github.com/sandeshgh/score-based-disentanglementで利用可能です。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - Plug-and-Play Diffusion Features for Text-Driven Image-to-Image
Translation [10.39028769374367]
本稿では,画像間翻訳の領域にテキスト・ツー・イメージ合成を取り入れた新しいフレームワークを提案する。
本手法は,事前学習したテキスト・画像拡散モデルのパワーを利用して,対象のテキストに適合する新たな画像を生成する。
論文 参考訳(メタデータ) (2022-11-22T20:39:18Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic [72.60554897161948]
最近のテキストと画像のマッチングモデルは、未修正画像と文の大きなコーパスに対してコントラスト学習を適用している。
本研究では、そのようなモデルを用いて、推論時に画像が与えられた記述テキストを生成する。
結果として得られたキャプションは、教師付きキャプション法によるキャプションよりもはるかに制限を受けない。
論文 参考訳(メタデータ) (2021-11-29T11:01:49Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - Learning to Represent Image and Text with Denotation Graph [32.417311523031195]
本稿では,画像とテキスト間の暗黙的・視覚的接地表現の集合から学習表現を提案する。
得られた構造的関係を利用して,最先端のマルチモーダル学習モデルをさらに改良できることを示す。
論文 参考訳(メタデータ) (2020-10-06T18:00:58Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - Structural-analogy from a Single Image Pair [118.61885732829117]
本稿では,1対の画像A,Bのみを用いて,ニューラルネットワークによる画像構造理解能力について検討する。
我々は、B の外観とスタイルを保持するが、A に対応する構造的配置を持つ画像を生成する。
提案手法は,画像AとBのみを利用した条件生成タスクにおいて,高品質な画像を生成するために利用できる。
論文 参考訳(メタデータ) (2020-04-05T14:51:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。