論文の概要: Compositional Visual Generation and Inference with Energy Based Models
- arxiv url: http://arxiv.org/abs/2004.06030v3
- Date: Thu, 17 Dec 2020 09:26:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-13 23:07:56.412714
- Title: Compositional Visual Generation and Inference with Energy Based Models
- Title(参考訳): エネルギーモデルを用いた構成的視覚生成と推論
- Authors: Yilun Du, Shuang Li, Igor Mordatch
- Abstract要約: エネルギーベースモデルでは, 確率分布を直接組み合わせることで, この能力を発揮できることを示す。
例えば、笑顔の顔の分布と男性の顔の分布を考えると、笑顔の顔を生成するためにそれらを組み合わせることができる。
これにより、概念の結合、解離、否定を同時に満足する自然な画像を生成することができる。
- 参考スコア(独自算出の注目度): 38.14913630004353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A vital aspect of human intelligence is the ability to compose increasingly
complex concepts out of simpler ideas, enabling both rapid learning and
adaptation of knowledge. In this paper we show that energy-based models can
exhibit this ability by directly combining probability distributions. Samples
from the combined distribution correspond to compositions of concepts. For
example, given a distribution for smiling faces, and another for male faces, we
can combine them to generate smiling male faces. This allows us to generate
natural images that simultaneously satisfy conjunctions, disjunctions, and
negations of concepts. We evaluate compositional generation abilities of our
model on the CelebA dataset of natural faces and synthetic 3D scene images. We
also demonstrate other unique advantages of our model, such as the ability to
continually learn and incorporate new concepts, or infer compositions of
concept properties underlying an image.
- Abstract(参考訳): 人間の知能の重要な側面は、より単純なアイデアからますます複雑な概念を組み立て、迅速な学習と知識の適応を可能にする能力である。
本稿では, 確率分布を直接組み合わせることで, エネルギーモデルでこの能力を発揮できることを示す。
複合分布からのサンプルは概念の構成に対応する。
例えば、笑顔の顔の分布と男性の顔の分布を考えると、笑顔の顔を生成するためにそれらを組み合わせることができる。
これにより、コンビネーション、切断、概念の否定を同時に満足する自然画像を生成することができます。
我々は,自然顔のCelebAデータセットと合成3Dシーン画像を用いて,モデルの構成生成能力を評価する。
また、新たな概念を継続的に学習し、組み込む機能や、画像の基盤となる概念特性の合成を推論する機能など、我々のモデルに特有の利点も示しています。
関連論文リスト
- Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - CapHuman: Capture Your Moments in Parallel Universes [60.06408546134581]
CapHumanという新しいフレームワークを紹介します。
CapHumanはアイデンティティ機能をエンコードし、それを潜在空間に整列させることを学ぶ。
モデルに人間の頭部を柔軟で3D一貫性のある方法で制御させる前に、3D顔を導入する。
論文 参考訳(メタデータ) (2024-02-01T14:41:59Z) - Image Anything: Towards Reasoning-coherent and Training-free Multi-modal
Image Generation [9.573188010530217]
ImgAnyは、人間の推論を模倣し高品質な画像を生成する、新しいエンドツーエンドのマルチモーダル生成モデルである。
本手法は, 7つのモダリティの組み合わせを効率よく, 柔軟に行うための最初の試みである。
論文 参考訳(メタデータ) (2024-01-31T08:35:40Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - Compositional Visual Generation with Composable Diffusion Models [80.75258849913574]
拡散モデルを用いた構成生成のための代替的な構造的アプローチを提案する。
画像は拡散モデルの集合を構成することで生成され、それぞれが画像の特定のコンポーネントをモデル化する。
提案手法は, トレーニングで見られるものよりもはるかに複雑なシーンを, テスト時に生成することができる。
論文 参考訳(メタデータ) (2022-06-03T17:47:04Z) - Unsupervised Learning of Compositional Energy Concepts [70.11673173291426]
本稿では,概念を別個のエネルギー関数として発見し,表現するCOMETを提案する。
Cometは、統一されたフレームワークの下でのオブジェクトだけでなく、グローバルな概念も表現します。
論文 参考訳(メタデータ) (2021-11-04T17:46:12Z) - Learning Task-General Representations with Generative Neuro-Symbolic
Modeling [22.336243882030026]
我々は手書き文字概念の生成型ニューロシンボリック(GNS)モデルを開発する。
部品間の相関はニューラルネットワークのサブルーチンでモデル化され、モデルが生のデータから直接学習することができる。
その後の評価では、GNSモデルは確率的推論を用いて1つのトレーニング画像からリッチな概念表現を学習する。
論文 参考訳(メタデータ) (2020-06-25T14:41:27Z) - Disentangled and Controllable Face Image Generation via 3D
Imitative-Contrastive Learning [43.53235319568048]
本研究では,不整合かつ正確に制御可能な潜伏表現を持つ仮想人物の顔画像生成手法であるDiscoFaceGANを提案する。
解析的3次元顔の変形・描画過程のイメージ形成を模倣するために,3次元前処理を逆学習に組み込んでネットワークを訓練する。
論文 参考訳(メタデータ) (2020-04-24T11:21:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。