論文の概要: Interpreting Generative Adversarial Networks for Interactive Image
Generation
- arxiv url: http://arxiv.org/abs/2108.04896v1
- Date: Tue, 10 Aug 2021 19:42:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-12 20:41:25.989030
- Title: Interpreting Generative Adversarial Networks for Interactive Image
Generation
- Title(参考訳): 対話型画像生成のための生成敵対ネットワークの解釈
- Authors: Bolei Zhou
- Abstract要約: この章では、深層生成モデルの解釈に関する最近の研究の概要を紹介する。
学習表現に現れる人間の理解可能な概念をどのように識別し、インタラクティブな画像生成と編集に利用できるかを確認する。
- 参考スコア(独自算出の注目度): 36.539339220652046
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Great progress has been made by the advances in Generative Adversarial
Networks (GANs) for image generation. However, there lacks enough understanding
on how a realistic image can be generated by the deep representations of GANs
from a random vector. This chapter will give a summary of recent works on
interpreting deep generative models. We will see how the human-understandable
concepts that emerge in the learned representation can be identified and used
for interactive image generation and editing.
- Abstract(参考訳): 画像生成のためのGAN(Generative Adversarial Networks)の発展により、大きな進歩を遂げた。
しかし、ランダムなベクトルからGANの深い表現によって現実的なイメージがどのように生成されるかは十分に理解されていない。
本章では、深層生成モデル解釈に関する最近の研究の概要を述べる。
学習表現に現れる人間の理解可能な概念を識別し、インタラクティブな画像生成と編集に利用する方法について検討する。
関連論文リスト
- RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Distilling Representations from GAN Generator via Squeeze and Span [55.76208869775715]
本稿では,GANジェネレータから知識を抽出し,その表現を抽出する手法を提案する。
我々は,合成ドメインの蒸留された表現を実領域に分散し,実際のトレーニングデータを用いてGANのモード崩壊を緩和する。
論文 参考訳(メタデータ) (2022-11-06T01:10:28Z) - IR-GAN: Image Manipulation with Linguistic Instruction by Increment
Reasoning [110.7118381246156]
Incrment Reasoning Generative Adversarial Network (IR-GAN)は、画像における視覚的インクリメントと命令における意味的インクリメントとの整合性を推論することを目的としている。
まず,単語レベルと命令レベルの命令エンコーダを導入し,履歴関連命令からユーザの意図を意味的インクリメントとして学習する。
第2に、対象画像を生成するために、意味的インクリメントの表現をソースイメージに組み込んで、ソースイメージが補助的参照の役割を担っている。
論文 参考訳(メタデータ) (2022-04-02T07:48:39Z) - Improved Image Generation via Sparse Modeling [27.66648389933265]
生成器は、Convolutional Sparse Coding (CSC) とそのMulti-Layeredバージョン (ML-CSC) 合成プロセスの発現として見ることができる。
この観測は、発電機内の適切な選択された活性化層にスパーシファイング正規化を明示的に強制することによって活用する。
論文 参考訳(メタデータ) (2021-04-01T13:52:40Z) - Unsupervised Discovery of Disentangled Manifolds in GANs [74.24771216154105]
解釈可能な生成プロセスは、様々な画像編集アプリケーションに有用である。
本稿では,任意の学習された生成逆数ネットワークが与えられた潜在空間における解釈可能な方向を検出する枠組みを提案する。
論文 参考訳(メタデータ) (2020-11-24T02:18:08Z) - Interpreting Spatially Infinite Generative Models [40.453301580034804]
近年の研究では、空間ノイズベクトルを完全な畳み込みニューラルネットワークに入力することで、任意の解像度出力画像の生成と任意の解像度トレーニング画像のトレーニングが可能であることが示されている。
空間過程への接続を描画することで、無限空間生成のしっかりとした理論的解釈を提供する。
世界地図生成、パノラマ画像、テクスチャ合成の実験は、任意の大きさの画像を効率的に生成する$infty$-GANの能力を検証する。
論文 参考訳(メタデータ) (2020-07-24T09:00:41Z) - Network Bending: Expressive Manipulation of Deep Generative Models [0.2062593640149624]
ネットワーク曲げと呼ばれる深層生成モデルを操作するための新しいフレームワークを提案する。
生成過程において意味論的に意味のある側面を直接操作できるだけでなく、幅広い表現的な結果を得ることができるかを示す。
論文 参考訳(メタデータ) (2020-05-25T21:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。