論文の概要: Anycost GANs for Interactive Image Synthesis and Editing
- arxiv url: http://arxiv.org/abs/2103.03243v1
- Date: Thu, 4 Mar 2021 18:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-05 14:55:11.035419
- Title: Anycost GANs for Interactive Image Synthesis and Editing
- Title(参考訳): インタラクティブ画像合成と編集のためのAnycost GAN
- Authors: Ji Lin, Richard Zhang, Frieder Ganz, Song Han, Jun-Yan Zhu
- Abstract要約: generative adversarial networks (gans) は画像合成と編集を可能にした。
通常、エッジデバイス上で1回の編集結果を見るのに数秒かかり、インタラクティブなユーザー体験は禁止される。
本稿では,現代的なレンダリングソフトウェアからインスピレーションを得て,インタラクティブな自然画像編集のためのAnycost GANを提案する。
- 参考スコア(独自算出の注目度): 42.789686253541646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative adversarial networks (GANs) have enabled photorealistic image
synthesis and editing. However, due to the high computational cost of
large-scale generators (e.g., StyleGAN2), it usually takes seconds to see the
results of a single edit on edge devices, prohibiting interactive user
experience. In this paper, we take inspirations from modern rendering software
and propose Anycost GAN for interactive natural image editing. We train the
Anycost GAN to support elastic resolutions and channels for faster image
generation at versatile speeds. Running subsets of the full generator produce
outputs that are perceptually similar to the full generator, making them a good
proxy for preview. By using sampling-based multi-resolution training,
adaptive-channel training, and a generator-conditioned discriminator, the
anycost generator can be evaluated at various configurations while achieving
better image quality compared to separately trained models. Furthermore, we
develop new encoder training and latent code optimization techniques to
encourage consistency between the different sub-generators during image
projection. Anycost GAN can be executed at various cost budgets (up to 10x
computation reduction) and adapt to a wide range of hardware and latency
requirements. When deployed on desktop CPUs and edge devices, our model can
provide perceptually similar previews at 6-12x speedup, enabling interactive
image editing. The code and demo are publicly available:
https://github.com/mit-han-lab/anycost-gan.
- Abstract(参考訳): generative adversarial networks (gans) はフォトリアリスティックな画像合成と編集を可能にした。
しかし、大規模なジェネレータ(例:StyleGAN2)の計算コストが高いため、エッジデバイス上の単一の編集結果を見るのには通常数秒かかり、インタラクティブなユーザーエクスペリエンスを禁止します。
本稿では,現代的なレンダリングソフトウェアからインスピレーションを得て,インタラクティブな自然画像編集のためのAnycost GANを提案する。
Anycost GANをトレーニングし、弾力性のある解像度とチャンネルをサポートし、汎用性の高い速度で画像生成を高速化します。
フルジェネレーターのサブセットを実行すると、フルジェネレーターと知覚的に類似した出力が生成されるため、プレビューに適したプロキシになります。
サンプリングベースのマルチリゾリューショントレーニング、アダプティブチャネルトレーニング、および発電機コンディショニング識別器を使用することで、任意のジェネレータをさまざまな構成で評価し、別々に訓練されたモデルよりも優れた画質を実現できます。
さらに,画像投影中に異なるサブジェネレータ間の一貫性を促進するために,新しいエンコーダトレーニングと潜在コード最適化手法を開発した。
Anycost GANは、さまざまなコスト予算(最大10倍の計算削減)で実行でき、幅広いハードウェアおよびレイテンシ要件に適応できます。
デスクトップCPUとエッジデバイスにデプロイすると、6-12倍のスピードアップで知覚的に同様のプレビューを提供し、インタラクティブな画像編集を可能にします。
コードとデモは公開されている。 https://github.com/mit-han-lab/anycost-gan。
関連論文リスト
- Spatial Steerability of GANs via Self-Supervision from Discriminator [123.27117057804732]
本稿では,GANの空間的ステアビリティを向上させるための自己教師型アプローチを提案する。
具体的には、空間帰納バイアスとして生成モデルの中間層に符号化されるランダムなガウス熱マップを設計する。
推論中、ユーザは直感的に空間のヒートマップと対話し、シーンのレイアウトを調整したり、移動したり、オブジェクトを削除したりすることで、出力画像を編集することができる。
論文 参考訳(メタデータ) (2023-01-20T07:36:29Z) - ALAP-AE: As-Lite-as-Possible Auto-Encoder [6.244939945140818]
本稿では,条件付き画像生成オートエンコーダが必要とするテンソル計算を削減するアルゴリズムを提案する。
条件付き画像生成タスクの性能向上を示す。
画像品質を維持しつつ、CPUのみのデバイス上で様々なオートエンコーダのリアルタイムバージョンを実現する。
論文 参考訳(メタデータ) (2022-03-19T18:03:08Z) - A Good Image Generator Is What You Need for High-Resolution Video
Synthesis [73.82857768949651]
現代画像生成装置を用いて高解像度映像のレンダリングを行うフレームワークを提案する。
我々は,映像合成問題を,予め訓練された固定された画像生成装置の潜時空間における軌跡の発見とみなす。
本稿では,コンテンツや動きが絡み合っている所望の軌跡を検出するモーションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-04-30T15:38:41Z) - Ensembling with Deep Generative Views [72.70801582346344]
生成モデルは、色やポーズの変化などの現実世界の変動を模倣する人工画像の「ビュー」を合成することができる。
そこで本研究では, 画像分類などの下流解析作業において, 実画像に適用できるかどうかを検討する。
StyleGAN2を再生増強の源として使用し、顔の属性、猫の顔、車を含む分類タスクについてこの設定を調査します。
論文 参考訳(メタデータ) (2021-04-29T17:58:35Z) - SETGAN: Scale and Energy Trade-off GANs for Image Applications on Mobile
Platforms [15.992829133103921]
大規模エネルギートレードオフガン (SETGAN) と呼ばれる実行時に消費されるエネルギーに対するGANのトレードオフ画像生成精度に関する新しいアプローチを提案する。
我々は、完全に畳み込みGANのピラミッドを含む単一の画像非条件生成モデルであるSinGANを使用する。
SETGANのユニークなクライアントサーバベースのアーキテクチャでは、3%から12%のSSIM精度を失うことで、エネルギーの56%のアップを実現しました。
論文 参考訳(メタデータ) (2021-03-23T23:51:22Z) - Towards Faster and Stabilized GAN Training for High-fidelity Few-shot
Image Synthesis [21.40315235087551]
1024*1024解像度で優れた品質を得る軽量GAN構造を提案します。
データとコンピューティングの予算が限られている場合、私たちのモデルが最先端のstylegan2よりも優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2021-01-12T22:02:54Z) - Learning Efficient GANs for Image Translation via Differentiable Masks
and co-Attention Distillation [130.30465659190773]
Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。
DMADと呼ばれる新しいGAN圧縮手法を提案する。
実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
論文 参考訳(メタデータ) (2020-11-17T02:39:19Z) - Swapping Autoencoder for Deep Image Manipulation [94.33114146172606]
画像操作に特化して設計されたディープモデルであるSwapping Autoencoderを提案する。
キーとなるアイデアは、2つの独立したコンポーネントで画像をエンコードし、交換された組み合わせをリアルなイメージにマップするように強制することだ。
複数のデータセットの実験により、我々のモデルはより良い結果が得られ、最近の生成モデルと比較してかなり効率が良いことが示されている。
論文 参考訳(メタデータ) (2020-07-01T17:59:57Z) - Training End-to-end Single Image Generators without GANs [27.393821783237186]
AugurOneは、単一画像生成モデルをトレーニングするための新しいアプローチである。
提案手法は,入力画像の非アフィン強化を用いて,アップスケーリングニューラルネットワークを訓練する。
制御画像合成が可能なコンパクト潜在空間を共同で学習する。
論文 参考訳(メタデータ) (2020-04-07T17:58:03Z) - GAN Compression: Efficient Architectures for Interactive Conditional
GANs [45.012173624111185]
最近のコンディショナル・ジェネレーティブ・アドバイサル・ネットワーク(cGAN)は、現代の認識CNNよりも1~2桁の計算集約性がある。
本稿では,cGANにおけるジェネレータの推論時間とモデルサイズを低減するための汎用圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-19T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。