論文の概要: Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis
- arxiv url: http://arxiv.org/abs/2309.03904v1
- Date: Thu, 7 Sep 2023 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 11:50:07.472945
- Title: Exploring Sparse MoE in GANs for Text-conditioned Image Synthesis
- Title(参考訳): テキスト条件画像合成のためのGANにおけるスパースMoEの探索
- Authors: Jiapeng Zhu, Ceyuan Yang, Kecheng Zheng, Yinghao Xu, Zifan Shi, Yujun
Shen
- Abstract要約: 本稿では,GANベースのテキスト・ツー・イメージ・ジェネレータであるAuroraについて紹介する。
64x64の解像度で, LAION2BenおよびCOYO700M 6.2ゼロショットFIDをMS COCO上でトレーニングした。
- 参考スコア(独自算出の注目度): 74.41024864104303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the difficulty in scaling up, generative adversarial networks (GANs)
seem to be falling from grace on the task of text-conditioned image synthesis.
Sparsely-activated mixture-of-experts (MoE) has recently been demonstrated as a
valid solution to training large-scale models with limited computational
resources. Inspired by such a philosophy, we present Aurora, a GAN-based
text-to-image generator that employs a collection of experts to learn feature
processing, together with a sparse router to help select the most suitable
expert for each feature point. To faithfully decode the sampling stochasticity
and the text condition to the final synthesis, our router adaptively makes its
decision by taking into account the text-integrated global latent code. At
64x64 image resolution, our model trained on LAION2B-en and COYO-700M achieves
6.2 zero-shot FID on MS COCO. We release the code and checkpoints to facilitate
the community for further development.
- Abstract(参考訳): スケールアップの難しさから,GAN(Generative Adversarial Network)はテキスト条件による画像合成のタスクにおいて優雅さから外れているようである。
Sparsely-activated mixed-of-experts (MoE) は、計算資源が限られている大規模モデルのトレーニングに有効なソリューションとして最近実証されている。
このような哲学にインスパイアされたauroraは、ganベースのテキストから画像へのジェネレータで、機能処理を学ぶための専門家の集まりと、各機能ポイントに最も適した専門家を選択するためのスパースルータを備えています。
サンプリング確率性とテキスト条件を最終合成に忠実に復号するために,本ルータは,テキスト統合グローバル潜在コードを考慮し,適応的に決定を行う。
64x64画像解像度では, LAION2B-enとCOYO-700Mでトレーニングしたモデルで, MS COCOで0ショットFIDを6.2達成した。
コミュニティのさらなる開発を促進するために、コードとチェックポイントをリリースします。
関連論文リスト
- A TextGCN-Based Decoding Approach for Improving Remote Sensing Image Captioning [0.15346678870160887]
テキストグラフ畳み込みネットワーク(TextGCN)と多層LSTMをデプロイする新しいエンコーダデコーダ構成を提案する。
TextGCNによって生成された埋め込みは、文レベルとコーパスレベルの両方で単語間の意味的関係をキャプチャすることでデコーダの理解を高める。
我々は,他の最先端のエンコーダ・デコーダフレームワークに対して,我々のアプローチを広範囲に評価する。
論文 参考訳(メタデータ) (2024-09-27T06:12:31Z) - ImagiNet: A Multi-Content Dataset for Generalizable Synthetic Image Detection via Contrastive Learning [0.0]
生成モデルは、実際の写真やアートワークとほとんど区別がつかない、信頼性の高い画像を生成する。
合成画像の識別が困難であるため、オンラインメディアプラットフォームは偽造や誤情報に脆弱である。
合成画像検出のための高分解能かつバランスの取れたデータセットであるImagiNetを紹介する。
論文 参考訳(メタデータ) (2024-07-29T13:57:24Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - Fine-grained Cross-modal Fusion based Refinement for Text-to-Image
Synthesis [12.954663420736782]
本稿では,FF-GAN と呼ばれるファイングラファスなテキストイメージベースのジェネレーティブ・アドバーサリアル・ネットワークを提案する。
FF-GANは、微細なテキストイメージ融合ブロック(FF-Block)とGSR(Global Semantic Refinement)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2023-02-17T05:44:05Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Cycle-Consistent Inverse GAN for Text-to-Image Synthesis [101.97397967958722]
本稿では,テキスト・ツー・イメージ・ジェネレーションとテキスト・ガイドによる画像操作を行うために,Cycle-Consistent Inverse GANの統一フレームワークを提案する。
我々は、GANの反転モデルを学び、画像をGANの潜在空間に変換し、各画像の反転潜在符号を得る。
テキスト誘導最適化モジュールでは、反転潜在符号を最適化することにより、所望のセマンティック属性を持つ画像を生成する。
論文 参考訳(メタデータ) (2021-08-03T08:38:16Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Aggregated Contextual Transformations for High-Resolution Image
Inpainting [57.241749273816374]
画像の高精細化のための拡張GANモデルAggregated Contextual-Transformation GAN (AOT-GAN)を提案する。
そこで,提案するAOTブロックの複数のレイヤを積み重ねることで,AOT-GANのジェネレータを構築する。
テクスチャ合成を改善するため,AOT-GANの識別をマスク予測タスクでトレーニングすることで強化する。
論文 参考訳(メタデータ) (2021-04-03T15:50:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。