論文の概要: IGAN: A New Inception-based Model for Stable and High-Fidelity Image Synthesis Using Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2601.08332v1
- Date: Tue, 13 Jan 2026 08:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.120938
- Title: IGAN: A New Inception-based Model for Stable and High-Fidelity Image Synthesis Using Generative Adversarial Networks
- Title(参考訳): IGAN: 生成逆数ネットワークを用いた安定・高忠実画像合成のための新しいインセプションベースモデル
- Authors: Ahmed A. Hashim, Ali Al-Shuwaili, Asraa Saeed, Ali Al-Bayaty,
- Abstract要約: GAN(Generative Adversarial Networks)は、高品質な画像生成とトレーニング安定性の最適なバランスを達成しようとする課題に直面している。
DCGAN、BigGAN、StyleGANといった最近の技術は視力を向上させるが、通常、モード崩壊やネットワーク深度が不安定な勾配に悩まされる。
本稿では,より深いインセプションにインスパイアされた畳み込みと拡張畳み込みを組み込んだ新しいGAN構造モデルを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative Adversarial Networks (GANs) face a significant challenge of striking an optimal balance between high-quality image generation and training stability. Recent techniques, such as DCGAN, BigGAN, and StyleGAN, improve visual fidelity; however, such techniques usually struggle with mode collapse and unstable gradients at high network depth. This paper proposes a novel GAN structural model that incorporates deeper inception-inspired convolution and dilated convolution. This novel model is termed the Inception Generative Adversarial Network (IGAN). The IGAN model generates high-quality synthetic images while maintaining training stability, by reducing mode collapse as well as preventing vanishing and exploding gradients. Our proposed IGAN model achieves the Frechet Inception Distance (FID) of 13.12 and 15.08 on the CUB-200 and ImageNet datasets, respectively, representing a 28-33% improvement in FID over the state-of-the-art GANs. Additionally, the IGAN model attains an Inception Score (IS) of 9.27 and 68.25, reflecting improved image diversity and generation quality. Finally, the two techniques of dropout and spectral normalization are utilized in both the generator and discriminator structures to further mitigate gradient explosion and overfitting. These findings confirm that the IGAN model potentially balances training stability with image generation quality, constituting a scalable and computationally efficient framework for high-fidelity image synthesis.
- Abstract(参考訳): GAN(Generative Adversarial Networks)は、高品質な画像生成とトレーニング安定性の最適なバランスを打つという大きな課題に直面している。
DCGAN、BigGAN、StyleGANといった最近の技術は視力を向上させるが、通常、モード崩壊や不安定な勾配と高いネットワーク深さで苦労する。
本稿では,より深いインセプションにインスパイアされた畳み込みと拡張畳み込みを組み込んだ新しいGAN構造モデルを提案する。
この新モデルは Inception Generative Adversarial Network (IGAN) と呼ばれる。
IGANモデルは、モード崩壊を低減し、消滅や爆発の勾配を防止し、トレーニング安定性を維持しながら高品質な合成画像を生成する。
提案したIGANモデルは,CUB-200データセットとImageNetデータセットの13.12と15.08のFrechet Inception Distance(FID)をそれぞれ達成し,最先端のGANよりも28~33%改善した。
さらにIGANモデルは、画像の多様性と生成品質の向上を反映して、9.27と68.25のインセプションスコア(IS)を達成している。
最後に, ジェネレータと判別器の両構造において, 落差とスペクトル正規化の2つの手法を用いて, 勾配の爆発と過度な収差を緩和する。
これらの結果は、IGANモデルがトレーニング安定性と画像生成品質のバランスを保ち、高忠実度画像合成のためのスケーラブルで計算効率の良いフレームワークを構成することを裏付けている。
関連論文リスト
- Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [52.261584726401686]
凍結した視覚基盤モデルの上に画像トークン化器を直接構築するための新しい方向を示す。
これらの設計に基づき,提案する画像トークン装置であるVFMTokは,画像再構成と生成品質の大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Neural Residual Diffusion Models for Deep Scalable Vision Generation [17.931568104324985]
我々は,統一的かつ大規模に拡張可能なニューラルネットワーク残差拡散モデルフレームワーク(Neural-RDM)を提案する。
提案したニューラル残差モデルは、画像およびビデオ生成ベンチマークの最先端スコアを取得する。
論文 参考訳(メタデータ) (2024-06-19T04:57:18Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - A Simple and Effective Baseline for Attentional Generative Adversarial
Networks [8.63558211869045]
テキスト記述を通して生成モデルを導くことで高品質な画像のテキスト・ツー・イメージモデルを構築することは革新的で挑戦的な課題である。
近年、GANトレーニングをガイドするAttnGAN、SD-GAN、Stack-GAN++が提案されている。
我々は,AttnGANの冗長構造を除去し,バックボーンネットワークを改善するために,一般的なシンプルで効果的なアイデア(1)を用いる。
モデルの性能が変化しないことを保証しながら、モデルのサイズとトレーニング効率を大幅に改善しました。
論文 参考訳(メタデータ) (2023-06-26T13:55:57Z) - StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。
実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文 参考訳(メタデータ) (2023-03-01T18:59:33Z) - High-Fidelity Synthesis with Disentangled Representation [60.19657080953252]
本稿では,不整合学習と高忠実度合成のためのID-GAN(Information-Distillation Generative Adrial Network)を提案する。
提案手法は, VAEモデルを用いて非交叉表現を学習し, 高忠実度合成のためのGAN生成器に追加のニュアンス変数で学習表現を蒸留する。
単純さにもかかわらず,提案手法は高効率であり,不整合表現を用いた最先端の手法に匹敵する画像生成品質を実現する。
論文 参考訳(メタデータ) (2020-01-13T14:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。