論文の概要: EqGAN: Feature Equalization Fusion for Few-shot Image Generation
- arxiv url: http://arxiv.org/abs/2307.14638v1
- Date: Thu, 27 Jul 2023 06:13:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-28 15:40:21.552231
- Title: EqGAN: Feature Equalization Fusion for Few-shot Image Generation
- Title(参考訳): EqGAN:Few-shot画像生成のための特徴等化融合
- Authors: Yingbo Zhou, Zhihao Yue, Yutong Ye, Pengyu Zhang, Xian Wei, Mingsong
Chen
- Abstract要約: 本稿では,画像生成のためのEqGAN(Equalization fusion Geneversarative Adversarial Network)を提案する。
符号化された特徴を浅層・深層コンテンツに切り離して、構造とテクスチャを融合する2つの別々の枝を設計する。
3つの公開データセットに関する総合的な実験によると、EqGANはFIDスコア(最大32.7%)とLPIPSスコア(最大4.19%)で生成性能を著しく向上するだけでなく、下流分類タスクの精度(最大1.97%)で最先端のパフォーマンスも向上している。
- 参考スコア(独自算出の注目度): 20.25240478525934
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the absence of fine structure and texture information, existing
fusion-based few-shot image generation methods suffer from unsatisfactory
generation quality and diversity. To address this problem, we propose a novel
feature Equalization fusion Generative Adversarial Network (EqGAN) for few-shot
image generation. Unlike existing fusion strategies that rely on either deep
features or local representations, we design two separate branches to fuse
structures and textures by disentangling encoded features into shallow and deep
contents. To refine image contents at all feature levels, we equalize the fused
structure and texture semantics at different scales and supplement the decoder
with richer information by skip connections. Since the fused structures and
textures may be inconsistent with each other, we devise a consistent
equalization loss between the equalized features and the intermediate output of
the decoder to further align the semantics. Comprehensive experiments on three
public datasets demonstrate that, EqGAN not only significantly improves
generation performance with FID score (by up to 32.7%) and LPIPS score (by up
to 4.19%), but also outperforms the state-of-the-arts in terms of accuracy (by
up to 1.97%) for downstream classification tasks.
- Abstract(参考訳): 微細な構造やテクスチャ情報がないため、既存の核融合による少数ショット画像生成法は不満足な生成品質と多様性に悩まされる。
この問題に対処するために,数ショット画像生成のためのEqGAN(Equalization fusion Generative Adversarial Network)を提案する。
深い特徴や局所的な表現に依存する既存の融合戦略とは異なり、エンコードされた特徴を浅い内容と深い内容に分離することで、構造とテクスチャを融合する2つの別々の枝を設計する。
全ての特徴レベルで画像内容の洗練を図るため、異なるスケールで融合構造とテクスチャのセマンティクスを等化し、接続をスキップすることでデコーダをよりリッチな情報で補う。
融合構造とテクスチャは互いに矛盾する可能性があるため、等化特徴とデコーダの中間出力との間に一貫した等化損失を導出し、セマンティクスをさらに整合させる。
3つの公開データセットに関する総合的な実験によると、EqGANはFIDスコア(最大32.7%)とLPIPSスコア(最大4.19%)で生成性能を著しく向上するだけでなく、下流分類タスクの精度(最大1.97%)で最先端のパフォーマンスも向上している。
関連論文リスト
- Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - DAFT-GAN: Dual Affine Transformation Generative Adversarial Network for Text-Guided Image Inpainting [2.656795553429629]
そこで本研究では,2つのアフィン変換生成逆数ネットワーク(DAFT-GAN)を提案する。
提案手法は, 定性評価と定量的評価の両方において, 既存のGANモデルよりも優れている。
論文 参考訳(メタデータ) (2024-08-09T09:28:42Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - PAIF: Perception-Aware Infrared-Visible Image Fusion for Attack-Tolerant
Semantic Segmentation [50.556961575275345]
対向シーンにおけるセグメンテーションの堅牢性を促進するための認識認識型融合フレームワークを提案する。
我々は,先進の競争相手に比べて15.3% mIOUの利得で,ロバスト性を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-08-08T01:55:44Z) - Searching a Compact Architecture for Robust Multi-Exposure Image Fusion [55.37210629454589]
2つの大きなスタブリングブロックは、画素の不一致や非効率な推論など、開発を妨げる。
本研究では,高機能なマルチ露光画像融合のための自己アライメントとディテールリプレクションモジュールを取り入れたアーキテクチャ検索に基づくパラダイムを提案する。
提案手法は様々な競争方式より優れており、一般的なシナリオではPSNRが3.19%向上し、不整合シナリオでは23.5%向上した。
論文 参考訳(メタデータ) (2023-05-20T17:01:52Z) - Image Inpainting via Conditional Texture and Structure Dual Generation [26.97159780261334]
本稿では, 構造制約によるテクスチャ合成とテクスチャ誘導による構造再構築をモデル化した, 画像インペイントのための新しい2ストリームネットワークを提案する。
グローバルな一貫性を高めるため、双方向Gated Feature Fusion (Bi-GFF)モジュールは構造情報とテクスチャ情報を交換・結合するように設計されている。
CelebA、Paris StreetView、Places2データセットの実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2021-08-22T15:44:37Z) - End-to-End Learning for Simultaneously Generating Decision Map and
Multi-Focus Image Fusion Result [7.564462759345851]
多焦点画像融合の目的は、異なる画像の集中領域を集め、ユニークな全焦点融合画像を生成することである。
既存のディープラーニング構造のほとんどは、融合品質とエンドツーエンドの実装の利便性のバランスが取れなかった。
本稿では,決定マップと融合した結果をエンドツーエンドのトレーニング手順で同時に生成するカスケードネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-17T09:09:51Z) - DF-GAN: A Simple and Effective Baseline for Text-to-Image Synthesis [80.54273334640285]
本稿では,異なる生成装置間の絡み合わずに高解像度画像を直接合成する,新しい1段階のテキスト・ツー・イメージバックボーンを提案する。
また,Matching-Aware Gradient Penalty と One-Way Output を組み合わせた新たなターゲット認識識別器を提案する。
現在の最先端手法と比較して,提案するDF-GANはよりシンプルだが,現実的およびテキストマッチング画像の合成には効率的である。
論文 参考訳(メタデータ) (2020-08-13T12:51:17Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。