論文の概要: IF-GAN: A Novel Generator Architecture with Information Feedback
- arxiv url: http://arxiv.org/abs/2210.09638v1
- Date: Tue, 18 Oct 2022 07:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:29:39.473742
- Title: IF-GAN: A Novel Generator Architecture with Information Feedback
- Title(参考訳): IF-GAN - 情報フィードバックによる新しいジェネレータアーキテクチャ
- Authors: Seung Park, Yong-Goo Shin
- Abstract要約: 提案手法は特徴空間だけでなく,情報交換により潜在空間を訓練する。
LSUNとFFHQのサブセットを含む各種データセットについて広範な実験を行った。
- 参考スコア(独自算出の注目度): 7.096833851608632
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents an alternative generator architecture for image
generation, having a novel information feedback system. Contrary to
conventional methods in which the latent space unilaterally affects the feature
space in the generator, the proposed method trains not only the feature space
but also the latent one by interchanging their information. To this end, we
introduce a novel module, called information feedback (IF) block, which jointly
updates the latent and feature spaces. To show the superiority of the proposed
method, we present extensive experiments on various datasets including subsets
of LSUN and FFHQ. Experimental results reveal that the proposed method can
dramatically improve the image generation performance, in terms of Frechet
inception distance (FID), kernel inception distance (KID), and Precision and
Recall (P & R).
- Abstract(参考訳): 本稿では,新しい情報フィードバックシステムを有する画像生成のための代替生成システムを提案する。
提案手法は, 潜伏空間がジェネレータ内の特徴空間に一方的に影響を及ぼす従来の手法とは対照的に, 情報交換による特徴空間だけでなく, 潜伏空間も訓練する。
この目的のために,情報フィードバックブロック (IF) と呼ばれる新しいモジュールを導入し,潜在空間と特徴空間を共同で更新する。
提案手法の優位性を示すため,LSUNとFFHQのサブセットを含む様々なデータセットについて広範な実験を行った。
実験の結果,提案手法はFrechet Inception distance (FID), kernel Inception distance (KID), Precision and Recall (P&R)を用いて画像生成性能を劇的に向上させることができることがわかった。
関連論文リスト
- Enhanced Multi-Scale Cross-Attention for Person Image Generation [140.90068397518655]
課題のある人物画像生成タスクに対して,新たにGAN(cross-attention-based generative adversarial network)を提案する。
クロスアテンション(Cross-attention)は、異なるモードの2つの特徴写像間で注意/相関行列を計算する、新しく直感的なマルチモーダル融合法である。
異なる段階における外観・形状特徴を効果的に融合させるために, 密結合型コアテンションモジュールを新たに導入する。
論文 参考訳(メタデータ) (2025-01-15T16:08:25Z) - Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - Improving Few-shot Image Generation by Structural Discrimination and
Textural Modulation [10.389698647141296]
画像生成の目的は、このカテゴリからいくつかの画像が与えられた場合、あるカテゴリに対して可塑性で多様な画像を生成することである。
既存のアプローチでは、異なる画像をグローバルに補間するか、事前に定義された係数で局所表現を融合する。
本稿では,内部局所表現に外部意味信号を注入する新しいメカニズムを提案する。
論文 参考訳(メタデータ) (2023-08-30T16:10:21Z) - ICAFusion: Iterative Cross-Attention Guided Feature Fusion for
Multispectral Object Detection [25.66305300362193]
大域的特徴相互作用をモデル化するために、二重対向変換器の新たな特徴融合フレームワークを提案する。
このフレームワークは、クエリ誘導のクロスアテンション機構を通じて、オブジェクトの特徴の識別性を高める。
提案手法は,様々なシナリオに適した性能と高速な推論を実現する。
論文 参考訳(メタデータ) (2023-08-15T00:02:10Z) - Exploring Incompatible Knowledge Transfer in Few-shot Image Generation [107.81232567861117]
少ないショット画像生成は、いくつかの参照サンプルを使用して、ターゲットドメインから多彩で高忠実な画像を生成することを学習する。
既存のF SIGメソッドは、ソースジェネレータから事前の知識を選択し、保存し、転送し、ターゲットジェネレータを学習する。
本稿では,知識保存を補完する操作であり,軽量プルーニング方式で実装した知識トランケーションを提案する。
論文 参考訳(メタデータ) (2023-04-15T14:57:15Z) - DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention [50.11672196146829]
サラウンドビュー画像を用いた3次元物体検出は、自動運転にとって必須の課題である。
マルチビュー画像における3次元オブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するトランスフォーマーベースのフレームワークであるDETR4Dを提案する。
論文 参考訳(メタデータ) (2022-12-15T14:18:47Z) - A Novel Generator with Auxiliary Branch for Improving GAN Performance [7.005458308454871]
本稿では、2つの異なるブランチから得られた特徴を組み合わせることで、画像を生成する新しいジェネレータアーキテクチャを紹介する。
メインブランチの目標は、複数の残留ブロックを通り抜けて画像を生成することであり、補助ブランチは、前のレイヤの粗い情報を後層に伝達することである。
提案手法の優位性を証明するため, 各種標準データセットを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2021-12-30T08:38:49Z) - Trear: Transformer-based RGB-D Egocentric Action Recognition [38.20137500372927]
本稿では,textbfTransformer-based RGB-D textbgocentric textbfaction textbfrecognition framework, Trearを提案する。
フレーム間アテンションエンコーダと相互アテンショナルフュージョンブロックの2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2021-01-05T19:59:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。