Fugu-MT 論文翻訳(概要): Learning Efficient GANs for Image Translation via Differentiable Masks and co-Attention Distillation

論文の概要: Learning Efficient GANs for Image Translation via Differentiable Masks and co-Attention Distillation

arxiv url: http://arxiv.org/abs/2011.08382v4
Date: Wed, 2 Mar 2022 09:17:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-09-24 16:49:12.364670
Title: Learning Efficient GANs for Image Translation via Differentiable Masks and co-Attention Distillation
Title（参考訳）: 微分マスクと共沸蒸留による画像翻訳のための効率よいGANの学習
Authors: Shaojie Li, Mingbao Lin, Yan Wang, Fei Chao, Ling Shao, Rongrong Ji
Abstract要約: Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。 DMADと呼ばれる新しいGAN圧縮手法を提案する。実験の結果、DMADはCycleGANのMultiply Accumulate Operations (MAC)を13倍、Pix2Pixを4倍削減し、フルモデルに匹敵する性能を維持することができた。
参考スコア（独自算出の注目度）: 130.30465659190773
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Generative Adversarial Networks (GANs) have been widely-used in image translation, but their high computation and storage costs impede the deployment on mobile devices. Prevalent methods for CNN compression cannot be directly applied to GANs due to the peculiarties of GAN tasks and the unstable adversarial training. To solve these, in this paper, we introduce a novel GAN compression method, termed DMAD, by proposing a Differentiable Mask and a co-Attention Distillation. The former searches for a light-weight generator architecture in a training-adaptive manner. To overcome channel inconsistency when pruning the residual connections, an adaptive cross-block group sparsity is further incorporated. The latter simultaneously distills informative attention maps from both the generator and discriminator of a pre-trained model to the searched generator, effectively stabilizing the adversarial training of our light-weight model. Experiments show that DMAD can reduce the Multiply Accumulate Operations (MACs) of CycleGAN by 13x and that of Pix2Pix by 4x while retaining a comparable performance against the full model. Our code can be available at https://github.com/SJLeo/DMAD.
Abstract（参考訳）: Generative Adversarial Networks (GAN) は画像翻訳において広く利用されているが、その高い計算とストレージコストがモバイルデバイスへの展開を妨げる。 CNN圧縮の一般的な方法は、GANタスクの特異性や不安定な敵の訓練のため、GANに直接適用することはできない。そこで本稿では, 微分マスクと共沸蒸留法を提案することで, DMADと呼ばれる新しいGAN圧縮手法を提案する。前者は、トレーニング対応の方法で軽量発電機アーキテクチャを検索する。残差接続を切断する際のチャネル不整合を克服するため、適応的なクロスブロック群間隔をさらに組み込む。後者は, 事前学習したモデルと判別器の双方からの注意マップを同時に蒸留し, 重み付けモデルの対向訓練を効果的に安定化させる。実験により、DMADはCycleGANのMultiply Accumulate Operations (MACs)を13倍、Pix2Pixを4倍削減し、フルモデルに対して同等のパフォーマンスを維持することができることが示された。私たちのコードはhttps://github.com/SJLeo/DMAD.comで利用可能です。

関連論文リスト

Few-Step Diffusion via Score identity Distillation [67.07985339442703]
拡散蒸留は, テキスト・ツー・イメージ(T2I)拡散モデルを促進するための有望な戦略として浮上している。既存の方法は、高分解能T2I拡散モデルを蒸留する際に、実像や教師合成画像に頼っている。教師のCFGを無効にし、偽スコアネットワークでテキストコンディショニングを除去するZero-CFGと、偽スコアネットワークで否定的なCFGを適用するAnti-CFGの2つの新しいガイダンス戦略を提案する。
論文参考訳（メタデータ） (2025-05-19T03:45:16Z)
Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。 CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文参考訳（メタデータ） (2025-03-05T17:59:19Z)
ACDiT: Interpolating Autoregressive Conditional Modeling and Diffusion Transformer [95.80384464922147]
ACDiTはブロックワイド条件拡散変換器である。トークン単位の自己回帰とフルシーケンス拡散のフレキシブルな関係を提供する。本稿では,映像生成タスクにおける自己回帰ベースラインの中で,ACDiTが最良であることを示す。
論文参考訳（メタデータ） (2024-12-10T18:13:20Z)
Unified Auto-Encoding with Masked Diffusion [15.264296748357157]
我々はUMD(Unified Masked Diffusion)と呼ばれる,統合された自己監督的目標を提案する。 UMDは、パッチベースとノイズベースの破損テクニックを1つの自動エンコーディングフレームワークに組み合わせている。下流の生成および表現学習タスクにおいて、高いパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-06-25T16:24:34Z)
Improved Distribution Matching Distillation for Fast Image Synthesis [54.72356560597428]
この制限を解除し、MDDトレーニングを改善する一連の技術であるMDD2を紹介する。まず、回帰損失と高価なデータセット構築の必要性を排除します。第2に, GAN損失を蒸留工程に統合し, 生成した試料と実画像との識別を行う。
論文参考訳（メタデータ） (2024-05-23T17:59:49Z)
Distilling Diffusion Models into Conditional GANs [90.76040478677609]
複雑な多段階拡散モデルを1段階条件付きGAN学生モデルに蒸留する。 E-LatentLPIPSは,拡散モデルの潜在空間で直接動作する知覚的損失である。我々は, 最先端の1ステップ拡散蒸留モデルよりも優れた1ステップ発生器を実証した。
論文参考訳（メタデータ） (2024-05-09T17:59:40Z)
SD-DiT: Unleashing the Power of Self-supervised Discrimination in Diffusion Transformer [102.39050180060913]
拡散変換器(DiT)は画像生成における生成拡散モデルの新たなトレンドとして登場した。最近のブレークスルーは、画像内文脈学習を追加することで、DiTのトレーニング効率を大幅に改善するマスク戦略によって推進されている。本研究は,DiTトレーニングを促進するための自己監督的識別知識を新たに開放することで,これらの制約に対処する。
論文参考訳（メタデータ） (2024-03-25T17:59:35Z)
Generalized Consistency Trajectory Models for Image Manipulation [59.576781858809355]
拡散モデル(DM)は、画像編集や復元などの応用と同様に、無条件生成において優れている。本研究の目的は、一般化されたCTM(GCTM)を提案することによって、整合性軌道モデル(CTM)の完全なポテンシャルを解放することである。本稿では,GCTMの設計空間について論じ,画像から画像への変換,復元,編集など,様々な画像操作タスクにおいて有効性を示す。
論文参考訳（メタデータ） (2024-03-19T07:24:54Z)
DuDGAN: Improving Class-Conditional GANs via Dual-Diffusion [2.458437232470188]
GAN(Generative Adversarial Network)を用いたクラス条件画像生成について,様々な手法を用いて検討した。本稿では,DuDGANと呼ばれる2次元拡散型ノイズ注入法を取り入れたGANを用いたクラス条件画像生成手法を提案する。提案手法は,画像生成のための現状条件付きGANモデルよりも性能的に優れている。
論文参考訳（メタデータ） (2023-05-24T07:59:44Z)
MSGDD-cGAN: Multi-Scale Gradients Dual Discriminator Conditional Generative Adversarial Network [14.08122854653421]
MSGDD-cGANは、条件付き生成逆数ネットワーク(cGAN)の性能を安定化するために提案される。本モデルでは,CGANのピクセルバージョンと比較してF1スコアが3.18%増加した。
論文参考訳（メタデータ） (2021-09-12T21:08:37Z)
Unsupervised Controllable Generation with Self-Training [90.04287577605723]
GANによる制御可能な世代は依然として困難な研究課題である。本稿では,自己学習を通じてジェネレータを制御する潜伏符号の分布を学習するための教師なしフレームワークを提案する。我々のフレームワークは、変分オートエンコーダのような他の変種と比較して、より良い絡み合いを示す。
論文参考訳（メタデータ） (2020-07-17T21:50:35Z)
GAN Compression: Efficient Architectures for Interactive Conditional GANs [45.012173624111185]
最近のコンディショナル・ジェネレーティブ・アドバイサル・ネットワーク(cGAN)は、現代の認識CNNよりも1～2桁の計算集約性がある。本稿では,cGANにおけるジェネレータの推論時間とモデルサイズを低減するための汎用圧縮フレームワークを提案する。
論文参考訳（メタデータ） (2020-03-19T17:59:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。