論文の概要: FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits
- arxiv url: http://arxiv.org/abs/2304.10306v1
- Date: Thu, 20 Apr 2023 13:40:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:14:06.942817
- Title: FIANCEE: Faster Inference of Adversarial Networks via Conditional Early
Exits
- Title(参考訳): FIANCEE: 条件付き初期出力による敵ネットワークの高速推論
- Authors: Polina Karpikova (1 and 2), Radionova Ekaterina (1), Anastasia
Yaschenko (1 and 2), Andrei Spiridonov (1), Leonid Kostyushko (3), Riccardo
Fabbricatore (1), Aleksei Ivakhnenko (1) ((1) Samsung AI Center, (2) Higher
School of Economics, (3) Lomonosov Moscow State University)
- Abstract要約: 本稿では,従来のアーキテクチャにいわゆる早期出口分岐を付加することにより,計算量を削減する手法を提案する。
生成タスクを行う2つの異なるSOTAモデルに本手法を適用した。
これは、品質損失を含む必要がある場合、顔の合成のようなリアルタイムアプリケーションに特に関係している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generative DNNs are a powerful tool for image synthesis, but they are limited
by their computational load. On the other hand, given a trained model and a
task, e.g. faces generation within a range of characteristics, the output image
quality will be unevenly distributed among images with different
characteristics. It follows, that we might restrain the models complexity on
some instances, maintaining a high quality. We propose a method for diminishing
computations by adding so-called early exit branches to the original
architecture, and dynamically switching the computational path depending on how
difficult it will be to render the output. We apply our method on two different
SOTA models performing generative tasks: generation from a semantic map, and
cross-reenactment of face expressions; showing it is able to output images with
custom lower-quality thresholds. For a threshold of LPIPS <=0.1, we diminish
their computations by up to a half. This is especially relevant for real-time
applications such as synthesis of faces, when quality loss needs to be
contained, but most of the inputs need fewer computations than the complex
instances.
- Abstract(参考訳): 生成DNNは画像合成の強力なツールであるが、計算負荷によって制限されている。
一方、訓練されたモデルと、例えば特徴の範囲内で生成するタスクが与えられた場合、出力画像の品質は、異なる特徴を持つ画像間で均一に分配される。
従って、いくつかのケースではモデルの複雑さを抑え、高品質を維持します。
そこで本研究では, 初期出口分岐を元のアーキテクチャに追加し, 出力のレンダリングがいかに難しいかに応じて動的に計算経路を切り替えることで, 計算量を削減する手法を提案する。
提案手法を2種類のSOTAモデルに適用し, セマンティックマップから生成し, 顔表現の相互再現を行い, 独自の低品質しきい値で画像を出力可能であることを示す。
LPIPS <=0.1のしきい値の場合、計算結果を最大半分まで減少させる。
これは、顔の合成や品質損失を含む必要があるリアルタイムアプリケーションに特に関係しているが、ほとんどの入力は複雑なインスタンスよりも少ない計算を必要とする。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Multi-Feature Aggregation in Diffusion Models for Enhanced Face Super-Resolution [6.055006354743854]
超解像を生成するために,複数の低画質画像から抽出した特徴と組み合わせた低解像度画像を利用するアルゴリズムを開発した。
他のアルゴリズムとは異なり、我々のアプローチは属性情報を明示的に提供せずに顔の特徴を復元する。
これは、高解像度画像と低解像度画像を組み合わせて、より信頼性の高い超高解像度画像を生成するコンディショナーとして初めて使用される。
論文 参考訳(メタデータ) (2024-08-27T20:08:33Z) - Serpent: Scalable and Efficient Image Restoration via Multi-scale Structured State Space Models [22.702352459581434]
サーペントは高解像度画像復元のための効率的なアーキテクチャである。
本稿では,Serpentが最先端技術に匹敵する再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-03-26T17:43:15Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - WavePaint: Resource-efficient Token-mixer for Self-supervised Inpainting [2.3014300466616078]
本稿では、計算効率の良いWaveMixベースの完全畳み込みアーキテクチャであるWavePaintを用いて、視覚変換器から分岐する。
2次元離散ウェーブレット変換(DWT)を用いて、畳み込み層とともに、空間的および多重解像度のトークン混合を行う。
我々のモデルは、CelebA-HQデータセットの現在のGANアーキテクチャよりも優れている。
論文 参考訳(メタデータ) (2023-07-01T18:41:34Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Effective Invertible Arbitrary Image Rescaling [77.46732646918936]
Invertible Neural Networks (INN)は、ダウンスケーリングとアップスケーリングのサイクルを共同で最適化することにより、アップスケーリングの精度を大幅に向上させることができる。
本研究の1つのモデルのみをトレーニングすることにより、任意の画像再スケーリングを実現するために、単純で効果的な非可逆的再スケーリングネットワーク(IARN)を提案する。
LR出力の知覚品質を損なうことなく、双方向任意再スケーリングにおいて最先端(SOTA)性能を実現する。
論文 参考訳(メタデータ) (2022-09-26T22:22:30Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。