論文の概要: Enhancing variational generation through self-decomposition
- arxiv url: http://arxiv.org/abs/2202.02738v1
- Date: Sun, 6 Feb 2022 08:49:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 17:27:49.110847
- Title: Enhancing variational generation through self-decomposition
- Title(参考訳): 自己分解による変動生成の促進
- Authors: Andrea Asperti, Laura Bugo, Daniele Filippini
- Abstract要約: SVAE(Split Variational Autoencoder)の概念を紹介する。
ネットワークは通常の変分オートエンコーダとして訓練されており、トレーニングと再構成画像の間に負の対数損失がある。
FID測定値によると、Mnist、Cifar10、Celebaといった典型的なデータセットでテストした手法により、従来の純粋に変動するアーキテクチャを全て上回ることができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this article we introduce the notion of Split Variational Autoencoder
(SVAE), whose output $\hat{x}$ is obtained as a weighted sum $\sigma \odot
\hat{x_1} + (1-\sigma) \odot \hat{x_2}$ of two generated images
$\hat{x_1},\hat{x_2}$, and $\sigma$ is a learned compositional map. The network
is trained as a usual Variational Autoencoder with a negative loglikelihood
loss between training and reconstructed images. The decomposition is
nondeterministic, but follows two main schemes, that we may roughly categorize
as either "syntactic" or "semantic". In the first case, the map tends to
exploit the strong correlation between adjacent pixels, splitting the image in
two complementary high frequency sub-images. In the second case, the map
typically focuses on the contours of objects, splitting the image in
interesting variations of its content, with more marked and distinctive
features. In this case, the Fr\'echet Inception Distance (FID) of $\hat{x_1}$
and $\hat{x_2}$ is usually lower (hence better) than that of $\hat{x}$, that
clearly suffers from being the average of the formers. In a sense, a SVAE
forces the Variational Autoencoder to {\em make choices}, in contrast with its
intrinsic tendency to average between alternatives with the aim to minimize the
reconstruction loss towards a specific sample. According to the FID metric, our
technique, tested on typical datasets such as Mnist, Cifar10 and Celeba, allows
us to outperform all previous purely variational architectures (not relying on
normalization flows).
- Abstract(参考訳): 本稿では,分割変分オートエンコーダ(SVAE)の概念を紹介し,その出力$\hat{x}$は重み付き和$\sigma \odot \hat{x_1} + (1-\sigma) \odot \hat{x_2}$の2つの生成画像$\hat{x_1},\hat{x_2}$の和として得られ,$\sigma$は学習された合成写像である。
ネットワークは通常の変分オートエンコーダとして訓練されており、トレーニングと再構成画像の間に負の対数損失がある。
分解は非決定論的であるが、2つの主要なスキームに従っており、大まかには「シンタクティック」または「セマンティック」に分類される。
第1のケースでは、マップは隣接するピクセル間の強い相関を利用して、2つの相補的な高周波サブイメージにイメージを分割する傾向がある。
第2のケースでは、マップは通常、オブジェクトの輪郭に焦点を当て、より特徴的で特徴のある、興味深いコンテンツのバリエーションで画像を分割する。
この場合、Fr'echet Inception Distance (FID) of $\hat{x_1}$ と $\hat{x_2}$ は通常 $\hat{x}$ よりも低い (hence better)。
ある意味では、SVAEは変分オートエンコーダに選択を強制するが、その本質的な傾向とは対照的に、特定のサンプルに対する再構成損失を最小限に抑えるために、代替品間で平均化する傾向がある。
FIDメトリックスによると、Mnist、Cifar10、Celebaといった典型的なデータセットでテストされた我々の手法は、従来の純粋に変動するアーキテクチャ(正規化フローに依存しない)をすべて上回ります。
関連論文リスト
- RefineStyle: Dynamic Convolution Refinement for StyleGAN [15.230430037135017]
StyleGANでは、畳み込みカーネルは画像間で共有される静的パラメータの両方によって形成される。
$mathcalW+$スペースは画像の反転や編集によく使われる。
本稿では,動的カーネルの効率的な精錬戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T15:01:30Z) - High-fidelity Pseudo-labels for Boosting Weakly-Supervised Segmentation [17.804090651425955]
画像レベルの弱い教師付きセグメンテーション(WSSS)は、トレーニング中にセグメンテーションマスクを代理することで、通常膨大なデータアノテーションコストを削減する。
本研究は,GAPの代替となる重要サンプリングと特徴類似性損失という,CAMを改善するための2つの手法に基づく。
複数の独立二項問題の後部二項問題に基づいて両手法を再構成する。
パフォーマンスが向上し、より一般的なものになり、事実上あらゆるWSSSメソッドを増強できるアドオンメソッドが出来上がります。
論文 参考訳(メタデータ) (2023-04-05T17:43:57Z) - EGC: Image Generation and Classification via a Diffusion Energy-Based
Model [59.591755258395594]
この研究は、エネルギーベースの分類器とジェネレータ、すなわちEMCを導入し、単一のニューラルネットワークを使用して両方のタスクで優れたパフォーマンスを実現する。
EGCはImageNet-1k、CelebA-HQ、LSUN Churchの最先端アプローチと比較して、競争力のある生成結果を達成している。
この研究は、ネットワークパラメータの単一セットを使用して両方のタスクを同時に実行しようとする最初の試みである。
論文 参考訳(メタデータ) (2023-04-04T17:59:14Z) - I$^2$SB: Image-to-Image Schr\"odinger Bridge [87.43524087956457]
Image-to-Image Schr"odinger Bridge (I$2$SB) は条件拡散モデルの新しいクラスである。
I$2$SB は、2つの与えられた分布間の非線形拡散過程を直接学習する。
I$2$SBは、より解釈可能な生成過程を持つ標準条件拡散モデルを超えることを示す。
論文 参考訳(メタデータ) (2023-02-12T08:35:39Z) - Rethinking the Paradigm of Content Constraints in Unpaired
Image-to-Image Translation [9.900050049833986]
本稿では,パッチレベルの特徴の潜在空間における表現的類似性を制約することにより,コンテンツ管理のシンプルかつ効率的な方法であるEnCoを提案する。
類似性関数に対しては、I2Iタスクで広く使われている対照的な損失ではなく、単純なMSE損失を用いる。
さらに, 識別者によるサンプリングにおける役割を再考し, ランダムサンプリングの代替として, DAG(Disdisnative attention-guided)パッチサンプリング戦略を提案する。
論文 参考訳(メタデータ) (2022-11-20T04:39:57Z) - $\texttt{GradICON}$: Approximate Diffeomorphisms via Gradient Inverse
Consistency [16.72466200341455]
ニューラルネットワークを用いて、ソースとターゲットイメージ間のマップと、ソースとターゲットイメージを切り替える際のマップを予測します。
我々は,様々な実世界の医療画像データセットに対して,最先端の登録性能を実現する。
論文 参考訳(メタデータ) (2022-06-13T04:03:49Z) - Learning a Weight Map for Weakly-Supervised Localization [93.91375268580806]
我々は、入力画像から出力する生成ネットワーク$g$、画像内の物体の位置を示すピクセル単位の重みマップをトレーニングする。
提案手法は, 既存の局所化手法よりも, 難解な粒度分類データセットに対して, かなりのマージンで優れていることを示す。
論文 参考訳(メタデータ) (2021-11-28T12:45:23Z) - Seed the Views: Hierarchical Semantic Alignment for Contrastive
Representation Learning [116.91819311885166]
一つの画像から生成されたビューをtextbfCross-samples や Multi-level representation に拡張することで,階層的なセマンティックアライメント戦略を提案する。
提案手法はCsMlと呼ばれ,サンプル間の多層視覚表現を堅牢な方法で統合する機能を備えている。
論文 参考訳(メタデータ) (2020-12-04T17:26:24Z) - Permuted AdaIN: Reducing the Bias Towards Global Statistics in Image
Classification [97.81205777897043]
近年の研究では、畳み込みニューラルネットワーク分類器は形状を犠牲にしてテクスチャを過度に依存していることが示されている。
一方、形状と局所像の区別は類似しているが異なるが、一方、グローバル画像統計は異なる。
提案手法は,pAdaIN (Permuted Adaptive Instance Normalization) と呼ばれ,画像分類器の隠蔽層におけるグローバル統計の表現を減少させる。
論文 参考訳(メタデータ) (2020-10-09T16:38:38Z) - Fast Nonconvex $T_2^*$ Mapping Using ADMM [14.22930572798757]
磁気共鳴(MR)$T*$マッピングは、様々な臨床応用において出血、石灰化、鉄沈着の研究に広く用いられているが、組織における所望のコントラストの直接的かつ正確なマッピングを提供する。
従来の3D解像度の$*$マッピング法で必要とされる長い取得時間は、患者に不快を生じさせ、再構成された画像に運動アーティファクトを導入し、より広い適用性を制限する。
本稿では,圧縮センシングを用いたアンダーサンプルデータから$T*$マッピングを行うことでこの問題に対処する。
論文 参考訳(メタデータ) (2020-08-04T20:08:43Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。