論文の概要: Evaluating generative networks using Gaussian mixtures of image features
- arxiv url: http://arxiv.org/abs/2110.05240v1
- Date: Fri, 8 Oct 2021 17:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 16:07:52.553300
- Title: Evaluating generative networks using Gaussian mixtures of image features
- Title(参考訳): gaussian mixtures of image featuresを用いた生成ネットワークの評価
- Authors: Lorenzo Luzi, Carlos Ortiz Marrero, Nile Wynar, Richard G. Baraniuk,
Michael J. Henry
- Abstract要約: 本研究では,2組の画像に対して生成ネットワークの性能を評価する尺度を開発した。
画像摂動に対して、FIDがWaMよりも感度が高いことを含む、FIDに対するWaMの利点を示す。
- 参考スコア(独自算出の注目度): 28.78445970020791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a measure for evaluating the performance of generative networks
given two sets of images. A popular performance measure currently used to do
this is the Fr\'echet Inception Distance (FID). However, FID assumes that
images featurized using the penultimate layer of Inception-v3 follow a Gaussian
distribution. This assumption allows FID to be easily computed, since FID uses
the 2-Wasserstein distance of two Gaussian distributions fitted to the
featurized images. However, we show that Inception-v3 features of the ImageNet
dataset are not Gaussian; in particular, each marginal is not Gaussian. To
remedy this problem, we model the featurized images using Gaussian mixture
models (GMMs) and compute the 2-Wasserstein distance restricted to GMMs. We
define a performance measure, which we call WaM, on two sets of images by using
Inception-v3 (or another classifier) to featurize the images, estimate two
GMMs, and use the restricted 2-Wasserstein distance to compare the GMMs. We
experimentally show the advantages of WaM over FID, including how FID is more
sensitive than WaM to image perturbations. By modelling the non-Gaussian
features obtained from Inception-v3 as GMMs and using a GMM metric, we can more
accurately evaluate generative network performance.
- Abstract(参考訳): 2つの画像セットを与えられた生成ネットワークの性能評価手法を開発した。
現在よく使われているパフォーマンス指標はFr\echet Inception Distance (FID)である。
しかし、FID は Inception-v3 の直列層を用いた画像はガウス分布に従うと仮定する。
この仮定により、FIDは2つのガウス分布の2-ワッサーシュタイン距離をデマチュアライズされた画像に当てはめるため、FIDを容易に計算できる。
しかし、imagenetデータセットのinception-v3機能はガウス的ではなく、特に各辺はガウス的ではない。
この問題を解決するために,ガウス混合モデル (gmms) を用いて,gmms に制限された 2-wasserstein 距離を計算する。
Inception-v3(または別の分類器)を用いて2つのGMMを推定し、制限された2-ワッサーシュタイン距離を用いてGMMを比較することで、2つの画像に対してWaMと呼ぶ性能尺度を定義する。
画像摂動に対して、FIDがWaMよりも感度が高いことを含む、FIDに対するWaMの利点を実験的に示す。
Inception-v3 から得られた非ガウス的特徴を GMM としてモデル化し,GMM を用いて生成ネットワークの性能をより正確に評価することができる。
関連論文リスト
- GEA: Reconstructing Expressive 3D Gaussian Avatar from Monocular Video [58.529031282445665]
GEAは3Dガウスに基づく高忠実度体と手を再現した表現力のある3Dアバターを作成する新しい方法である。
人体とポーズのきめ細かい制御を提供しながら、フォトリアリスティックなビュー合成における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-02-26T14:40:15Z) - Improved DDIM Sampling with Moment Matching Gaussian Mixtures [1.450405446885067]
本稿では,Gaussian Mixture Model (GMM) を逆遷移演算子 (カーネル) として,DDIM(Denoising Diffusion Implicit Models) フレームワーク内で提案する。
我々は,GMMのパラメータを制約することにより,DDPMフォワードの1次と2次の中心モーメントを一致させる。
以上の結果から, GMMカーネルを使用すれば, サンプリングステップ数が少ない場合に, 生成したサンプルの品質が大幅に向上することが示唆された。
論文 参考訳(メタデータ) (2023-11-08T00:24:50Z) - Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - GMConv: Modulating Effective Receptive Fields for Convolutional Kernels [52.50351140755224]
畳み込みニューラルネットワークでは、固定N$times$N受容場(RF)を持つ正方形カーネルを用いて畳み込みを行う。
ERFが通常ガウス分布を示す性質に着想を得て,本研究でガウス・マスク畳み込みカーネル(GMConv)を提案する。
私たちのGMConvは、既存のCNNの標準の畳み込みを直接置き換えることができ、標準のバックプロパゲーションによって、エンドツーエンドで簡単に訓練することができます。
論文 参考訳(メタデータ) (2023-02-09T10:17:17Z) - Hypercomplex Image-to-Image Translation [13.483068375377362]
画像から画像への変換(I2I)は、コンテンツ表現を入力ドメインから出力ドメインに転送することを目的としている。
この課題で卓越した結果を得た最近のI2I生成モデルは、それぞれ数千万のパラメータを持つ多様な深層ネットワークで構成されている。
画像次元間の既往の関係を保存できる軽量I2I生成モデルを定義するために,超複素代数特性を活用することを提案する。
論文 参考訳(メタデータ) (2022-05-04T14:28:50Z) - Perception-aware Multi-sensor Fusion for 3D LiDAR Semantic Segmentation [59.42262859654698]
3Dセマンティックセグメンテーションは、自動運転やロボット工学など、多くのアプリケーションにおいてシーン理解において重要である。
既存の融合法は、2つのモードの差が大きいため、有望な性能を達成できない。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Generate High Resolution Images With Generative Variational Autoencoder [0.0]
本稿では,高解像度画像を生成する新しいニューラルネットワークを提案する。
エンコーダをそのまま使用しながら,VAEのデコーダを識別器に置き換える。
我々は、MNIST、LSUN、CelebAの3つの異なるデータセットでネットワークを評価した。
論文 参考訳(メタデータ) (2020-08-12T20:15:34Z) - Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。
我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文 参考訳(メタデータ) (2020-06-22T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。