論文の概要: Evaluating generative networks using Gaussian mixtures of image features
- arxiv url: http://arxiv.org/abs/2110.05240v1
- Date: Fri, 8 Oct 2021 17:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 16:07:52.553300
- Title: Evaluating generative networks using Gaussian mixtures of image features
- Title(参考訳): gaussian mixtures of image featuresを用いた生成ネットワークの評価
- Authors: Lorenzo Luzi, Carlos Ortiz Marrero, Nile Wynar, Richard G. Baraniuk,
Michael J. Henry
- Abstract要約: 本研究では,2組の画像に対して生成ネットワークの性能を評価する尺度を開発した。
画像摂動に対して、FIDがWaMよりも感度が高いことを含む、FIDに対するWaMの利点を示す。
- 参考スコア(独自算出の注目度): 28.78445970020791
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a measure for evaluating the performance of generative networks
given two sets of images. A popular performance measure currently used to do
this is the Fr\'echet Inception Distance (FID). However, FID assumes that
images featurized using the penultimate layer of Inception-v3 follow a Gaussian
distribution. This assumption allows FID to be easily computed, since FID uses
the 2-Wasserstein distance of two Gaussian distributions fitted to the
featurized images. However, we show that Inception-v3 features of the ImageNet
dataset are not Gaussian; in particular, each marginal is not Gaussian. To
remedy this problem, we model the featurized images using Gaussian mixture
models (GMMs) and compute the 2-Wasserstein distance restricted to GMMs. We
define a performance measure, which we call WaM, on two sets of images by using
Inception-v3 (or another classifier) to featurize the images, estimate two
GMMs, and use the restricted 2-Wasserstein distance to compare the GMMs. We
experimentally show the advantages of WaM over FID, including how FID is more
sensitive than WaM to image perturbations. By modelling the non-Gaussian
features obtained from Inception-v3 as GMMs and using a GMM metric, we can more
accurately evaluate generative network performance.
- Abstract(参考訳): 2つの画像セットを与えられた生成ネットワークの性能評価手法を開発した。
現在よく使われているパフォーマンス指標はFr\echet Inception Distance (FID)である。
しかし、FID は Inception-v3 の直列層を用いた画像はガウス分布に従うと仮定する。
この仮定により、FIDは2つのガウス分布の2-ワッサーシュタイン距離をデマチュアライズされた画像に当てはめるため、FIDを容易に計算できる。
しかし、imagenetデータセットのinception-v3機能はガウス的ではなく、特に各辺はガウス的ではない。
この問題を解決するために,ガウス混合モデル (gmms) を用いて,gmms に制限された 2-wasserstein 距離を計算する。
Inception-v3(または別の分類器)を用いて2つのGMMを推定し、制限された2-ワッサーシュタイン距離を用いてGMMを比較することで、2つの画像に対してWaMと呼ぶ性能尺度を定義する。
画像摂動に対して、FIDがWaMよりも感度が高いことを含む、FIDに対するWaMの利点を実験的に示す。
Inception-v3 から得られた非ガウス的特徴を GMM としてモデル化し,GMM を用いて生成ネットワークの性能をより正確に評価することができる。
関連論文リスト
- NovelGS: Consistent Novel-view Denoising via Large Gaussian Reconstruction Model [57.92709692193132]
NovelGSは、スパースビュー画像が与えられたガウススプラッティングの拡散モデルである。
我々は3Dガウスを生成するためにトランスフォーマーネットワークを経由する新しい視点を利用する。
論文 参考訳(メタデータ) (2024-11-25T07:57:17Z) - Normalizing Flow-Based Metric for Image Generation [4.093503153499691]
正規化フローに基づいて生成画像の現実性を評価するための2つの新しい評価指標を提案する。
正規化フローは正確な確率を計算するために使用できるため、提案したメトリクスは、与えられた領域からの実際の画像の分布とどのように密接に一致しているかを評価する。
論文 参考訳(メタデータ) (2024-10-02T20:09:58Z) - Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - Deep Gaussian mixture model for unsupervised image segmentation [1.3654846342364308]
多くのタスクにおいて、十分なピクセルレベルのラベルを得るのは非常に困難である。
本稿では,ガウス混合モデル(GMM)と教師なしディープラーニング技術を組み合わせた手法を提案する。
マルチシーケンスMRI画像における梗塞領域分割の例について, 様々な実験において本手法の利点を実証する。
論文 参考訳(メタデータ) (2024-04-18T15:20:59Z) - Cramer Type Distances for Learning Gaussian Mixture Models by Gradient
Descent [0.0]
今日まで、ガウス混合モデルに適合または学習できる既知のアルゴリズムはほとんどない。
一般多変量GMM学習のためのスライスクラマー2距離関数を提案する。
これらの機能は、分散強化学習とディープQネットワークに特に有用である。
論文 参考訳(メタデータ) (2023-07-13T13:43:02Z) - GMConv: Modulating Effective Receptive Fields for Convolutional Kernels [52.50351140755224]
畳み込みニューラルネットワークでは、固定N$times$N受容場(RF)を持つ正方形カーネルを用いて畳み込みを行う。
ERFが通常ガウス分布を示す性質に着想を得て,本研究でガウス・マスク畳み込みカーネル(GMConv)を提案する。
私たちのGMConvは、既存のCNNの標準の畳み込みを直接置き換えることができ、標準のバックプロパゲーションによって、エンドツーエンドで簡単に訓練することができます。
論文 参考訳(メタデータ) (2023-02-09T10:17:17Z) - Hypercomplex Image-to-Image Translation [13.483068375377362]
画像から画像への変換(I2I)は、コンテンツ表現を入力ドメインから出力ドメインに転送することを目的としている。
この課題で卓越した結果を得た最近のI2I生成モデルは、それぞれ数千万のパラメータを持つ多様な深層ネットワークで構成されている。
画像次元間の既往の関係を保存できる軽量I2I生成モデルを定義するために,超複素代数特性を活用することを提案する。
論文 参考訳(メタデータ) (2022-05-04T14:28:50Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - Adaptive Context-Aware Multi-Modal Network for Depth Completion [107.15344488719322]
我々は,観測された空間コンテキストを捉えるために,グラフ伝搬を採用することを提案する。
次に、注意機構を伝搬に適用し、ネットワークが文脈情報を適応的にモデル化することを奨励する。
最後に、抽出したマルチモーダル特徴を効果的に活用するための対称ゲート融合戦略を導入する。
本稿では,Adaptive Context-Aware Multi-Modal Network (ACMNet) を2つのベンチマークで評価した。
論文 参考訳(メタデータ) (2020-08-25T06:00:06Z) - Generate High Resolution Images With Generative Variational Autoencoder [0.0]
本稿では,高解像度画像を生成する新しいニューラルネットワークを提案する。
エンコーダをそのまま使用しながら,VAEのデコーダを識別器に置き換える。
我々は、MNIST、LSUN、CelebAの3つの異なるデータセットでネットワークを評価した。
論文 参考訳(メタデータ) (2020-08-12T20:15:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。