Fugu-MT 論文翻訳(概要): Image Modeling with Deep Convolutional Gaussian Mixture Models

論文の概要: Image Modeling with Deep Convolutional Gaussian Mixture Models

arxiv url: http://arxiv.org/abs/2104.12686v1
Date: Mon, 19 Apr 2021 12:08:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-03 19:48:34.932917
Title: Image Modeling with Deep Convolutional Gaussian Mixture Models
Title（参考訳）: 深い畳み込みガウス混合モデルによる画像モデリング
Authors: Alexander Gepperth, Benedikt Pf\"ulb
Abstract要約: 画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。 DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。 dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。 MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
参考スコア（独自算出の注目度）: 79.0660895390689
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this conceptual work, we present Deep Convolutional Gaussian Mixture Models (DCGMMs): a new formulation of deep hierarchical Gaussian Mixture Models (GMMs) that is particularly suitable for describing and generating images. Vanilla (i.e., flat) GMMs require a very large number of components to describe images well, leading to long training times and memory issues. DCGMMs avoid this by a stacked architecture of multiple GMM layers, linked by convolution and pooling operations. This allows to exploit the compositionality of images in a similar way as deep CNNs do. DCGMMs can be trained end-to-end by Stochastic Gradient Descent. This sets them apart from vanilla GMMs which are trained by Expectation-Maximization, requiring a prior k-means initialization which is infeasible in a layered structure. For generating sharp images with DCGMMs, we introduce a new gradient-based technique for sampling through non-invertible operations like convolution and pooling. Based on the MNIST and FashionMNIST datasets, we validate the DCGMMs model by demonstrating its superiority over flat GMMs for clustering, sampling and outlier detection.
Abstract（参考訳）: 本稿では,特に画像の記述・生成に適した深層階層型ガウス混合モデル(GMM)の新たな定式化として,深部畳み込みガウス混合モデル(DCGMM)を提案する。バニラ(フラット)のGMMは画像を記述するのに非常に多くのコンポーネントを必要とし、長いトレーニング時間とメモリの問題を引き起こす。 DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。これにより、ディープCNNと同じように、画像の合成性を活用できる。 DCGMMはStochastic Gradient Descentによってエンドツーエンドでトレーニングすることができる。これにより、期待-最大化によって訓練されたバニラGMMとは分離され、層構造では不可能なk平均初期化が要求される。 dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。 MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示す。

関連論文リスト

Performance of Gaussian Mixture Model Classifiers on Embedded Feature Spaces [1.3241991482253108]
CLIPとImageBindによるデータ埋め込みは、マルチメディアおよび/またはマルチモーダルデータの分析に強力な機能を提供する。本稿では,Gaussian Mixture Model (GMM) ベースの層を標準のSoftmaxレイヤの代替として利用して,それらの性能を分類するために評価する。その結果,GMMの1つのガウス成分が各クラスを捕捉するのに十分である場合が多く,これらの組込み空間の訓練に使用される対照的な損失が原因である可能性が示唆された。
論文参考訳（メタデータ） (2024-10-17T10:43:43Z)
AVG-LLaVA: An Efficient Large Multimodal Model with Adaptive Visual Granularity [85.44800864697464]
入力画像と命令に基づいて適切な視覚的粒度を適応的に選択できるLMMであるAVG-LLaVAを導入する。大規模な実験と分析により、AVG-LLaVAは11ベンチマークで優れた性能を発揮することが示された。
論文参考訳（メタデータ） (2024-09-20T10:50:21Z)
Deep Gaussian mixture model for unsupervised image segmentation [1.3654846342364308]
多くのタスクにおいて、十分なピクセルレベルのラベルを得るのは非常に困難である。本稿では,ガウス混合モデル(GMM)と教師なしディープラーニング技術を組み合わせた手法を提案する。マルチシーケンスMRI画像における梗塞領域分割の例について, 様々な実験において本手法の利点を実証する。
論文参考訳（メタデータ） (2024-04-18T15:20:59Z)
Incremental Multimodal Surface Mapping via Self-Organizing Gaussian Mixture Models [1.0878040851638]
本文では,環境を連続確率モデルとして表わすインクリメンタルなマルチモーダル表面マッピング手法について述べる。この研究で使用される戦略は環境を表現するためにガウス混合モデル(GMM)を用いる。このギャップを埋めるために,高速GMMサブマップ抽出のための空間ハッシュマップを導入する。
論文参考訳（メタデータ） (2023-09-19T19:49:03Z)
A new perspective on probabilistic image modeling [92.89846887298852]
本稿では,密度推定,サンプリング,トラクタブル推論が可能な画像モデリングのための新しい確率論的手法を提案する。 DCGMMは、CNNのように、ランダムな初期条件からSGDによってエンドツーエンドに訓練することができる。本研究は,近年のPCおよびSPNモデルと,推論,分類,サンプリングの観点から比較した。
論文参考訳（メタデータ） (2022-03-21T14:53:57Z)
Smoothed Gaussian Mixture Models for Video Classification and Recommendation [10.119117405418868]
SGMM(S smoothed Gaussian mixed Model)と呼ばれる新しいクラスタ・アンド・アグリゲート法を提案する。 YouTube-8M分類タスクの広範な実験を通じて、SGMM/DSGMMはVLAD/NetVLADよりも一貫して優れていますが、統計的に有意なマージンを示しています。
論文参考訳（メタデータ） (2020-12-17T06:52:41Z)
Prototype Mixture Models for Few-shot Semantic Segmentation [50.866870384596446]
サポートやクエリ画像内のオブジェクトが外観やポーズで大きく異なる可能性があるため、ショットのセグメンテーションは難しい。プロトタイプベースセマンティック表現を強制するために,多種多様な画像領域と複数のプロトタイプとの相関関係を持つプロトタイプ混合モデル(PMMs)を提案する。 PMMはMS-COCOの5ショットセグメンテーション性能を最大5.82%改善し、モデルサイズと推論速度の適度なコストに留まった。
論文参考訳（メタデータ） (2020-08-10T04:33:17Z)
Locally Masked Convolution for Autoregressive Models [107.4635841204146]
LMConvは標準的な2Dコンボリューションの簡単な修正であり、任意のマスクを画像の各位置の重みに適用することができる。我々は,パラメータを共有するが生成順序が異なる分布推定器のアンサンブルを学習し,全画像密度推定の性能を向上させる。
論文参考訳（メタデータ） (2020-06-22T17:59:07Z)
PointGMM: a Neural GMM Network for Point Clouds [83.9404865744028]
点雲は3次元形状の一般的な表現であるが、形状の先行や非局所的な情報を考慮せずに特定のサンプリングを符号化する。本稿では,形状クラスの特徴であるhGMMの生成を学習するニューラルネットワークであるPointGMMを提案する。生成モデルとして、PointGMMは既存の形状間の整合性を生成できる有意義な潜在空間を学習することを示す。
論文参考訳（メタデータ） (2020-03-30T10:34:59Z)
Semi-Supervised Learning with Normalizing Flows [54.376602201489995]
FlowGMMは、フローの正規化を伴う生成半教師付き学習におけるエンドツーエンドのアプローチである。我々は AG-News や Yahoo Answers のテキストデータなど,幅広いアプリケーションに対して有望な結果を示す。
論文参考訳（メタデータ） (2019-12-30T17:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。