論文の概要: PartitionVAE -- a human-interpretable VAE
- arxiv url: http://arxiv.org/abs/2302.03689v1
- Date: Sat, 4 Feb 2023 05:22:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-08 15:13:35.157009
- Title: PartitionVAE -- a human-interpretable VAE
- Title(参考訳): PartitionVAE -- 人間の解釈可能なVAE
- Authors: Fareed Sheriff, Sameer Pai
- Abstract要約: VAEは入力画像空間の分布を明示的に学習する。
表現層を不連結な単位集合に分割することで、より解釈可能なVAEを作ることを目指している。
MNIST と Sports10 で PVAE のチューニングを行い,その有効性を検証した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: VAEs, or variational autoencoders, are autoencoders that explicitly learn the
distribution of the input image space rather than assuming no prior information
about the distribution. This allows it to classify similar samples close to
each other in the latent space's distribution. VAEs classically assume the
latent space is normally distributed, though many distribution priors work, and
they encode this assumption through a K-L divergence term in the loss function.
While VAEs learn the distribution of the latent space and naturally make each
dimension in the latent space as disjoint from the others as possible, they do
not group together similar features -- the image space feature represented by
one unit of the representation layer does not necessarily have high correlation
with the feature represented by a neighboring unit of the representation layer.
This makes it difficult to interpret VAEs since the representation layer is not
structured in a way that is easy for humans to parse. We aim to make a more
interpretable VAE by partitioning the representation layer into disjoint sets
of units. Partitioning the representation layer into disjoint sets of
interconnected units yields a prior that features of the input space to this
new VAE, which we call a partition VAE or PVAE, are grouped together by
correlation -- for example, if our image space were the space of all ping ping
game images (a somewhat complex image space we use to test our architecture)
then we would hope the partitions in the representation layer each learned some
large feature of the image like the characteristics of the ping pong table or
the characteristics and position of the players or the ball. We also add to the
PVAE a cost-saving measure: subresolution. Because we do not have access to GPU
training environments for long periods of time and Google Colab Pro costs
money, we attempt to decrease the complexity of the PVAE by outputting an image
with dimensions scaled down from the input image by a constant factor, thus
forcing the model to output a smaller version of the image. We then increase
the resolution to calculate loss and train by interpolating through neighboring
pixels. We train a tuned PVAE on MNIST and Sports10 to test its effectiveness.
- Abstract(参考訳): 可変オートエンコーダ(VAE)は、入力画像空間の分布を、その分布に関する事前情報を前提とせず明示的に学習するオートエンコーダである。
これにより、潜在空間の分布において互いに近い類似のサンプルを分類することができる。
VAEは古典的には、遅延空間は通常の分布であると仮定するが、多くの分布先行は機能し、損失関数のK-L発散項を通じてこの仮定を符号化する。
While VAEs learn the distribution of the latent space and naturally make each dimension in the latent space as disjoint from the others as possible, they do not group together similar features -- the image space feature represented by one unit of the representation layer does not necessarily have high correlation with the feature represented by a neighboring unit of the representation layer. This makes it difficult to interpret VAEs since the representation layer is not structured in a way that is easy for humans to parse. We aim to make a more interpretable VAE by partitioning the representation layer into disjoint sets of units. Partitioning the representation layer into disjoint sets of interconnected units yields a prior that features of the input space to this new VAE, which we call a partition VAE or PVAE, are grouped together by correlation -- for example, if our image space were the space of all ping ping game images (a somewhat complex image space we use to test our architecture) then we would hope the partitions in the representation layer each learned some large feature of the image like the characteristics of the ping pong table or the characteristics and position of the players or the ball.
また、PVAEにコスト削減策として、サブレゾリューションを追加します。
長時間GPUトレーニング環境にアクセスできず、Google Colab Proは費用がかかるため、入力画像からスケールダウンした寸法の画像を一定要素で出力することにより、PVAEの複雑さを低減しようとするため、モデルのより小さなバージョンを出力せざるを得ない。
次に、隣接する画素を補間することで、損失と訓練を計算する解像度を高める。
MNISTとSports10でPVAEをチューニングし、その有効性をテストする。
関連論文リスト
- LASERS: LAtent Space Encoding for Representations with Sparsity for Generative Modeling [3.9426000822656224]
より潜在的な空間はより表現力が高く、ベクトル量子化アプローチよりも表現性がよいことを示す。
以上の結果から,VQ手法の真の利点は,潜伏空間の離散化ではなく,潜伏空間の損失圧縮によるものである可能性が示唆された。
論文 参考訳(メタデータ) (2024-09-16T08:20:58Z) - Spatial Latent Representations in Generative Adversarial Networks for
Image Generation [0.0]
StyleGAN2 に対して空間潜在空間の族を定義する。
我々の空間は画像操作や意味情報のエンコードに有効であることを示す。
論文 参考訳(メタデータ) (2023-03-25T20:01:11Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Adaptive Local Implicit Image Function for Arbitrary-scale
Super-resolution [61.95533972380704]
局所暗黙画像関数(LIIF)は、対応する座標を入力として、画素値が拡張される連続関数として画像を表す。
LIIFは任意のスケールの超解像タスクに適用でき、その結果、様々なアップスケーリング要因に対して単一の効率的かつ効率的なモデルが得られる。
この問題を軽減するために,新しい適応型局所像関数(A-LIIF)を提案する。
論文 参考訳(メタデータ) (2022-08-07T11:23:23Z) - Fitting Segmentation Networks on Varying Image Resolutions using
Splatting [1.3792537518004493]
入力データの解像度ミスマッチを自動的に処理するスプレート層を提案する。
splat演算子が再サンプリング演算子の随伴であるので、平均空間予測をネイティブラベル空間に引き戻すことができる。
このモデルは、前処理ステップとして再サンプリングするよりもセグメンテーション結果を改善する。
論文 参考訳(メタデータ) (2022-06-13T19:53:02Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Invariant Deep Compressible Covariance Pooling for Aerial Scene
Categorization [80.55951673479237]
本研究では,空気シーン分類におけるニュアンス変動を解決するために,新しい不変な深部圧縮性共分散プール (IDCCP) を提案する。
本研究では,公開空間画像データセットに関する広範な実験を行い,最先端の手法と比較して,この手法の優位性を実証する。
論文 参考訳(メタデータ) (2020-11-11T11:13:07Z) - Visual Transformers: Token-based Image Representation and Processing for
Computer Vision [67.55770209540306]
Visual Transformer (VT) はセマンティックトークン空間で動作し、コンテキストに基づいて異なる画像部品に任意に参加する。
高度なトレーニングレシピを使うことで、私たちのVTは畳み込みよりも大幅に優れています。
LIPとCOCO-stuffのセマンティックセグメンテーションでは、VTベースの特徴ピラミッドネットワーク(FPN)は、FPNモジュールのFLOPを6.5倍減らしながら、mIoUの0.35ポイントを達成している。
論文 参考訳(メタデータ) (2020-06-05T20:49:49Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z) - AE-OT-GAN: Training GANs from data specific latent distribution [21.48007565143911]
GAN(Generative Adversarial Network)は、現実的かつクリップな画像を生成するモデルである。
GANはしばしばモード崩壊問題に遭遇し、連続DNNを用いて本質的不連続分布変換マップを近似することから訓練に固執する。
最近提案されたAE-OTモデルでは、不連続なdistribu-tion変換マップを明示的に計算することで、この問題に対処している。
本稿では,AE-OT-GANモデルを用いて,高品質な画像を生成すると同時に,モード崩壊/混合問題を克服する。
論文 参考訳(メタデータ) (2020-01-11T01:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。