論文の概要: Disentangled Representation Learning Using ($\beta$-)VAE and GAN
- arxiv url: http://arxiv.org/abs/2208.04549v1
- Date: Tue, 9 Aug 2022 05:37:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:26:55.154773
- Title: Disentangled Representation Learning Using ($\beta$-)VAE and GAN
- Title(参考訳): 対角的表現学習 : ($\beta$-)VAE と GAN を用いて
- Authors: Mohammad Haghir Ebrahimabadi
- Abstract要約: dSpriteデータセットは、必要な実験に必要な機能を提供します。
VAEをGAN(Generative Adversarial Network)と組み合わせてトレーニングした後、隠れたベクトルの各次元が破壊され、各次元の歪みを探索した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Given a dataset of images containing different objects with different
features such as shape, size, rotation, and x-y position; and a Variational
Autoencoder (VAE); creating a disentangled encoding of these features in the
hidden space vector of the VAE was the task of interest in this paper. The
dSprite dataset provided the desired features for the required experiments in
this research. After training the VAE combined with a Generative Adversarial
Network (GAN), each dimension of the hidden vector was disrupted to explore the
disentanglement in each dimension. Note that the GAN was used to improve the
quality of output image reconstruction.
- Abstract(参考訳): 形状、サイズ、回転、x-y位置などの異なる特徴を持つ異なる物体を含む画像のデータセットと変分オートエンコーダ(vae)が与えられたとき、vaeの隠れ空間ベクトルでこれらの特徴の異方性エンコーディングを作成することが本論文の関心の的となった。
dSpriteデータセットは、この研究に必要な実験に必要な機能を提供した。
VAEをGAN(Generative Adversarial Network)と組み合わせてトレーニングした後、隠れたベクトルの各次元が破壊され、各次元の歪みを探索した。
GANは出力画像再構成の品質向上に使用された点に注意が必要だ。
関連論文リスト
- Adaptive Rotated Convolution for Rotated Object Detection [96.94590550217718]
本稿では、回転物体検出問題に対処するために、適応回転変換(ARC)モジュールを提案する。
ARCモジュールでは、コンボリューションカーネルが適応的に回転し、異なる画像に異なる向きのオブジェクト特徴を抽出する。
提案手法は,81.77%mAPのDOTAデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-14T11:53:12Z) - Multi-Projection Fusion and Refinement Network for Salient Object
Detection in 360{\deg} Omnidirectional Image [141.10227079090419]
我々は,360度全方位画像中の有向物体を検出するために,MPFR-Net(Multi-Projection Fusion and Refinement Network)を提案する。
MPFR-Netは、等角射影像と対応する4つの立方体展開像を入力として使用する。
2つの全方位データセットの実験結果から,提案手法は定性的かつ定量的に,最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-12-23T14:50:40Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Spatially Invariant Unsupervised 3D Object Segmentation with Graph
Neural Networks [23.729853358582506]
本研究では,空間混合モデルとして点雲をモデル化するフレームワークSPAIR3Dを提案する。
変分オートエンコーダ(VAE)を用いて3次元の多目的表現とセグメンテーションを共同で学習する。
実験の結果,SPAIR3Dは外見情報のない可変物体を検出・分割できることがわかった。
論文 参考訳(メタデータ) (2021-06-10T09:20:16Z) - Rotation Equivariant Feature Image Pyramid Network for Object Detection
in Optical Remote Sensing Imagery [39.25541709228373]
本稿では、回転同値畳み込みに基づく画像ピラミッドネットワークである回転同変特徴像ピラミッドネットワーク(REFIPN)を提案する。
提案するピラミッドネットワークは, 新規な畳み込みフィルタを用いて, 広い範囲で特徴を抽出する。
提案モデルの検出性能は2つの一般的な航空ベンチマークで検証される。
論文 参考訳(メタデータ) (2021-06-02T01:33:49Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z) - Inference for Generative Capsule Models [4.454557728745761]
capsule networkは、オブジェクトとその部分の関係に関する知識と推論をエンコードすることを目的としている。
データは任意の翻訳、回転、スケールで複数の幾何学的オブジェクトから生成される。
我々は、各オブジェクトの変換とオブジェクトの部分への点の割り当てを推測するための変分アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-03-11T14:10:29Z) - Learning Geometry-Disentangled Representation for Complementary
Understanding of 3D Object Point Cloud [50.56461318879761]
3次元画像処理のためのGDANet(Geometry-Disentangled Attention Network)を提案する。
GDANetは、点雲を3Dオブジェクトの輪郭と平らな部分に切り離し、それぞれ鋭い変化成分と穏やかな変化成分で表される。
3Dオブジェクトの分類とセグメンテーションベンチマークの実験は、GDANetがより少ないパラメータで最先端の処理を実現していることを示している。
論文 参考訳(メタデータ) (2020-12-20T13:35:00Z) - Improving Point Cloud Semantic Segmentation by Learning 3D Object
Detection [102.62963605429508]
ポイントクラウドセマンティックセグメンテーションは、自動運転において重要な役割を果たす。
現在の3Dセマンティックセグメンテーションネットワークは、よく表現されたクラスに対して優れた性能を発揮する畳み込みアーキテクチャに焦点を当てている。
Aware 3D Semantic Detection (DASS) フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-22T14:17:40Z) - Fixed-size Objects Encoding for Visual Relationship Detection [16.339394922532282]
本稿では,視覚的関係検出タスクの性能向上のための固定サイズオブジェクト符号化法(FOE-VRD)を提案する。
1つの固定サイズのベクトルを用いて、各入力画像中の全てのオブジェクトを符号化し、関係検出のプロセスを支援する。
VRDデータベースの実験結果から,提案手法は述語分類と関係検出の両方に有効であることがわかった。
論文 参考訳(メタデータ) (2020-05-29T14:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。