論文の概要: Novel View Synthesis on Unpaired Data by Conditional Deformable
Variational Auto-Encoder
- arxiv url: http://arxiv.org/abs/2007.10618v1
- Date: Tue, 21 Jul 2020 06:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 04:57:52.492714
- Title: Novel View Synthesis on Unpaired Data by Conditional Deformable
Variational Auto-Encoder
- Title(参考訳): 条件付き変形可変オートエンコーダによる不整合データの新しいビュー合成
- Authors: Mingyu Yin, Li Sun, Qingli Li
- Abstract要約: 本稿では, ペアデータを必要としない, cVAE-GAN フレームワーク下でのビュー変換モデルを提案する。
本稿では,VAEのメインブランチの特徴マップを畳み込むために,ビュー条件ベクトルをフィルタとして利用する条件変形モジュール(CDM)を設計する。
結果は、デフォルメされた機能ベースの正規化モジュール(DFNM)に入力され、サイドブランチからの入力として、メインブランチの機能をスケールしてオフセットする。
- 参考スコア(独自算出の注目度): 20.230974274093775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis often needs the paired data from both the source and
target views. This paper proposes a view translation model under cVAE-GAN
framework without requiring the paired data. We design a conditional deformable
module (CDM) which uses the view condition vectors as the filters to convolve
the feature maps of the main branch in VAE. It generates several pairs of
displacement maps to deform the features, like the 2D optical flows. The
results are fed into the deformed feature based normalization module (DFNM),
which scales and offsets the main branch feature, given its deformed one as the
input from the side branch. Taking the advantage of the CDM and DFNM, the
encoder outputs a view-irrelevant posterior, while the decoder takes the code
drawn from it to synthesize the reconstructed and the viewtranslated images. To
further ensure the disentanglement between the views and other factors, we add
adversarial training on the code. The results and ablation studies on MultiPIE
and 3D chair datasets validate the effectiveness of the framework in cVAE and
the designed module.
- Abstract(参考訳): 新規なビュー合成は、しばしばソースとターゲットの両方のビューからのペアデータを必要とする。
本稿では, ペアデータを必要としない, cVAE-GAN フレームワークによるビュー変換モデルを提案する。
本稿では,VAEのメインブランチの特徴マップを畳み込むために,ビュー条件ベクトルをフィルタとして利用する条件変形モジュール(CDM)を設計する。
2次元光学フローのような特徴を変形させるために、いくつかの変位マップを生成する。
結果は、デフォルメされた機能ベースの正規化モジュール(DFNM)に入力され、サイドブランチからの入力として、メインブランチの機能をスケールしてオフセットする。
エンコーダは、CDMとDFNMの利点を生かし、ビュー非関連後部を出力し、デコーダは、そこから引き出されたコードを取り、再構成された画像とビュー変換された画像を合成する。
ビューと他の要素の絡み合いをさらに確実にするため、コードに逆のトレーニングを加えます。
マルチPIEおよび3Dチェアデータセットの結果とアブレーション研究により,cVAEおよび設計モジュールにおけるフレームワークの有効性が検証された。
関連論文リスト
- LVSM: A Large View Synthesis Model with Minimal 3D Inductive Bias [50.13457154615262]
スパースビュー入力からのスケーラブルで一般化可能な新規ビュー合成のためのトランスフォーマーに基づくアプローチを提案する。
本稿では,(1)入力画像トークンを1次元遅延トークンにエンコードするエンコーダデコーダLVSM,(2)入力画像を直接新規ビュー出力にマッピングするデコーダのみLVSMの2つのアーキテクチャを紹介する。
論文 参考訳(メタデータ) (2024-10-22T17:58:28Z) - TF4CTR: Twin Focus Framework for CTR Prediction via Adaptive Sample Differentiation [14.047096669510369]
本稿では,Twin Focus (TF) Loss, Sample Selection Embedding Module (SSEM), Dynamic Fusion Module (DFM) を統合した新しいCTR予測フレームワークを提案する。
5つの実世界のデータセットの実験は、フレームワークの有効性と互換性を確認している。
論文 参考訳(メタデータ) (2024-05-06T05:22:40Z) - UpFusion: Novel View Diffusion from Unposed Sparse View Observations [66.36092764694502]
UpFusionは、参照画像のスパースセットが与えられたオブジェクトに対して、新しいビュー合成と3D表現を推論することができる。
本研究では,この機構により,付加された(未提示)画像の合成品質を向上しつつ,高忠実度な新規ビューを生成することができることを示す。
論文 参考訳(メタデータ) (2023-12-11T18:59:55Z) - Interpretable Spectral Variational AutoEncoder (ISVAE) for time series
clustering [48.0650332513417]
可変オートエンコーダ(VAE)の出力にフィルタバンク(FB)の解釈可能なボトルネックを組み込んだ新しいモデルを導入する。
このアレンジメントは、入力信号の最も情報性の高いセグメントに参加するためにVAEを補完する。
VAEをこのFBに故意に拘束することにより、識別可能で分離可能で次元が縮小した符号化の開発を促進する。
論文 参考訳(メタデータ) (2023-10-18T13:06:05Z) - Efficient View Synthesis and 3D-based Multi-Frame Denoising with
Multiplane Feature Representations [1.18885605647513]
本稿では,3Dベースのマルチフレームデノベーション手法を初めて導入し,より少ない計算量で2Dベースのデノベーションを著しく上回った。
特徴空間に多面体を操作する学習可能なエンコーダ-レンダペアを導入することにより,新しいビュー合成のための多面体画像(MPI)フレームワークを拡張した。
論文 参考訳(メタデータ) (2023-03-31T15:23:35Z) - Positional Encoding Augmented GAN for the Assessment of Wind Flow for
Pedestrian Comfort in Urban Areas [0.41998444721319217]
本研究は,CFDを用いた3次元フローフィールドの計算から,建物のフットプリント上の2次元画像から画像への変換に基づく問題まで,歩行者の高さレベルでのフローフィールドの予測に至るまでの課題を言い換える。
本稿では,画像から画像への変換タスクの最先端を表現したPix2PixやCycleGANなど,GAN(Generative Adversarial Network)の利用について検討する。
論文 参考訳(メタデータ) (2021-12-15T19:37:11Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - ID-Unet: Iterative Soft and Hard Deformation for View Synthesis [13.042336671109059]
本稿では, 音源から目標への変形を反復的に行う新しいアーキテクチャを提案する。
我々は、異なる解像度でターゲットビューにエンコーダの特徴を歪めるソフトとハード変形モジュールを設計します。
モデルをよりよく制約するために,中間フローとその歪んだ特徴に基づいて,粗い目標視像を合成する。
論文 参考訳(メタデータ) (2021-03-03T09:02:00Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。