論文の概要: ID-Unet: Iterative Soft and Hard Deformation for View Synthesis
- arxiv url: http://arxiv.org/abs/2103.02264v1
- Date: Wed, 3 Mar 2021 09:02:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-06 23:08:24.952703
- Title: ID-Unet: Iterative Soft and Hard Deformation for View Synthesis
- Title(参考訳): ID-Unet: ビュー合成のための反復ソフトとハード変形
- Authors: Mingyu Yin, Li Sun, Qingli Li
- Abstract要約: 本稿では, 音源から目標への変形を反復的に行う新しいアーキテクチャを提案する。
我々は、異なる解像度でターゲットビューにエンコーダの特徴を歪めるソフトとハード変形モジュールを設計します。
モデルをよりよく制約するために,中間フローとその歪んだ特徴に基づいて,粗い目標視像を合成する。
- 参考スコア(独自算出の注目度): 13.042336671109059
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: View synthesis is usually done by an autoencoder, in which the encoder maps a
source view image into a latent content code, and the decoder transforms it
into a target view image according to the condition. However, the source
contents are often not well kept in this setting, which leads to unnecessary
changes during the view translation. Although adding skipped connections, like
Unet, alleviates the problem, but it often causes the failure on the view
conformity. This paper proposes a new architecture by performing the
source-to-target deformation in an iterative way. Instead of simply
incorporating the features from multiple layers of the encoder, we design soft
and hard deformation modules, which warp the encoder features to the target
view at different resolutions, and give results to the decoder to complement
the details. Particularly, the current warping flow is not only used to align
the feature of the same resolution, but also as an approximation to coarsely
deform the high resolution feature. Then the residual flow is estimated and
applied in the high resolution, so that the deformation is built up in the
coarse-to-fine fashion. To better constrain the model, we synthesize a rough
target view image based on the intermediate flows and their warped features.
The extensive ablation studies and the final results on two different data sets
show the effectiveness of the proposed model.
- Abstract(参考訳): ビュー合成は通常、オートエンコーダによって行われ、エンコーダはソースビュー画像を潜在コンテンツコードにマッピングし、デコーダはその条件に従ってターゲットビューイメージに変換する。
しかし、ソースの内容はよくこの設定に保持されていないため、ビュー翻訳中に不要な変更が発生します。
unetのようなスキップ接続の追加は問題を緩和するが、ビューの適合性に障害を引き起こすことが多い。
本稿では, 音源から目標への変形を反復的に行う新しいアーキテクチャを提案する。
エンコーダの複数の層からの機能を単に組み込むのではなく、ソフトで硬い変形モジュールを設計し、それによってエンコーダの機能を異なる解像度でターゲットビューにワープし、詳細を補うためにデコーダに結果を与える。
特に、現在の反り流は、同じ解像度の特徴を調整するだけでなく、高解像度の特徴を粗く変形させる近似としても使用されます。
そして、残留流を高分解能で推定して印加することにより、粗粒度から細粒度までの変形が構築される。
モデルをよりよく制約するために,中間フローとその歪んだ特徴に基づいて,粗い目標視像を合成する。
2つの異なるデータセットにおける広範なアブレーション研究と最終結果は,提案モデルの有効性を示している。
関連論文リスト
- Corner-to-Center Long-range Context Model for Efficient Learned Image
Compression [70.0411436929495]
学習された画像圧縮のフレームワークでは、コンテキストモデルは潜在表現間の依存関係をキャプチャする上で重要な役割を果たす。
本研究では,textbfCorner-to-Center 変換器を用いたコンテキストモデル (C$3$M) を提案する。
また,解析および合成変換における受容場を拡大するために,エンコーダ/デコーダのLong-range Crossing Attention Module (LCAM) を用いる。
論文 参考訳(メタデータ) (2023-11-29T21:40:28Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Lossy Image Compression with Conditional Diffusion Models [25.158390422252097]
本稿では,拡散生成モデルを用いた画像圧縮のエンドツーエンド最適化について概説する。
VAEベースのニューラル圧縮とは対照的に、(平均)デコーダは決定論的ニューラルネットワークであり、私たちのデコーダは条件付き拡散モデルである。
提案手法では,GANモデルよりもFIDスコアが強く,VAEモデルとの競合性能も高い。
論文 参考訳(メタデータ) (2022-09-14T21:53:27Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - Neural Data-Dependent Transform for Learned Image Compression [72.86505042102155]
ニューラルデータに依存した変換を構築し,各画像の符号化効率を最適化する連続オンラインモード決定機構を導入する。
実験の結果,提案したニューラルシンタクス設計と連続オンラインモード決定機構の有効性が示された。
論文 参考訳(メタデータ) (2022-03-09T14:56:48Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - Novel View Synthesis on Unpaired Data by Conditional Deformable
Variational Auto-Encoder [20.230974274093775]
本稿では, ペアデータを必要としない, cVAE-GAN フレームワーク下でのビュー変換モデルを提案する。
本稿では,VAEのメインブランチの特徴マップを畳み込むために,ビュー条件ベクトルをフィルタとして利用する条件変形モジュール(CDM)を設計する。
結果は、デフォルメされた機能ベースの正規化モジュール(DFNM)に入力され、サイドブランチからの入力として、メインブランチの機能をスケールしてオフセットする。
論文 参考訳(メタデータ) (2020-07-21T06:44:01Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Toward a Controllable Disentanglement Network [22.968760397814993]
本稿では, 画像編集における歪みの程度を制御し, 歪み強度と復元品質のバランスをとることにより, 歪み画像表現を学習する2つの重要な問題に対処する。
ソフトターゲット表現の実際の値空間を探索することにより、指定された特性を持つ新規な画像を合成することができる。
論文 参考訳(メタデータ) (2020-01-22T16:54:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。