論文の概要: Content-aware Warping for View Synthesis
- arxiv url: http://arxiv.org/abs/2201.09023v1
- Date: Sat, 22 Jan 2022 11:35:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-28 09:13:39.414269
- Title: Content-aware Warping for View Synthesis
- Title(参考訳): ビュー合成のためのコンテンツアウェアワーピング
- Authors: Mantang Guo, Jing Jin, Hui Liu, Junhui Hou, Huanqiang Zeng, Jiwen Lu
- Abstract要約: 本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
- 参考スコア(独自算出の注目度): 110.54435867693203
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing image-based rendering methods usually adopt depth-based image
warping operation to synthesize novel views. In this paper, we reason the
essential limitations of the traditional warping operation to be the limited
neighborhood and only distance-based interpolation weights. To this end, we
propose content-aware warping, which adaptively learns the interpolation
weights for pixels of a relatively large neighborhood from their contextual
information via a lightweight neural network. Based on this learnable warping
module, we propose a new end-to-end learning-based framework for novel view
synthesis from two input source views, in which two additional modules, namely
confidence-based blending and feature-assistant spatial refinement, are
naturally proposed to handle the occlusion issue and capture the spatial
correlation among pixels of the synthesized view, respectively. Besides, we
also propose a weight-smoothness loss term to regularize the network.
Experimental results on structured light field datasets with wide baselines and
unstructured multi-view datasets show that the proposed method significantly
outperforms state-of-the-art methods both quantitatively and visually. The
source code will be publicly available at https://github.com/MantangGuo/CW4VS.
- Abstract(参考訳): 既存の画像ベースのレンダリング手法は通常、新しいビューを合成するために深度ベースの画像ワープ操作を採用する。
本稿では, 従来の整流操作の限界を, 距離に基づく補間重みのみで, 限定的な近傍と推定する。
そこで本研究では,比較的大きな近傍の画素の補間重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つの入力元ビューからの新しいビュー合成のための新しいエンドツーエンドの学習ベースフレームワークを提案する。これは、信頼に基づくブレンディングと特徴的空間改善という2つの追加モジュールを自然に提案し、その閉塞問題に対処し、合成されたビューの画素間の空間的相関をキャプチャする。
また,ネットワークを正規化するための減量損失項も提案する。
広いベースラインと非構造化マルチビューデータセットを持つ構造化光フィールドデータセットの実験結果は、提案手法が定量的および視覚的に最先端の手法を大幅に上回っていることを示している。
ソースコードはhttps://github.com/MantangGuo/CW4VSで公開されている。
関連論文リスト
- DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Explicit Correspondence Matching for Generalizable Neural Radiance
Fields [49.49773108695526]
本稿では,新たな未知のシナリオに一般化し,2つのソースビューで新規なビュー合成を行う新しいNeRF手法を提案する。
明瞭な対応マッチングは、異なるビュー上の3Dポイントの2次元投影でサンプリングされた画像特徴間のコサイン類似度と定量化される。
実験では,実験結果から得られたコサイン特徴の類似性と体積密度との間に強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-04-24T17:46:01Z) - USegScene: Unsupervised Learning of Depth, Optical Flow and Ego-Motion
with Semantic Guidance and Coupled Networks [31.600708674008384]
UegSceneは、ステレオカメラ画像の奥行き、光学的流れ、エゴモーション推定を意味的に導くためのフレームワークである。
一般的なKITTIデータセットを用いて,提案手法が他の手法よりも大きなマージンで優れていることを示す。
論文 参考訳(メタデータ) (2022-07-15T13:25:47Z) - Modeling Image Composition for Complex Scene Generation [77.10533862854706]
本稿では,レイアウト・ツー・イメージ生成タスクにおける最先端結果を実現する手法を提案する。
本稿では,RGB画像をパッチトークンに圧縮した後,オブジェクト・トゥ・オブジェクト,オブジェクト・トゥ・パッチ,パッチ・トゥ・パッチの依存関係を探索するTransformer with Focal Attention (TwFA)を提案する。
論文 参考訳(メタデータ) (2022-06-02T08:34:25Z) - Learning Dynamic Interpolation for Extremely Sparse Light Fields with
Wide Baselines [42.59723383219793]
本稿では、一般的な幾何学的ワープ操作を置き換えるための学習可能なモデル、すなわち動的再構成を提案する。
実験の結果,再建したLF重みはPSNR/SSIMよりもはるかに高い値を示し,LFパララックス構造は最先端の手法よりも良好であることがわかった。
論文 参考訳(メタデータ) (2021-08-17T02:20:03Z) - BoundarySqueeze: Image Segmentation as Boundary Squeezing [104.43159799559464]
本研究では,オブジェクトとシーンの微細な高画質画像分割のための新しい手法を提案する。
形態素画像処理技術による拡張と浸食に着想を得て,画素レベルのセグメンテーション問題をスクイーズ対象境界として扱う。
提案手法は,COCO,Cityscapesのインスタンス・セグメンテーション・セグメンテーション・セグメンテーションにおいて大きく向上し,同一条件下での精度・速度ともに従来のPointRendよりも優れていた。
論文 参考訳(メタデータ) (2021-05-25T04:58:51Z) - Bridging the Visual Gap: Wide-Range Image Blending [16.464837892640812]
広域画像ブレンドを実現するための効果的なディープラーニングモデルを提案する。
提案手法が視覚的に魅力的な結果をもたらすことを実験的に実証した。
論文 参考訳(メタデータ) (2021-03-28T15:07:45Z) - Light Field View Synthesis via Aperture Disparity and Warping Confidence
Map [47.046276641506786]
本稿では,スパース画像の集合から任意のカメラ位置からビューを合成するための学習的アプローチを提案する。
この新たなビュー合成の鍵となる課題は、異なる入力画像からのビューが光路の障害物のために一貫性がない場合の再構成プロセスから生じる。
論文 参考訳(メタデータ) (2020-09-07T09:46:01Z) - Contextual Encoder-Decoder Network for Visual Saliency Prediction [42.047816176307066]
本稿では,大規模な画像分類タスクに基づいて事前学習した畳み込みニューラルネットワークに基づくアプローチを提案する。
得られた表現をグローバルなシーン情報と組み合わせて視覚的サリエンシを正確に予測する。
最先端技術と比較して、このネットワークは軽量な画像分類バックボーンに基づいている。
論文 参考訳(メタデータ) (2019-02-18T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。