論文の概要: Deep Learning based Novel View Synthesis
- arxiv url: http://arxiv.org/abs/2107.06812v1
- Date: Wed, 14 Jul 2021 16:15:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-15 16:59:32.868802
- Title: Deep Learning based Novel View Synthesis
- Title(参考訳): 深層学習に基づく新しい視点合成
- Authors: Amit More and Subhasis Chaudhuri
- Abstract要約: 本稿では,与えられた画像の集合からシーンの新たなビューを予測することを学ぶディープ畳み込みニューラルネットワーク(CNN)を提案する。
従来の深層学習に基づくアプローチと比較して、新しいビューを予測するために一定数の入力画像しか処理できないのに対し、提案手法は異なる入力画像で機能する。
- 参考スコア(独自算出の注目度): 18.363945964373553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Predicting novel views of a scene from real-world images has always been a
challenging task. In this work, we propose a deep convolutional neural network
(CNN) which learns to predict novel views of a scene from given collection of
images. In comparison to prior deep learning based approaches, which can handle
only a fixed number of input images to predict novel view, proposed approach
works with different numbers of input images. The proposed model explicitly
performs feature extraction and matching from a given pair of input images and
estimates, at each pixel, the probability distribution (pdf) over possible
depth levels in the scene. This pdf is then used for estimating the novel view.
The model estimates multiple predictions of novel view, one estimate per input
image pair, from given image collection. The model also estimates an occlusion
mask and combines multiple novel view estimates in to a single optimal
prediction. The finite number of depth levels used in the analysis may cause
occasional blurriness in the estimated view. We mitigate this issue with simple
multi-resolution analysis which improves the quality of the estimates. We
substantiate the performance on different datasets and show competitive
performance.
- Abstract(参考訳): 現実世界の画像からシーンの新しいビューを予測することは、常に難しい作業でした。
本研究では,与えられた画像の集合からシーンの新たなビューを予測することを学ぶディープ畳み込みニューラルネットワーク(CNN)を提案する。
従来の深層学習に基づくアプローチと比較して、新しいビューを予測するために一定数の入力画像しか処理できないのに対し、提案手法は異なる入力画像で機能する。
提案モデルでは、与えられた入力画像から特徴抽出とマッチングを行い、各画素において、シーン内の可能な深さレベルの確率分布(pdf)を推定する。
このpdfは、新しいビューを推定するために使われる。
モデルは、与えられた画像収集から、入力画像ペアあたりの1つの推定値である、新規ビューの複数の予測を推定する。
モデルはまた、オクルージョンマスクを推定し、複数の新しいビュー推定を1つの最適な予測に組み合わせる。
この分析で使用される深度は、推定されたビューで時折曖昧になる可能性がある。
我々は,この問題を簡易なマルチレゾリューション解析によって軽減し,推定の質を向上させる。
異なるデータセットで性能を確認し、競争力のある性能を示す。
関連論文リスト
- Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - VaLID: Variable-Length Input Diffusion for Novel View Synthesis [36.57742242154048]
新たなビュー合成(NVS)は、3次元ビジョンの基本的な問題である。
それぞれのポーズ画像ペアを別々に処理し、それらを統一された視覚表現として融合させ、モデルに注入する。
可変長入力データを固定サイズ出力データにマッピングする多視点クロス前置モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-14T12:52:53Z) - Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - im2nerf: Image to Neural Radiance Field in the Wild [47.18702901448768]
im2nerfは、野生の1つの入力イメージが与えられた連続的な神経オブジェクト表現を予測する学習フレームワークである。
Im2nerfは、野生の単視未表示画像から新しいビューを合成するための最先端性能を実現する。
論文 参考訳(メタデータ) (2022-09-08T23:28:56Z) - Multi-View Depth Estimation by Fusing Single-View Depth Probability with
Multi-View Geometry [25.003116148843525]
多視点幾何を用いて一視点深度確率を融合するフレームワークであるMaGNetを提案する。
MaGNet は ScanNet, 7-Scenes, KITTI で最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-12-15T14:56:53Z) - Self-Supervised Visibility Learning for Novel View Synthesis [79.53158728483375]
従来のレンダリング方法はシーン形状を推定し、2つの別々のステップで新しいビューを合成します。
エラー伝搬問題を排除するために,エンドツーエンドのNVSフレームワークを提案する。
当社のネットワークはエンドツーエンドのセルフ監視方式でトレーニングされており、ビュー合成におけるエラーの蓄積を大幅に軽減します。
論文 参考訳(メタデータ) (2021-03-29T08:11:25Z) - A Lightweight Neural Network for Monocular View Generation with
Occlusion Handling [46.74874316127603]
1枚の画像からビュー合成を行うステレオデータペアに基づいて訓練された,非常に軽量なニューラルネットワークアーキテクチャを提案する。
この作業は、挑戦的なKITTIデータセットにおいて、視覚的および計量的に最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2020-07-24T15:29:01Z) - Sequential View Synthesis with Transformer [13.200139959163574]
学習した表現に基づいて、ターゲットビューを含む画像シーケンスを予測するシーケンシャルレンダリングデコーダを導入する。
我々は、様々な挑戦的なデータセットでモデルを評価し、モデルが一貫性のある予測を与えるだけでなく、微調整のための再トレーニングも必要としないことを示した。
論文 参考訳(メタデータ) (2020-04-09T14:15:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。