論文の概要: P2I-NET: Mapping Camera Pose to Image via Adversarial Learning for New
View Synthesis in Real Indoor Environments
- arxiv url: http://arxiv.org/abs/2309.15526v1
- Date: Wed, 27 Sep 2023 09:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 14:25:32.131416
- Title: P2I-NET: Mapping Camera Pose to Image via Adversarial Learning for New
View Synthesis in Real Indoor Environments
- Title(参考訳): P2I-NET:実環境における新しいビュー合成のための逆学習による画像へのカメラのマッピング
- Authors: Xujie Kang and Kanglin Liu and Jiang Duan and Yuanhao Gong and Guoping
Qiu
- Abstract要約: 本稿では,条件付き生成対向ニューラルネットワーク(P2I-NET)を提案する。
生成された画像のポーズと対応する実世界の画像との一貫性を強制する2つの補助判別器制約を導入する。
我々は屋内の実際のデータセットに対して、広範囲に新しいビュー合成実験を行った。
- 参考スコア(独自算出の注目度): 18.850016235379854
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Given a new $6DoF$ camera pose in an indoor environment, we study the
challenging problem of predicting the view from that pose based on a set of
reference RGBD views. Existing explicit or implicit 3D geometry construction
methods are computationally expensive while those based on learning have
predominantly focused on isolated views of object categories with regular
geometric structure. Differing from the traditional \textit{render-inpaint}
approach to new view synthesis in the real indoor environment, we propose a
conditional generative adversarial neural network (P2I-NET) to directly predict
the new view from the given pose. P2I-NET learns the conditional distribution
of the images of the environment for establishing the correspondence between
the camera pose and its view of the environment, and achieves this through a
number of innovative designs in its architecture and training lost function.
Two auxiliary discriminator constraints are introduced for enforcing the
consistency between the pose of the generated image and that of the
corresponding real world image in both the latent feature space and the real
world pose space. Additionally a deep convolutional neural network (CNN) is
introduced to further reinforce this consistency in the pixel space. We have
performed extensive new view synthesis experiments on real indoor datasets.
Results show that P2I-NET has superior performance against a number of NeRF
based strong baseline models. In particular, we show that P2I-NET is 40 to 100
times faster than these competitor techniques while synthesising similar
quality images. Furthermore, we contribute a new publicly available indoor
environment dataset containing 22 high resolution RGBD videos where each frame
also has accurate camera pose parameters.
- Abstract(参考訳): 屋内環境での新しい6ドル(約6,700円)のカメラポーズを考えると、rgbdの参照ビューのセットに基づいて、そのポーズからのビューを予測するという難題について検討する。
既存の明示的あるいは暗黙的な3次元幾何構成法は計算コストが高いが、学習に基づくものは、通常の幾何学構造を持つ対象カテゴリーの独立した視点に主に焦点を当てている。
本稿では,実環境における新しい視点合成に対する従来の \textit{render-inpaint} アプローチと異なり,条件付き生成型逆向ニューラルネットワーク (p2i-net) を提案する。
p2i-netは、カメラポーズとその環境観との対応を確立するための環境イメージの条件分布を学習し、そのアーキテクチャとトレーニングの失われた機能において、多くの革新的な設計を通してこれを達成する。
潜在特徴空間と実世界のポーズ空間の両方において、生成された画像のポーズと対応する実世界の画像との一貫性を強制する2つの補助判別器制約を導入する。
さらに、ピクセル空間におけるこの一貫性をさらに強化するために、ディープ畳み込みニューラルネットワーク(CNN)が導入されている。
我々は,実屋内データセットを用いた広範囲な新しい視点合成実験を行った。
その結果、P2I-NETは、多くのNeRFベースベースラインモデルよりも優れた性能を示した。
特に,p2i-netは,類似した品質画像の合成をしながら,これらの競合技術よりも40倍から100倍高速であることを示す。
さらに,各フレームが正確なカメラポーズパラメータを持つ22の高解像度rgbdビデオを含む,新たに公開された屋内環境データセットも提供した。
関連論文リスト
- REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Inverting the Imaging Process by Learning an Implicit Camera Model [73.81635386829846]
本稿では,ディープニューラルネットワークとしてのカメラの物理画像処理を表現した,新しい暗黙カメラモデルを提案する。
本稿では,この暗黙カメラモデルが2つの逆撮像タスクに与える影響を実演する。
論文 参考訳(メタデータ) (2023-04-25T11:55:03Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - SPARF: Neural Radiance Fields from Sparse and Noisy Poses [58.528358231885846]
SPARF(Sparse Pose Adjusting Radiance Field)を導入し,新規な視点合成の課題に対処する。
提案手法は、NeRFを共同学習し、カメラのポーズを洗練するために、多視点幾何学的制約を利用する。
論文 参考訳(メタデータ) (2022-11-21T18:57:47Z) - Structure-Aware NeRF without Posed Camera via Epipolar Constraint [8.115535686311249]
リアルなノベルビュー合成のためのニューラル・ラディアンス・フィールド(NeRF)は、カメラのポーズを事前に取得する必要がある。
ポーズ抽出とビュー合成を1つのエンドツーエンドの手順に統合し、それらが相互に利益を得ることができるようにします。
論文 参考訳(メタデータ) (2022-10-01T03:57:39Z) - DFNet: Enhance Absolute Pose Regression with Direct Feature Matching [16.96571417692014]
絶対ポーズ回帰(APR)と直接特徴マッチングを組み合わせたカメラ再局在パイプラインを導入する。
提案手法は,既存の1画像のAPR手法を最大56%上回る精度で3次元構造法に匹敵する精度を実現する。
論文 参考訳(メタデータ) (2022-04-01T16:39:16Z) - OSLO: On-the-Sphere Learning for Omnidirectional images and its
application to 360-degree image compression [59.58879331876508]
全方向画像の表現モデルの学習について検討し、全方向画像の深層学習モデルで使用される数学的ツールを再定義するために、HEALPixの球面一様サンプリングの特性を利用することを提案する。
提案したオン・ザ・スフィア・ソリューションは、等方形画像に適用された類似の学習モデルと比較して、13.7%のビットレートを節約できる圧縮ゲインを向上させる。
論文 参考訳(メタデータ) (2021-07-19T22:14:30Z) - Adversarial Generation of Continuous Images [31.92891885615843]
本稿では,INRに基づく画像デコーダ構築のための2つの新しいアーキテクチャ手法を提案する。
私たちは、最先端の連続画像GANを構築するためにそれらを使用します。
提案したINR-GANアーキテクチャは連続画像生成装置の性能を数倍改善する。
論文 参考訳(メタデータ) (2020-11-24T11:06:40Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z) - Seeing the World in a Bag of Chips [73.561388215585]
ハンドヘルドRGBDセンサによる新しいビュー合成と環境再構築の二重問題に対処する。
提案するコントリビューションは,1)高スペクトル物体のモデリング,2)反射間およびフレネル効果のモデリング,3)形状のみを再構築するために必要な同じ入力で表面光場再構成を可能にすることを含む。
論文 参考訳(メタデータ) (2020-01-14T06:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。