論文の概要: Novel View Synthesis from only a 6-DoF Camera Pose by Two-stage Networks
- arxiv url: http://arxiv.org/abs/2010.11468v1
- Date: Thu, 22 Oct 2020 06:23:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 06:49:22.465791
- Title: Novel View Synthesis from only a 6-DoF Camera Pose by Two-stage Networks
- Title(参考訳): 2段階ネットワークによる6-DoFカメラポッドのみからの新規ビュー合成
- Authors: Xiang Guo, Bo Li, Yuchao Dai, Tongxin Zhang, Hui Deng
- Abstract要約: 新しいビュー合成はコンピュータビジョンとロボティクスにおいて難しい問題である。
我々は、6-DoFカメラのみのポーズから新しいビューを直接合成する。
我々は、GenNetとRefineNetの2つの連続したCNNからなる2段階学習戦略を提案する。
- 参考スコア(独自算出の注目度): 28.306511684171774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis is a challenging problem in computer vision and
robotics. Different from the existing works, which need the reference images or
3D models of the scene to generate images under novel views, we propose a novel
paradigm to this problem. That is, we synthesize the novel view from only a
6-DoF camera pose directly. Although this setting is the most straightforward
way, there are few works addressing it. While, our experiments demonstrate
that, with a concise CNN, we could get a meaningful parametric model that could
reconstruct the correct scenery images only from the 6-DoF pose. To this end,
we propose a two-stage learning strategy, which consists of two consecutive
CNNs: GenNet and RefineNet. GenNet generates a coarse image from a camera pose.
RefineNet is a generative adversarial network that refines the coarse image. In
this way, we decouple the geometric relationship between mapping and texture
detail rendering. Extensive experiments conducted on the public datasets prove
the effectiveness of our method. We believe this paradigm is of high research
and application value and could be an important direction in novel view
synthesis.
- Abstract(参考訳): 新しいビュー合成はコンピュータビジョンとロボティクスにおいて難しい問題である。
そこで本研究では,映像生成のための参照画像や3dモデルを必要とする既存の作品とは異なり,この問題に対する新しいパラダイムを提案する。
すなわち、6-DoFカメラのみのポーズから、新しいビューを直接合成する。
この設定は最も簡単な方法ですが、対処する作業はほとんどありません。
実験では、簡潔なcnnを使えば、6dofのポーズだけで正確な風景画像を再現できる有意義なパラメトリックモデルが得られることを実証しました。
そこで我々は,GenNetとRefineNetの2つの連続したCNNからなる2段階学習戦略を提案する。
GenNetはカメラのポーズから粗い画像を生成する。
RefineNetは、粗い画像を洗練する生成的敵ネットワークである。
このように、マッピングとテクスチャディテールレンダリングの間の幾何学的関係を分離する。
公開データセットを用いた大規模な実験により,本手法の有効性が証明された。
我々は、このパラダイムは高い研究と応用価値を持ち、新しい視点合成の重要な方向性であると考えている。
関連論文リスト
- GenWarp: Single Image to Novel Views with Semantic-Preserving Generative Warping [47.38125925469167]
一つの画像から新しいビューを生成するための意味保存型生成ワープフレームワークを提案する。
提案手法は,ソースビューイメージに生成モデルを条件付けすることで,既存の手法の限界に対処する。
我々のモデルは、ドメイン内シナリオとドメイン外シナリオの両方において、既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-05-27T15:07:04Z) - FSViewFusion: Few-Shots View Generation of Novel Objects [75.81872204650807]
本研究では,3次元前処理を伴わないビュー合成のための事前訓練された安定拡散モデルを提案する。
具体的には,Dreamboothという画像モデルを用いたパーソナライズされたテキストに基づく手法を提案する。
ビューの概念は、ビューが学習された元のオブジェクトの識別に関係なく、アンタングル化され、新しいオブジェクトに転送可能であることを確認します。
論文 参考訳(メタデータ) (2024-03-11T02:59:30Z) - ReShader: View-Dependent Highlights for Single Image View-Synthesis [5.736642774848791]
本稿では,ビュー合成過程を画素再構成と再配置の2つの独立したタスクに分割することを提案する。
再構成の過程では,1枚の画像を入力とし,新しいカメラに基づいてシェーディングを調整する。
そして、この再構成画像を既存のビュー合成法の入力として使用し、画素を移動させ、最終的な新規なビュー画像を生成する。
論文 参考訳(メタデータ) (2023-09-19T15:23:52Z) - RUST: Latent Neural Scene Representations from Unposed Imagery [21.433079925439234]
2次元観察から3次元シーンの構造を推定することは、コンピュータビジョンにおける根本的な課題である。
ニューラルシーン表現に基づく最近の普及したアプローチは、非常に大きな影響を与えている。
RUST(Really Unposed Scene representation Transformer)は、RGB画像だけで訓練された新しいビューに対するポーズレスアプローチである。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - One-Shot Neural Fields for 3D Object Understanding [112.32255680399399]
ロボット工学のための統一的でコンパクトなシーン表現を提案する。
シーン内の各オブジェクトは、幾何学と外観をキャプチャする潜在コードによって描写される。
この表現は、新しいビューレンダリングや3D再構成、安定した把握予測といった様々なタスクのためにデコードできる。
論文 参考訳(メタデータ) (2022-10-21T17:33:14Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - ViewFormer: NeRF-free Neural Rendering from Few Images Using
Transformers [34.4824364161812]
新たなビュー合成は、シーンやオブジェクトをスパースにカバーする少数のコンテキストビューしか与えられない、という問題です。
ゴールはシーンにおける新しい視点を予測することであり、これは学習の事前を必要とする。
ニューラルネットワークの単一パスにおいて,複数のコンテキストビューとクエリのポーズを新しい画像にマッピングする2Dのみの手法を提案する。
論文 参考訳(メタデータ) (2022-03-18T21:08:23Z) - CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。
テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文 参考訳(メタデータ) (2021-03-31T17:59:24Z) - Deep View Synthesis via Self-Consistent Generative Network [41.34461086700849]
ビュー合成は、2つ以上のカメラが異なる位置で捉えた一連のビューから目に見えないビューを生成することを目的としている。
この問題に対処するために、ほとんどの既存の方法はピクセルに一致する幾何学的情報を利用しようとします。
本稿では,幾何学的情報を明示的に活用することなく,新たなビューを合成する自己持続生成ネットワーク(SCGN)を提案する。
論文 参考訳(メタデータ) (2021-01-19T10:56:00Z) - Free View Synthesis [100.86844680362196]
本稿では,シーンの周囲に自由に分布する入力画像から新規なビュー合成手法を提案する。
本手法は,入力ビューの規則的な配置に依存しず,シーンを通して自由なカメラ運動のための画像の合成が可能であり,制約のない幾何学的レイアウトの一般的な場面で機能する。
論文 参考訳(メタデータ) (2020-08-12T18:16:08Z) - Continuous Object Representation Networks: Novel View Synthesis without
Target View Supervision [26.885846254261626]
連続オブジェクト表現ネットワーク(Continuous Object Representation Networks、CORN)は、入力画像の幾何学と外観を3D一貫したシーン表現にマッピングする条件付きアーキテクチャである。
CORNは、新しいビューの合成やシングルビューの3D再構成、そして直接監督を使用する最先端のアプローチに匹敵するパフォーマンスといった挑戦的なタスクでうまく機能する。
論文 参考訳(メタデータ) (2020-07-30T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。