論文の概要: Coordinates Are NOT Lonely -- Codebook Prior Helps Implicit Neural 3D
Representations
- arxiv url: http://arxiv.org/abs/2210.11170v2
- Date: Fri, 21 Oct 2022 04:51:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 11:04:27.885105
- Title: Coordinates Are NOT Lonely -- Codebook Prior Helps Implicit Neural 3D
Representations
- Title(参考訳): 座標は孤独ではない -- codebook priorは暗黙の3d表現を助ける
- Authors: Fukun Yin, Wen Liu, Zilong Huang, Pei Cheng, Tao Chen, Gang YU
- Abstract要約: 暗黙的な3D表現は、表面やシーンの再構築や新しいビュー合成において、印象的な成果を上げている。
ニューラル・レージアンス・フィールド(Neural Radiance Field、NeRF)とその変種のような既存のアプローチは、通常、密度の高い入力ビューを必要とする。
暗黙的な3次元表現のための座標モデルCoCo-INRを提案する。
- 参考スコア(独自算出の注目度): 29.756718435405983
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Implicit neural 3D representation has achieved impressive results in surface
or scene reconstruction and novel view synthesis, which typically uses the
coordinate-based multi-layer perceptrons (MLPs) to learn a continuous scene
representation. However, existing approaches, such as Neural Radiance Field
(NeRF) and its variants, usually require dense input views (i.e. 50-150) to
obtain decent results. To relive the over-dependence on massive calibrated
images and enrich the coordinate-based feature representation, we explore
injecting the prior information into the coordinate-based network and introduce
a novel coordinate-based model, CoCo-INR, for implicit neural 3D
representation. The cores of our method are two attention modules: codebook
attention and coordinate attention. The former extracts the useful prototypes
containing rich geometry and appearance information from the prior codebook,
and the latter propagates such prior information into each coordinate and
enriches its feature representation for a scene or object surface. With the
help of the prior information, our method can render 3D views with more
photo-realistic appearance and geometries than the current methods using fewer
calibrated images available. Experiments on various scene reconstruction
datasets, including DTU and BlendedMVS, and the full 3D head reconstruction
dataset, H3DS, demonstrate the robustness under fewer input views and fine
detail-preserving capability of our proposed method.
- Abstract(参考訳): 暗黙的な3D表現は、表面やシーンの再構成や新しいビュー合成において印象的な成果を上げており、通常は座標ベースの多層パーセプトロン(MLP)を用いて連続的なシーン表現を学習している。
しかし、Neural Radiance Field(NeRF)やその変種のような既存のアプローチでは、適切な結果を得るためには、高密度な入力ビュー(50-150)が必要である。
大規模キャリブレーション画像に過度に依存し,座標に基づく特徴表現を充実させるため,座標ベースネットワークに事前情報を注入し,暗黙的な3次元表現のための新しい座標ベースモデルCoCo-INRを導入する。
本手法の核となるものは2つの注意モジュールである。
前者は、前のコードブックからリッチな幾何学と外観情報を含む有用なプロトタイプを抽出し、後者は、これらの事前情報を各座標に伝播し、シーンまたはオブジェクト表面の特徴表現を充実させる。
先行情報を利用することで,より少ない校正画像を用いて,現在の手法よりも,よりリアルな外観とジオメトリを持った3dビューをレンダリングできる。
DTU や BlendedMVS などのシーン再構成データセットとフル3次元頭部再構成データセット H3DS を用いた実験により,より少ない入力ビュー下での堅牢性と,提案手法の詳細な保存能力を示す。
関連論文リスト
- N-BVH: Neural ray queries with bounding volume hierarchies [51.430495562430565]
3Dコンピュータグラフィックスでは、シーンのメモリ使用量の大部分がポリゴンとテクスチャによるものである。
N-BVHは3次元の任意の光線クエリに応答するように設計されたニューラル圧縮アーキテクチャである。
本手法は, 視認性, 深度, 外観特性を忠実に近似する。
論文 参考訳(メタデータ) (2024-05-25T13:54:34Z) - DNS SLAM: Dense Neural Semantic-Informed SLAM [92.39687553022605]
DNS SLAMは、ハイブリッド表現を備えた新しいRGB-DセマンティックSLAMアプローチである。
本手法は画像に基づく特徴抽出と多視点幾何制約を統合し,外観の細部を改良する。
実験により, 合成データと実世界のデータ追跡の両面において, 最先端の性能が得られた。
論文 参考訳(メタデータ) (2023-11-30T21:34:44Z) - Learning Personalized High Quality Volumetric Head Avatars from
Monocular RGB Videos [47.94545609011594]
本研究では,野生で撮影されたモノクロRGBビデオから高品質な3次元頭部アバターを学習する方法を提案する。
我々のハイブリッドパイプラインは、3DMMの幾何学的先行と動的追跡とニューラルラディアンス場を組み合わせることで、きめ細かい制御とフォトリアリズムを実現する。
論文 参考訳(メタデータ) (2023-04-04T01:10:04Z) - Neural Capture of Animatable 3D Human from Monocular Video [38.974181971541846]
本稿では,モノクラービデオ入力からアニマタブルな3次元人間の表現を構築するための新しいパラダイムを提案する。
本手法は,メッシュをベースとしたパラメトリックな3次元人体モデルを用いた動的ニューラルレージアンス場(NeRF)に基づく。
論文 参考訳(メタデータ) (2022-08-18T09:20:48Z) - Neural Groundplans: Persistent Neural Scene Representations from a
Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。
本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文 参考訳(メタデータ) (2022-07-22T17:41:24Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - H3D-Net: Few-Shot High-Fidelity 3D Head Reconstruction [27.66008315400462]
表面形状を暗黙的に表現する最近の学習手法は、多視点3次元再構成の問題において顕著な結果を示している。
我々はこれらの制限を,数発のフル3次元頭部再構成の特定の問題に対処する。
暗黙の表現を用いて,数千個の不完全な生スキャンから3次元頭部形状モデルを学習する。
論文 参考訳(メタデータ) (2021-07-26T23:04:18Z) - Light Field Networks: Neural Scene Representations with
Single-Evaluation Rendering [60.02806355570514]
2次元観察から3Dシーンの表現を推定することは、コンピュータグラフィックス、コンピュータビジョン、人工知能の基本的な問題である。
そこで我々は,360度4次元光場における基礎となる3次元シーンの形状と外観の両面を表現した新しいニューラルシーン表現,光場ネットワーク(LFN)を提案する。
LFNからレイをレンダリングするには*single*ネットワークの評価しか必要としない。
論文 参考訳(メタデータ) (2021-06-04T17:54:49Z) - Hybrid Approach for 3D Head Reconstruction: Using Neural Networks and
Visual Geometry [3.970492757288025]
本稿では,深層学習と幾何学的手法に基づくハイブリッド手法を用いて,複数の画像から3次元頭部を再構築する手法を提案する。
U-netアーキテクチャに基づくエンコーダデコーダネットワークを提案し、合成データのみを学習する。
論文 参考訳(メタデータ) (2021-04-28T11:31:35Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。