論文の概要: ACORN: Adaptive Coordinate Networks for Neural Scene Representation
- arxiv url: http://arxiv.org/abs/2105.02788v1
- Date: Thu, 6 May 2021 16:21:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-07 13:32:15.019003
- Title: ACORN: Adaptive Coordinate Networks for Neural Scene Representation
- Title(参考訳): ACORN: ニューラルシーン表現のための適応コーディネートネットワーク
- Authors: Julien N. P. Martel, David B. Lindell, Connor Z. Lin, Eric R. Chan,
Marco Monteiro and Gordon Wetzstein
- Abstract要約: 現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。
トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。
ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
- 参考スコア(独自算出の注目度): 40.04760307540698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural representations have emerged as a new paradigm for applications in
rendering, imaging, geometric modeling, and simulation. Compared to traditional
representations such as meshes, point clouds, or volumes they can be flexibly
incorporated into differentiable learning-based pipelines. While recent
improvements to neural representations now make it possible to represent
signals with fine details at moderate resolutions (e.g., for images and 3D
shapes), adequately representing large-scale or complex scenes has proven a
challenge. Current neural representations fail to accurately represent images
at resolutions greater than a megapixel or 3D scenes with more than a few
hundred thousand polygons. Here, we introduce a new hybrid implicit-explicit
network architecture and training strategy that adaptively allocates resources
during training and inference based on the local complexity of a signal of
interest. Our approach uses a multiscale block-coordinate decomposition,
similar to a quadtree or octree, that is optimized during training. The network
architecture operates in two stages: using the bulk of the network parameters,
a coordinate encoder generates a feature grid in a single forward pass. Then,
hundreds or thousands of samples within each block can be efficiently evaluated
using a lightweight feature decoder. With this hybrid implicit-explicit network
architecture, we demonstrate the first experiments that fit gigapixel images to
nearly 40 dB peak signal-to-noise ratio. Notably this represents an increase in
scale of over 1000x compared to the resolution of previously demonstrated
image-fitting experiments. Moreover, our approach is able to represent 3D
shapes significantly faster and better than previous techniques; it reduces
training times from days to hours or minutes and memory requirements by over an
order of magnitude.
- Abstract(参考訳): ニューラルネットワーク表現は、レンダリング、イメージング、幾何モデリング、シミュレーションといった応用の新しいパラダイムとして登場した。
メッシュやポイントクラウド、ボリュームといった従来の表現と比較して、異なる学習ベースのパイプラインに柔軟に組み込むことができる。
ニューラル表現の最近の改良により、適度な解像度(画像や3D形状など)で詳細な信号の表現が可能になったが、大規模なシーンや複雑なシーンを適切に表現することは困難であることが証明されている。
現在のニューラル表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度の画像を正確に表現することができない。
本稿では,興味のある信号の局所的複雑性に基づいて,トレーニングや推論中にリソースを適応的に割り当てる,新たなハイブリッドネットワークアーキテクチャとトレーニング戦略を提案する。
我々のアプローチでは、トレーニング中に最適化されたクワッドツリーやoctreeに似た、マルチスケールのブロック座標分解を用いる。
ネットワークアーキテクチャは2段階で動作する: ネットワークパラメータの大部分を使用して、座標エンコーダは単一のフォワードパスで特徴グリッドを生成する。
次に、軽量な特徴デコーダを用いて、ブロック内の数百から数千のサンプルを効率的に評価することができる。
このハイブリッドネットワークアーキテクチャにより、ギガピクセル画像を40dbのピーク信号対雑音比に適合させる最初の実験を実証する。
特にこれは、以前実証された画像フィッティング実験の解像度と比べて1000倍以上のスケールの増加を示している。
さらに,従来の手法よりも大幅に高速で優れた3d形状を表現することが可能であり,トレーニング時間を数日から数時間に短縮し,メモリ要件を1桁以上削減する。
関連論文リスト
- N-BVH: Neural ray queries with bounding volume hierarchies [51.430495562430565]
3Dコンピュータグラフィックスでは、シーンのメモリ使用量の大部分がポリゴンとテクスチャによるものである。
N-BVHは3次元の任意の光線クエリに応答するように設計されたニューラル圧縮アーキテクチャである。
本手法は, 視認性, 深度, 外観特性を忠実に近似する。
論文 参考訳(メタデータ) (2024-05-25T13:54:34Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。
本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。
エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文 参考訳(メタデータ) (2022-08-03T02:25:55Z) - CoordX: Accelerating Implicit Neural Representation with a Split MLP
Architecture [2.6912336656165805]
多層パーセプトロン(MLP)を用いた暗黙の神経表現は、近年、様々なタスクで注目されている。
座標に基づく表現の推論と訓練を高速化する新しい分割アーキテクチャであるCoordXを提案する。
画像,映像,3次元形状表現および描画タスクのベースラインモデルと比較して,最大2.92倍のスピードアップを示す。
論文 参考訳(メタデータ) (2022-01-28T21:30:42Z) - Meta-Learning Sparse Implicit Neural Representations [69.15490627853629]
入射神経表現は、一般的な信号を表す新しい道である。
現在のアプローチは、多数の信号やデータセットに対してスケールすることが難しい。
メタ学習型スパースニューラル表現は,高密度メタ学習モデルよりもはるかに少ない損失が得られることを示す。
論文 参考訳(メタデータ) (2021-10-27T18:02:53Z) - Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D
Shapes [77.6741486264257]
本稿では,高忠実度ニューラルネットワークSDFのリアルタイムレンダリングを可能にする,効率的なニューラル表現を提案する。
我々の表現は、以前の作品に比べてレンダリング速度の点で2~3桁の効率であることを示す。
論文 参考訳(メタデータ) (2021-01-26T18:50:22Z) - Learned Initializations for Optimizing Coordinate-Based Neural
Representations [47.408295381897815]
コーディネートベースのニューラル表現は、離散的な配列ベースの表現の代替として大きな可能性を示してきた。
完全連結ネットワークの初期重みパラメータを学習するために,標準的なメタ学習アルゴリズムを適用することを提案する。
本研究では,2次元画像の表現,CTスキャンの再構成,2次元画像観察から3次元形状やシーンを復元するなど,様々なタスクにまたがってこれらのメリットを探求する。
論文 参考訳(メタデータ) (2020-12-03T18:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。