Fugu-MT 論文翻訳(概要): ACORN: Adaptive Coordinate Networks for Neural Scene Representation

論文の概要: ACORN: Adaptive Coordinate Networks for Neural Scene Representation

arxiv url: http://arxiv.org/abs/2105.02788v1
Date: Thu, 6 May 2021 16:21:38 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-07 13:32:15.019003
Title: ACORN: Adaptive Coordinate Networks for Neural Scene Representation
Title（参考訳）: ACORN: ニューラルシーン表現のための適応コーディネートネットワーク
Authors: Julien N. P. Martel, David B. Lindell, Connor Z. Lin, Eric R. Chan, Marco Monteiro and Gordon Wetzstein
Abstract要約: 現在の神経表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度で画像を正確に表現できません。トレーニングや推論中にリソースを適応的に割り当てる新しいハイブリッド暗黙的ネットワークアーキテクチャとトレーニング戦略を紹介します。ギガピクセル画像を40dB近いピーク信号対雑音比に収まる最初の実験を実証します。
参考スコア（独自算出の注目度）: 40.04760307540698
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural representations have emerged as a new paradigm for applications in rendering, imaging, geometric modeling, and simulation. Compared to traditional representations such as meshes, point clouds, or volumes they can be flexibly incorporated into differentiable learning-based pipelines. While recent improvements to neural representations now make it possible to represent signals with fine details at moderate resolutions (e.g., for images and 3D shapes), adequately representing large-scale or complex scenes has proven a challenge. Current neural representations fail to accurately represent images at resolutions greater than a megapixel or 3D scenes with more than a few hundred thousand polygons. Here, we introduce a new hybrid implicit-explicit network architecture and training strategy that adaptively allocates resources during training and inference based on the local complexity of a signal of interest. Our approach uses a multiscale block-coordinate decomposition, similar to a quadtree or octree, that is optimized during training. The network architecture operates in two stages: using the bulk of the network parameters, a coordinate encoder generates a feature grid in a single forward pass. Then, hundreds or thousands of samples within each block can be efficiently evaluated using a lightweight feature decoder. With this hybrid implicit-explicit network architecture, we demonstrate the first experiments that fit gigapixel images to nearly 40 dB peak signal-to-noise ratio. Notably this represents an increase in scale of over 1000x compared to the resolution of previously demonstrated image-fitting experiments. Moreover, our approach is able to represent 3D shapes significantly faster and better than previous techniques; it reduces training times from days to hours or minutes and memory requirements by over an order of magnitude.
Abstract（参考訳）: ニューラルネットワーク表現は、レンダリング、イメージング、幾何モデリング、シミュレーションといった応用の新しいパラダイムとして登場した。メッシュやポイントクラウド、ボリュームといった従来の表現と比較して、異なる学習ベースのパイプラインに柔軟に組み込むことができる。ニューラル表現の最近の改良により、適度な解像度(画像や3D形状など)で詳細な信号の表現が可能になったが、大規模なシーンや複雑なシーンを適切に表現することは困難であることが証明されている。現在のニューラル表現は、数十万以上のポリゴンを持つメガピクセルまたは3Dシーン以上の解像度の画像を正確に表現することができない。本稿では,興味のある信号の局所的複雑性に基づいて,トレーニングや推論中にリソースを適応的に割り当てる,新たなハイブリッドネットワークアーキテクチャとトレーニング戦略を提案する。我々のアプローチでは、トレーニング中に最適化されたクワッドツリーやoctreeに似た、マルチスケールのブロック座標分解を用いる。ネットワークアーキテクチャは2段階で動作する: ネットワークパラメータの大部分を使用して、座標エンコーダは単一のフォワードパスで特徴グリッドを生成する。次に、軽量な特徴デコーダを用いて、ブロック内の数百から数千のサンプルを効率的に評価することができる。このハイブリッドネットワークアーキテクチャにより、ギガピクセル画像を40dbのピーク信号対雑音比に適合させる最初の実験を実証する。特にこれは、以前実証された画像フィッティング実験の解像度と比べて1000倍以上のスケールの増加を示している。さらに,従来の手法よりも大幅に高速で優れた3d形状を表現することが可能であり,トレーニング時間を数日から数時間に短縮し,メモリ要件を1桁以上削減する。

関連論文リスト

LoFi: Neural Local Fields for Scalable Image Reconstruction [11.544632963705858]
LoFi(Local Field)と呼ばれる逆問題の画像化のための座標ベースのフレームワークを提案する。 LoFiは、各座標における局所情報を多層パーセプトロン(MLP)によって別々に処理し、その特定の座標でオブジェクトを復元する。 LoFiは、画像解像度とほぼ独立にメモリ使用量を持つアウト・オブ・ディストリビューションデータへの優れた一般化を実現する。
論文参考訳（メタデータ） (2024-11-07T18:58:57Z)
N-BVH: Neural ray queries with bounding volume hierarchies [51.430495562430565]
3Dコンピュータグラフィックスでは、シーンのメモリ使用量の大部分がポリゴンとテクスチャによるものである。 N-BVHは3次元の任意の光線クエリに応答するように設計されたニューラル圧縮アーキテクチャである。本手法は, 視認性, 深度, 外観特性を忠実に近似する。
論文参考訳（メタデータ） (2024-05-25T13:54:34Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文参考訳（メタデータ） (2023-05-12T04:10:42Z)
Neural Contourlet Network for Monocular 360 Depth Estimation [37.82642960470551]
我々は360度画像の解釈可能かつスパースな表現を構築する新しい視点を提供する。本稿では,畳み込み型ニューラルネットワークと畳み込み型トランスフォーメーションブランチからなる,畳み込み型ニューラルネットワークを提案する。エンコーダの段階では、2種類のキューを効果的に融合させる空間スペクトル融合モジュールを設計する。
論文参考訳（メタデータ） (2022-08-03T02:25:55Z)
CoordX: Accelerating Implicit Neural Representation with a Split MLP Architecture [2.6912336656165805]
多層パーセプトロン(MLP)を用いた暗黙の神経表現は、近年、様々なタスクで注目されている。座標に基づく表現の推論と訓練を高速化する新しい分割アーキテクチャであるCoordXを提案する。画像,映像,3次元形状表現および描画タスクのベースラインモデルと比較して,最大2.92倍のスピードアップを示す。
論文参考訳（メタデータ） (2022-01-28T21:30:42Z)
Meta-Learning Sparse Implicit Neural Representations [69.15490627853629]
入射神経表現は、一般的な信号を表す新しい道である。現在のアプローチは、多数の信号やデータセットに対してスケールすることが難しい。メタ学習型スパースニューラル表現は,高密度メタ学習モデルよりもはるかに少ない損失が得られることを示す。
論文参考訳（メタデータ） (2021-10-27T18:02:53Z)
Neural Geometric Level of Detail: Real-time Rendering with Implicit 3D Shapes [77.6741486264257]
本稿では,高忠実度ニューラルネットワークSDFのリアルタイムレンダリングを可能にする,効率的なニューラル表現を提案する。我々の表現は、以前の作品に比べてレンダリング速度の点で2～3桁の効率であることを示す。
論文参考訳（メタデータ） (2021-01-26T18:50:22Z)
Learned Initializations for Optimizing Coordinate-Based Neural Representations [47.408295381897815]
コーディネートベースのニューラル表現は、離散的な配列ベースの表現の代替として大きな可能性を示してきた。完全連結ネットワークの初期重みパラメータを学習するために,標準的なメタ学習アルゴリズムを適用することを提案する。本研究では,2次元画像の表現,CTスキャンの再構成,2次元画像観察から3次元形状やシーンを復元するなど,様々なタスクにまたがってこれらのメリットを探求する。
論文参考訳（メタデータ） (2020-12-03T18:59:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。