論文の概要: Masked Space-Time Hash Encoding for Efficient Dynamic Scene
Reconstruction
- arxiv url: http://arxiv.org/abs/2310.17527v1
- Date: Thu, 26 Oct 2023 16:18:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 19:17:10.918770
- Title: Masked Space-Time Hash Encoding for Efficient Dynamic Scene
Reconstruction
- Title(参考訳): 効率的な動的シーン再構成のためのマスキング時空ハッシュ符号化
- Authors: Feng Wang, Zilong Chen, Guokang Wang, Yafei Song and Huaping Liu
- Abstract要約: Masked Space-Time Hash encoding (MSTH)は、マルチビューやモノクロビデオから動的3Dシーンを効率的に再構築する新しい手法である。
MSTHは動的シーンを3Dハッシュエンコーディングと4Dハッシュエンコーディングの重み付けの組み合わせとして表現している。
MSTHは、トレーニング時間20分と130MBのメモリストレージで、従来の方法よりも一貫して良い結果が得られる。
- 参考スコア(独自算出の注目度): 18.778619653550717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we propose the Masked Space-Time Hash encoding (MSTH), a novel
method for efficiently reconstructing dynamic 3D scenes from multi-view or
monocular videos. Based on the observation that dynamic scenes often contain
substantial static areas that result in redundancy in storage and computations,
MSTH represents a dynamic scene as a weighted combination of a 3D hash encoding
and a 4D hash encoding. The weights for the two components are represented by a
learnable mask which is guided by an uncertainty-based objective to reflect the
spatial and temporal importance of each 3D position. With this design, our
method can reduce the hash collision rate by avoiding redundant queries and
modifications on static areas, making it feasible to represent a large number
of space-time voxels by hash tables with small size.Besides, without the
requirements to fit the large numbers of temporally redundant features
independently, our method is easier to optimize and converge rapidly with only
twenty minutes of training for a 300-frame dynamic scene.As a result, MSTH
obtains consistently better results than previous methods with only 20 minutes
of training time and 130 MB of memory storage. Code is available at
https://github.com/masked-spacetime-hashing/msth
- Abstract(参考訳): 本稿では,マルチビューやモノクロビデオから動的3Dシーンを効率的に再構成する新しい手法であるMasked Space-Time Hash encoding (MSTH)を提案する。
動的シーンはしばしば記憶と計算の冗長性をもたらす相当な静的領域を含むという観察に基づいて、MSTHは動的シーンを3Dハッシュエンコーディングと4Dハッシュエンコーディングの重み付けの組み合わせとして表現する。
2つの構成要素の重みは、各3D位置の空間的および時間的重要性を反映する不確実性に基づく目的によって導かれる学習可能なマスクで表される。
With this design, our method can reduce the hash collision rate by avoiding redundant queries and modifications on static areas, making it feasible to represent a large number of space-time voxels by hash tables with small size.Besides, without the requirements to fit the large numbers of temporally redundant features independently, our method is easier to optimize and converge rapidly with only twenty minutes of training for a 300-frame dynamic scene.As a result, MSTH obtains consistently better results than previous methods with only 20 minutes of training time and 130 MB of memory storage.
コードはhttps://github.com/masked-spacetime-hashing/msthで入手できる。
関連論文リスト
- EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。
オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文 参考訳(メタデータ) (2024-08-21T17:57:06Z) - Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields [13.729716867839509]
ハイパフォーマンスを維持しつつガウスの数を著しく削減する学習可能なマスク戦略を提案する。
さらに、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。
我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文 参考訳(メタデータ) (2024-08-07T14:56:34Z) - Representing Volumetric Videos as Dynamic MLP Maps [46.08087687477586]
本稿では,動的シーンをリアルタイムに見るための新しいラディアンスビデオの表現について紹介する。
提案手法は、3090 GPU上の512倍の512ドルの画像に対して、41.7 fpsの高速なリアルタイムレンダリングを実現するとともに、最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2023-04-13T17:59:33Z) - PermutoSDF: Fast Multi-View Reconstruction with Implicit Surfaces using
Permutohedral Lattices [30.769016867151674]
本稿では,新しいビューレンダリングのためのハッシュベースの暗黙的表面表現を提案する。
我々は、RGB画像のみを用いて、細孔やしわの程度で幾何学的詳細を復元できることを示す。
論文 参考訳(メタデータ) (2022-11-22T20:27:44Z) - NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization [60.73541222862195]
NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
論文 参考訳(メタデータ) (2022-11-21T04:46:22Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image [18.68544438724187]
本研究では,高速な推論速度,時間的コヒーレンスを同時に実現可能な単一視点ハンドメッシュ再構築フレームワークを提案する。
私たちのフレームワークであるMobReconは、安価な計算コストとミニチュアモデルサイズを備えており、Apple A14 CPU上で83FPSの高速な推論速度を実現しています。
論文 参考訳(メタデータ) (2021-12-06T03:01:24Z) - ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。
ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。
ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文 参考訳(メタデータ) (2021-10-01T16:25:40Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z) - Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency
Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。
R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文 参考訳(メタデータ) (2020-07-21T14:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。