Fugu-MT 論文翻訳(概要): Masked Space-Time Hash Encoding for Efficient Dynamic Scene Reconstruction

論文の概要: Masked Space-Time Hash Encoding for Efficient Dynamic Scene Reconstruction

arxiv url: http://arxiv.org/abs/2310.17527v1
Date: Thu, 26 Oct 2023 16:18:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-27 19:17:10.918770
Title: Masked Space-Time Hash Encoding for Efficient Dynamic Scene Reconstruction
Title（参考訳）: 効率的な動的シーン再構成のためのマスキング時空ハッシュ符号化
Authors: Feng Wang, Zilong Chen, Guokang Wang, Yafei Song and Huaping Liu
Abstract要約: Masked Space-Time Hash encoding (MSTH)は、マルチビューやモノクロビデオから動的3Dシーンを効率的に再構築する新しい手法である。 MSTHは動的シーンを3Dハッシュエンコーディングと4Dハッシュエンコーディングの重み付けの組み合わせとして表現している。 MSTHは、トレーニング時間20分と130MBのメモリストレージで、従来の方法よりも一貫して良い結果が得られる。
参考スコア（独自算出の注目度）: 18.778619653550717
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we propose the Masked Space-Time Hash encoding (MSTH), a novel method for efficiently reconstructing dynamic 3D scenes from multi-view or monocular videos. Based on the observation that dynamic scenes often contain substantial static areas that result in redundancy in storage and computations, MSTH represents a dynamic scene as a weighted combination of a 3D hash encoding and a 4D hash encoding. The weights for the two components are represented by a learnable mask which is guided by an uncertainty-based objective to reflect the spatial and temporal importance of each 3D position. With this design, our method can reduce the hash collision rate by avoiding redundant queries and modifications on static areas, making it feasible to represent a large number of space-time voxels by hash tables with small size.Besides, without the requirements to fit the large numbers of temporally redundant features independently, our method is easier to optimize and converge rapidly with only twenty minutes of training for a 300-frame dynamic scene.As a result, MSTH obtains consistently better results than previous methods with only 20 minutes of training time and 130 MB of memory storage. Code is available at https://github.com/masked-spacetime-hashing/msth
Abstract（参考訳）: 本稿では,マルチビューやモノクロビデオから動的3Dシーンを効率的に再構成する新しい手法であるMasked Space-Time Hash encoding (MSTH)を提案する。動的シーンはしばしば記憶と計算の冗長性をもたらす相当な静的領域を含むという観察に基づいて、MSTHは動的シーンを3Dハッシュエンコーディングと4Dハッシュエンコーディングの重み付けの組み合わせとして表現する。 2つの構成要素の重みは、各3D位置の空間的および時間的重要性を反映する不確実性に基づく目的によって導かれる学習可能なマスクで表される。 With this design, our method can reduce the hash collision rate by avoiding redundant queries and modifications on static areas, making it feasible to represent a large number of space-time voxels by hash tables with small size.Besides, without the requirements to fit the large numbers of temporally redundant features independently, our method is easier to optimize and converge rapidly with only twenty minutes of training for a 300-frame dynamic scene.As a result, MSTH obtains consistently better results than previous methods with only 20 minutes of training time and 130 MB of memory storage. コードはhttps://github.com/masked-spacetime-hashing/msthで入手できる。

関連論文リスト

Swift4D:Adaptive divide-and-conquer Gaussian Splatting for compact and efficient reconstruction of dynamic scene [17.496641113095745]
静的プリミティブと動的プリミティブを別々に扱える3Dガウススプラッティング法であるSwift4Dを提案する。本手法は,従来のSOTA法よりも20倍高速で,最先端のレンダリング品質を実現する。
論文参考訳（メタデータ） (2025-03-16T01:13:11Z)
OnlineAnySeg: Online Zero-Shot 3D Segmentation by Visual Foundation Model Guided 2D Mask Merging [36.9859733771263]
ハッシュ技術を用いて2次元マスクを統一した3次元インスタンスに持ち上げるための効率的な方法を提案する。効率的な3次元シーンクエリにボクセルハッシュを用いることで、コストのかかる空間的重複クエリの時間的複雑さを低減できる。提案手法は,オンラインのゼロショット3Dインスタンスセグメンテーションにおける最先端の性能と効率を両立させる。
論文参考訳（メタデータ） (2025-03-03T08:48:06Z)
Representing Long Volumetric Video with Temporal Gaussian Hierarchy [80.51373034419379]
本稿では,多視点RGBビデオから長いボリューム映像を再構成することの課題を解決することを目的とする。本稿では,テンポラルガウス階層(Temporal Gaussian Hierarchy)と呼ばれる新しい4次元表現を提案する。この研究は、最先端のレンダリング品質を維持しながら、ボリュームビデオデータの分を効率的に処理できる最初のアプローチである。
論文参考訳（メタデータ） (2024-12-12T18:59:34Z)
Efficient Masked AutoEncoder for Video Object Counting and A Large-Scale Benchmark [52.339936954958034]
前景の動的不均衡は、ビデオオブジェクトのカウントにおいて大きな課題である。本稿では,密度埋め込み型効率的なマスドオートエンコーダカウント(E-MAC)フレームワークを提案する。さらに,渡り鳥保護のための自然シナリオにおいて,まず,大規模なビデオバードカウントデータセットであるDroneBirdを提案する。
論文参考訳（メタデータ） (2024-11-20T06:08:21Z)
EmbodiedSAM: Online Segment Any 3D Thing in Real Time [61.2321497708998]
身体的なタスクは、エージェントが探索と同時に3Dシーンを完全に理解する必要がある。オンライン、リアルタイム、微粒化、高度に一般化された3D知覚モデルは、必死に必要である。
論文参考訳（メタデータ） (2024-08-21T17:57:06Z)
Compact 3D Gaussian Splatting for Static and Dynamic Radiance Fields [13.729716867839509]
ハイパフォーマンスを維持しつつガウスの数を著しく削減する学習可能なマスク戦略を提案する。さらに、格子型ニューラルネットワークを用いて、ビュー依存色をコンパクトかつ効果的に表現することを提案する。我々の研究は、3Dシーン表現のための包括的なフレームワークを提供し、ハイパフォーマンス、高速トレーニング、コンパクト性、リアルタイムレンダリングを実現しています。
論文参考訳（メタデータ） (2024-08-07T14:56:34Z)
Representing Volumetric Videos as Dynamic MLP Maps [46.08087687477586]
本稿では,動的シーンをリアルタイムに見るための新しいラディアンスビデオの表現について紹介する。提案手法は、3090 GPU上の512倍の512ドルの画像に対して、41.7 fpsの高速なリアルタイムレンダリングを実現するとともに、最先端のレンダリング品質を実現する。
論文参考訳（メタデータ） (2023-04-13T17:59:33Z)
PermutoSDF: Fast Multi-View Reconstruction with Implicit Surfaces using Permutohedral Lattices [30.769016867151674]
本稿では,新しいビューレンダリングのためのハッシュベースの暗黙的表面表現を提案する。我々は、RGB画像のみを用いて、細孔やしわの程度で幾何学的詳細を復元できることを示す。
論文参考訳（メタデータ） (2022-11-22T20:27:44Z)
NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera Localization [60.73541222862195]
NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
論文参考訳（メタデータ） (2022-11-21T04:46:22Z)
NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文参考訳（メタデータ） (2022-10-28T07:11:05Z)
MobRecon: Mobile-Friendly Hand Mesh Reconstruction from Monocular Image [18.68544438724187]
本研究では,高速な推論速度,時間的コヒーレンスを同時に実現可能な単一視点ハンドメッシュ再構築フレームワークを提案する。私たちのフレームワークであるMobReconは、安価な計算コストとミニチュアモデルサイズを備えており、Apple A14 CPU上で83FPSの高速な推論速度を実現しています。
論文参考訳（メタデータ） (2021-12-06T03:01:24Z)
ASH: A Modern Framework for Parallel Spatial Hashing in 3D Perception [91.24236600199542]
ASHは、GPU上の並列空間ハッシュのためのモダンで高性能なフレームワークである。 ASHはより高いパフォーマンスを実現し、よりリッチな機能をサポートし、より少ないコード行を必要とする。 ASHとそのサンプルアプリケーションはOpen3Dでオープンソース化されている。
論文参考訳（メタデータ） (2021-10-01T16:25:40Z)
Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文参考訳（メタデータ） (2021-08-30T17:55:28Z)
Dense Hybrid Recurrent Multi-view Stereo Net with Dynamic Consistency Checking [54.58791377183574]
1)DRENet(Dense Reception Expanded)モジュールで,原サイズの密集した特徴マップをマルチスケールのコンテキスト情報で抽出し,2)HU-LSTM(Hybrid U-LSTM)を用いて3次元マッチングボリュームを予測深度マップに変換する。 R-MVSNetのメモリ消費は19.4%しかかからないが,本手法は最先端の手法と競合する性能を示し,メモリ消費を劇的に削減する。
論文参考訳（メタデータ） (2020-07-21T14:59:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。