Fugu-MT 論文翻訳(概要): WavePlanes: Compact Hex Planes for Dynamic Novel View Synthesis

論文の概要: WavePlanes: Compact Hex Planes for Dynamic Novel View Synthesis

arxiv url: http://arxiv.org/abs/2312.02218v4
Date: Mon, 23 Dec 2024 11:53:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-24 19:42:47.457148
Title: WavePlanes: Compact Hex Planes for Dynamic Novel View Synthesis
Title（参考訳）: WavePlanes: 動的新規ビュー合成のためのコンパクトなヘックス平面
Authors: Adrian Azzarelli, Nantheera Anantrasirichai, David R Bull,
Abstract要約: 本稿では,3次元シーンの高速かつコンパクトなヘックス平面表現であるWavePlanesを紹介する。逆離散ウェーブレット変換を用いて様々なスケールで特徴を再構成する。小さなSotAモデルと比較して、WavePlanesは、新しいビューのモデルサイズと品質の両方でメソッドを上回ります。
参考スコア（独自算出の注目度）: 9.158626732325915
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dynamic Novel View Synthesis (Dynamic NVS) enhances NVS technologies to model moving 3-D scenes. However, current methods are resource intensive and challenging to compress. To address this, we present WavePlanes, a fast and more compact hex plane representation, applicable to both Neural Radiance Fields and Gaussian Splatting methods. Rather than modeling many feature scales separately (as done previously), we use the inverse discrete wavelet transform to reconstruct features at varying scales. This leads to a more compact representation and allows us to explore wavelet-based compression schemes for further gains. The proposed compression scheme exploits the sparsity of wavelet coefficients, by applying hard thresholding to the wavelet planes and storing nonzero coefficients and their locations on each plane in a Hash Map. Compared to the state-of-the-art (SotA), WavePlanes is significantly smaller, less resource demanding and competitive in reconstruction quality. Compared to small SotA models, WavePlanes outperforms methods in both model size and quality of novel views.
Abstract（参考訳）: Dynamic Novel View Synthesis (Dynamic NVS)は3Dシーンをモデル化するためのNVS技術を強化する。しかし、現在の手法は資源集約的で圧縮が難しい。そこで我々は,高速かつコンパクトなヘックス平面表現であるWavePlanesを,ニューラルレージアンス場とガウスススプラッティング法の両方に適用する。多くの特徴尺度を別々にモデル化する代わりに、逆離散ウェーブレット変換を用いて様々なスケールで特徴を再構成する。これにより、よりコンパクトな表現が可能になり、ウェーブレットベースの圧縮スキームを探索し、さらなるゲインを得ることができます。提案手法では,ウェーブレット面にハードしきい値を適用し,非ゼロ係数とその位置をハッシュマップに格納することにより,ウェーブレット係数の空間性を利用する。最先端(SotA)と比較すると、WavePlanesは大幅に小さく、リソース需要も少なく、再構築品質の競争力も低い。小さなSotAモデルと比較して、WavePlanesは、新しいビューのモデルサイズと品質の両方でメソッドを上回ります。

関連論文リスト

WaveFormer: Frequency-Time Decoupled Vision Modeling with Wave Equation [24.13944601660532]
視覚モデリングはトランスフォーマーによって急速に進歩し、注意機構は視覚的依存を捉えるが、意味情報が空間的にどのように伝播するかという原則的な説明は欠いている。我々はこの問題を波面から再検討し、内部伝播時間における空間信号として特徴写像を下水波方程式で制御する。本稿では,標準VTやCNNのドロップイン置換としてWaveFormerモデルのファミリを提案し,画像分類,オブジェクト検出,セマンティックセグメンテーションにおける競合精度を実現する。
論文参考訳（メタデータ） (2026-01-13T14:47:22Z)
FLaTEC: Frequency-Disentangled Latent Triplanes for Efficient Compression of LiDAR Point Clouds [52.997038111673966]
FLaTECは、圧縮率の高いフルスキャンの圧縮を可能にする周波数対応圧縮モデルである。ボキセル化埋め込みを三面体表現に変換することで、空間性、計算コスト、ストレージ要件を低減する。提案手法は,最先端の速度歪み性能を実現し,標準コーデックのBDレートを78%,94%向上させる。
論文参考訳（メタデータ） (2025-11-25T08:37:49Z)
Wavelet-based Variational Autoencoders for High-Resolution Image Generation [0.0]
変分オートエンコーダ(VAE)は、コンパクトな潜在表現を学習できる強力な生成モデルである。本稿では,マルチスケールのハールウェーブレット係数を用いて潜在空間を構築するウェーブレットベースアプローチ(ウェーブレット-VAE)について検討する。
論文参考訳（メタデータ） (2025-04-16T13:51:41Z)
3D Wavelet Convolutions with Extended Receptive Fields for Hyperspectral Image Classification [12.168520751389622]
ディープニューラルネットワークは、ハイパースペクトル画像分類において多くの課題に直面している。本稿ではウェーブレット変換と統合された改良型3D-DenseNetモデルWCNetを提案する。実験結果から,IN,UP,KSCデータセットにおいて優れた性能を示した。
論文参考訳（メタデータ） (2025-04-15T01:39:42Z)
WaveFormer: A 3D Transformer with Wavelet-Driven Feature Representation for Efficient Medical Image Segmentation [0.5312470855079862]
医用画像用3D変換器のWaveFormerについて紹介する。それは人間の視覚認識システムのトップダウンメカニズムにインスパイアされている。グローバルコンテキストと高周波の詳細の両方を保存し、重いサンプリング層を効率的なウェーブレットベースの要約と再構成に置き換える。
論文参考訳（メタデータ） (2025-03-31T06:28:41Z)
Wavelet Latent Diffusion (Wala): Billion-Parameter 3D Generative Model with Compact Wavelet Encodings [15.2983201224858]
大規模3次元生成モデルは計算資源を必要とするが、細部や複雑な地形を高解像度で捉えるには不足することが多い。我々はウェーブレット遅延拡散(WaLa)と呼ばれる新しい手法を導入し、3次元形状をコンパクトな潜時符号化に符号化する。具体的には、2563ドルの符号付き距離場を123倍の遅延格子に圧縮し、2427倍の圧縮比を達成した。我々のモデルは条件付きと無条件の両方で、約10億のパラメータを含み、高品質な3D形状を2563$で生成することに成功した。
論文参考訳（メタデータ） (2024-11-12T18:49:06Z)
DaRePlane: Direction-aware Representations for Dynamic Scene Reconstruction [26.39519157164198]
DaRePlaneは、6つの異なる方向からダイナミクスをキャプチャする新しい表現手法である。 DaRePlaneは様々な複雑なダイナミックシーンのための新しいビュー合成において最先端のパフォーマンスを得る。
論文参考訳（メタデータ） (2024-10-18T04:19:10Z)
WiNet: Wavelet-based Incremental Learning for Efficient Medical Image Registration [68.25711405944239]
深部画像登録は異常な精度と高速な推測を示した。近年の進歩は、粗大から粗大の方法で密度変形場を推定するために、複数のカスケードまたはピラミッドアーキテクチャを採用している。本稿では,様々なスケールにわたる変位/速度場に対して,スケールワイブレット係数を漸進的に推定するモデル駆動WiNetを提案する。
論文参考訳（メタデータ） (2024-07-18T11:51:01Z)
SAGS: Structure-Aware 3D Gaussian Splatting [53.6730827668389]
本研究では,シーンの形状を暗黙的に符号化する構造認識型ガウス散乱法(SAGS)を提案する。 SAGSは、最先端のレンダリング性能と、ベンチマークノベルビュー合成データセットのストレージ要件の削減を反映している。
論文参考訳（メタデータ） (2024-04-29T23:26:30Z)
UDiFF: Generating Conditional Unsigned Distance Fields with Optimal Wavelet Diffusion [51.31220416754788]
UDiFFは非符号距離場(UDF)の3次元拡散モデルであり,テキスト条件や非条件条件から開面を有するテクスチャ化された3次元形状を生成することができる。我々のキーとなるアイデアは、UDF生成のためのコンパクトな表現空間を生成する最適なウェーブレット変換を用いて、空間周波数領域でUDFを生成することである。
論文参考訳（メタデータ） (2024-04-10T09:24:54Z)
Make-A-Shape: a Ten-Million-scale 3D Shape Model [52.701745578415796]
本稿では,大規模な効率的なトレーニングを目的とした新しい3次元生成モデルであるMake-A-Shapeを紹介する。まずウェーブレットツリー表現を革新し、サブバンド係数フィルタリングスキームを定式化して形状をコンパクトに符号化する。我々は、粗いウェーブレット係数の生成を効果的に学習するために、我々のモデルを訓練するためのサブバンド適応型トレーニング戦略を導出する。
論文参考訳（メタデータ） (2024-01-20T00:21:58Z)
HybridNeRF: Efficient Neural Rendering via Adaptive Volumetric Surfaces [71.1071688018433]
ニューラル放射場は、最先端のビュー合成品質を提供するが、レンダリングが遅くなる傾向がある。本稿では,ほとんどの物体を表面としてレンダリングすることで,両表現の強みを生かしたHybridNeRFを提案する。仮想現実分解能(2Kx2K)のリアルタイムフレームレート(少なくとも36FPS)を達成しながら、エラー率を15～30%改善する。
論文参考訳（メタデータ） (2023-12-05T22:04:49Z)
Surf-D: Generating High-Quality Surfaces of Arbitrary Topologies Using Diffusion Models [83.35835521670955]
Surf-Dは任意の位相を持つ表面として高品質な3次元形状を生成する新しい方法である。非符号距離場(UDF)を曲面表現として用いて任意の位相を許容する。また、ポイントベースのAutoEncoderを用いて、UDFを正確に符号化するためのコンパクトで連続的な潜在空間を学習する新しいパイプラインを提案する。
論文参考訳（メタデータ） (2023-11-28T18:56:01Z)
Dynamic Frame Interpolation in Wavelet Domain [57.25341639095404]
ビデオフレームは、より流動的な視覚体験のためにフレームレートを上げることができる、重要な低レベルな計算ビジョンタスクである。既存の手法は、高度なモーションモデルと合成ネットワークを利用することで大きな成功を収めた。 WaveletVFIは、同様の精度を維持しながら最大40%の計算を削減できるため、他の最先端技術に対してより効率的に処理できる。
論文参考訳（メタデータ） (2023-09-07T06:41:15Z)
Spatial-Frequency U-Net for Denoising Diffusion Probabilistic Models [89.76587063609806]
画素空間の代わりにウェーブレット空間における拡散確率モデル(DDPM)を視覚合成のために検討した。ウェーブレット信号を明示的にモデル化することで、我々のモデルは複数のデータセット上でより高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-07-27T06:53:16Z)
Efficient Large-scale Scene Representation with a Hybrid of High-resolution Grid and Plane Features [44.25307397334988]
大規模シーンモデリングのための既存のニューラルレイディアンスフィールド(NeRF)法は、複数のGPUを用いたトレーニングの日数を必要とする。我々は,3次元ハッシュグレードと高分解能2次元高密度平面特徴を融合したNeRFの高速ハイブリッド特徴表現を提案する。このハイブリッド表現に基づいて,コンパクトなモデルサイズを維持しつつ,より優れたレンダリング結果が得られるGP-NeRFと呼ばれる高速最適化NeRF変種を提案する。
論文参考訳（メタデータ） (2023-03-06T10:04:50Z)
Neural Wavelet-domain Diffusion for 3D Shape Generation, Inversion, and Manipulation [54.09274684734721]
本稿では,ウェーブレット領域における連続的な暗黙表現の直接生成モデルを用いて,3次元形状の生成,反転,操作を行う新しい手法を提案する。具体的には、1対の粗い係数と細部係数の体積を持つコンパクトなウェーブレット表現を提案し、トランケートされた符号付き距離関数とマルチスケールの生体直交ウェーブレットを介して3次元形状を暗黙的に表現する。エンコーダネットワークを共同でトレーニングすることで,形状を反転させる潜在空間を学習することができる。
論文参考訳（メタデータ） (2023-02-01T02:47:53Z)
K-Planes: Explicit Radiance Fields in Space, Time, and Appearance [32.78595254330191]
任意の次元の放射場に対するホワイトボックスモデルであるk平面を導入する。我々のモデルは、D次元のシーンを表現するためにd choose 2平面を使用し、静的なシーンからダイナミックなシーンへシームレスな方法を提供します。合成され、リアルで、静的で、動的で、固定され、様々な外観シーンにおいて、k面は競争力があり、しばしば最先端の復元忠実さをもたらす。
論文参考訳（メタデータ） (2023-01-24T18:59:08Z)
Wave-ViT: Unifying Wavelet and Transformers for Visual Representation Learning [138.29273453811945]
マルチスケールビジョントランス (ViT) はコンピュータビジョンタスクの強力なバックボーンとして登場した。本稿では,ウェーブレット変換と自己注意学習を用いて,可逆的なダウンサンプリングを定式化する新しいウェーブレットビジョン変換器(textbfWave-ViT)を提案する。
論文参考訳（メタデータ） (2022-07-11T16:03:51Z)
WaveMix: A Resource-efficient Neural Network for Image Analysis [3.4927288761640565]
WaveMixはリソース効率が高く、汎用的でスケーラブルです。ネットワークは、最先端の畳み込みニューラルネットワークと同等またはより正確な精度を達成する。 WaveMixはCityscapesのセグメンテーションのための新しいベンチマークを確立する。
論文参考訳（メタデータ） (2022-05-28T09:08:50Z)
aiWave: Volumetric Image Compression with 3-D Trained Affine Wavelet-like Transform [43.984890290691695]
最も一般的なボリューム画像圧縮法はJP3Dのようなウェーブレット変換に基づいている。本稿では,信号依存型および非分離型変換を実現するために,まず3次元トレーニングウェーブレット様変換を設計する。次に、アフィンウェーブレットベースを導入し、ボリューム画像の異なる領域における様々な局所的相関をキャプチャする。
論文参考訳（メタデータ） (2022-03-11T10:02:01Z)
RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文参考訳（メタデータ） (2021-09-15T12:31:27Z)
High-Fidelity and Low-Latency Universal Neural Vocoder based on Multiband WaveRNN with Data-Driven Linear Prediction for Discrete Waveform Modeling [38.828260316517536]
本稿では、離散波形モデリング(MWDLP)のためのデータ駆動線形予測を用いたマルチバンドWaveRNNに基づく新しいユニバーサルニューラルネットワークボコーダフレームワークを提案する。提案したMWDLPフレームワークは、クリーンでノイズの多い残響条件を含む300人の話者のトレーニングデータに対して、見知らぬ話者や/または言語に対して高忠実な合成音声を生成することを示す。
論文参考訳（メタデータ） (2021-05-20T16:02:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。