論文の概要: WIPES: Wavelet-based Visual Primitives
- arxiv url: http://arxiv.org/abs/2508.12615v2
- Date: Tue, 19 Aug 2025 07:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-20 13:30:22.888806
- Title: WIPES: Wavelet-based Visual Primitives
- Title(参考訳): WIPES:Waveletベースのビジュアルプリミティブ
- Authors: Wenhao Zhang, Hao Zhu, Delong Wu, Di Kang, Linchao Bao, Xun Cao, Zhan Ma,
- Abstract要約: WIPESは、多次元視覚信号を表すウェーブレットベースのvIsual PrimitivESである。
我々は、WIPESがINRベースの手法よりも高いレンダリング品質と高速な推論を提供し、レンダリング品質においてガウスベースの表現よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 40.99041094491281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pursuing a continuous visual representation that offers flexible frequency modulation and fast rendering speed has recently garnered increasing attention in the fields of 3D vision and graphics. However, existing representations often rely on frequency guidance or complex neural network decoding, leading to spectrum loss or slow rendering. To address these limitations, we propose WIPES, a universal Wavelet-based vIsual PrimitivES for representing multi-dimensional visual signals. Building on the spatial-frequency localization advantages of wavelets, WIPES effectively captures both the low-frequency "forest" and the high-frequency "trees." Additionally, we develop a wavelet-based differentiable rasterizer to achieve fast visual rendering. Experimental results on various visual tasks, including 2D image representation, 5D static and 6D dynamic novel view synthesis, demonstrate that WIPES, as a visual primitive, offers higher rendering quality and faster inference than INR-based methods, and outperforms Gaussian-based representations in rendering quality.
- Abstract(参考訳): フレキシブルな周波数変調と高速なレンダリング速度を提供する連続的な視覚表現は、近年3次元視覚とグラフィックスの分野で注目度が高まっている。
しかし、既存の表現はしばしば周波数誘導や複雑なニューラルネットワークデコーディングに依存しており、スペクトル損失やレンダリングの遅さにつながる。
これらの制約に対処するために,多次元視覚信号を表す汎用ウェーブレットベースのvIsual PrimitivESであるWIPESを提案する。
ウェーブレットの空間周波数局所化の利点に基づいて、WIPESは低周波の「森林」と高周波の「木」の両方を効果的に捉えている。
さらに、高速なビジュアルレンダリングを実現するためにウェーブレットベースの微分可能ラスタライザを開発した。
2次元画像表現,5次元静的および6次元動的新規ビュー合成などの視覚的タスクに関する実験結果は,WIPESが視覚的プリミティブであり,INRベースの手法よりも高いレンダリング品質と高速な推論を提供し,レンダリング品質におけるガウス的表現よりも優れることを示した。
関連論文リスト
- V2V3D: View-to-View Denoised 3D Reconstruction for Light-Field Microscopy [12.356249860549472]
光電場顕微鏡(LFM)は、スナップショットベースで大規模な3D蛍光画像の撮影が可能であるため、注目されている。
既存のLFM再構成アルゴリズムは、センサーノイズに非常に敏感であるか、あるいはトレーニングのためにハード・トゥ・ザ・グラウンド・トゥルース・アノテート・データを必要とする。
本稿では,V2V3Dについて紹介する。V2V3Dは教師なしのビュー2ビューベースのフレームワークで,画像復調と3D再構成の協調最適化のための新しいパラダイムを確立する。
論文 参考訳(メタデータ) (2025-04-10T15:29:26Z) - WaveFormer: A 3D Transformer with Wavelet-Driven Feature Representation for Efficient Medical Image Segmentation [0.5312470855079862]
医用画像用3D変換器のWaveFormerについて紹介する。
それは人間の視覚認識システムのトップダウンメカニズムにインスパイアされている。
グローバルコンテキストと高周波の詳細の両方を保存し、重いサンプリング層を効率的なウェーブレットベースの要約と再構成に置き換える。
論文 参考訳(メタデータ) (2025-03-31T06:28:41Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - FE-UNet: Frequency Domain Enhanced U-Net for Low-Frequency Information-Rich Image Segmentation [48.034848981295525]
CNNと人間の視覚系における周波数帯域感度の差について検討する。
本稿では、生体視覚機構にインスパイアされたウェーブレット適応スペクトル融合(WASF)法を提案する。
我々は SAM2 のバックボーンネットワークを利用する FE-UNet モデルを開発し, セグメンテーション精度を確保するために細調整した Hiera-Large モジュールを組み込んだ。
論文 参考訳(メタデータ) (2025-02-06T07:24:34Z) - Anisotropic Neural Representation Learning for High-Quality Neural
Rendering [0.0]
本稿では、学習可能なビュー依存機能を利用してシーン表現と再構成を改善する異方性ニューラル表現学習法を提案する。
我々の手法は柔軟であり、NeRFベースのフレームワークにプラグインできる。
論文 参考訳(メタデータ) (2023-11-30T07:29:30Z) - WaveNeRF: Wavelet-based Generalizable Neural Radiance Fields [149.2296890464997]
我々は、ウェーブレット周波数分解をMVSとNeRFに統合したWaveNeRFを設計する。
WaveNeRFは、3つの画像のみを入力として与えたときに、より優れた一般化可能な放射場モデリングを実現する。
論文 参考訳(メタデータ) (2023-08-09T09:24:56Z) - Learning Neural Duplex Radiance Fields for Real-Time View Synthesis [33.54507228895688]
本研究では,NeRFを高効率メッシュベースニューラル表現に蒸留・焼成する手法を提案する。
提案手法の有効性と優位性を,各種標準データセットの広範な実験を通じて実証する。
論文 参考訳(メタデータ) (2023-04-20T17:59:52Z) - MVSNeRF: Fast Generalizable Radiance Field Reconstruction from
Multi-View Stereo [52.329580781898116]
MVSNeRFは、ビュー合成のための神経放射場を効率的に再構築できる新しいニューラルレンダリング手法である。
高密度にキャプチャされた画像に対して,シーン毎の最適化を考慮に入れたニューラルネットワークの先行研究とは異なり,高速ネットワーク推論により,近傍の3つの入力ビューのみからラミアンスフィールドを再構成できる汎用ディープニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-03-29T13:15:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。