論文の概要: Expansive Supervision for Neural Radiance Field
- arxiv url: http://arxiv.org/abs/2409.08056v2
- Date: Mon, 16 Dec 2024 03:19:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:50:22.068284
- Title: Expansive Supervision for Neural Radiance Field
- Title(参考訳): ニューラル・ラジアンス・フィールドのための拡張的スーパービジョン
- Authors: Weixiang Zhang, Shuzhao Xie, Shijia Ge, Wei Yao, Chen Tang, Zhi Wang,
- Abstract要約: 我々は,NeRFトレーニングにおける時間とメモリコストを削減するために,拡張スーパービジョンを導入する。
トレーニング誤差は画像内容と相関する長テール分布を示す。
従来の監視手法と比較して,冗長なレンダリング処理を効果的に回避する。
- 参考スコア(独自算出の注目度): 12.510474224361504
- License:
- Abstract: Neural Radiance Field (NeRF) has achieved remarkable success in creating immersive media representations through its exceptional reconstruction capabilities. However, the computational demands of dense forward passes and volume rendering during training continue to challenge its real-world applications. In this paper, we introduce Expansive Supervision to reduce time and memory costs during NeRF training from the perspective of partial ray selection for supervision. Specifically, we observe that training errors exhibit a long-tail distribution correlated with image content. Based on this observation, our method selectively renders a small but crucial subset of pixels and expands their values to estimate errors across the entire area for each iteration. Compared to conventional supervision, our approach effectively bypasses redundant rendering processes, resulting in substantial reductions in both time and memory consumption. Experimental results demonstrate that integrating Expansive Supervision within existing state-of-the-art acceleration frameworks achieves 52% memory savings and 16% time savings while maintaining comparable visual quality.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)は、その例外的な再構成能力を通じて没入型メディア表現を創出することに成功した。
しかし、トレーニング中の高密度フォワードパスとボリュームレンダリングの計算要求は、実際の応用に挑戦し続けている。
本稿では,NRFトレーニングにおける時間とメモリコストを削減するための拡張スーパービジョンを提案する。
具体的には、トレーニングエラーが画像内容と相関した長い尾の分布を示すことを観察する。
この観測に基づいて,本手法は画素の小さいが重要な部分集合を選択的に描画し,その値を拡張して各反復に対して全領域にわたって誤差を推定する。
従来の監視手法と比較して,冗長なレンダリング処理を効果的に回避し,時間とメモリ消費を大幅に削減する。
実験結果から,既存の最先端アクセラレーションフレームワークにExpansive Supervisionを統合することで,52%のメモリ節約と16%の時間節約を実現し,視覚的品質を同等に維持できることがわかった。
関連論文リスト
- LiteVAR: Compressing Visual Autoregressive Modelling with Efficient Attention and Quantization [17.190984773586745]
現在のARベースのビジュアル生成モデルは、リソース制約のあるデバイスに適用性を制限するために、かなりの計算資源を必要とする。
性能を維持しつつ,VARモデルの効率を向上させるために,効率的な注意機構と低ビット量子化手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T07:32:36Z) - Magnituder Layers for Implicit Neural Representations in 3D [23.135779936528333]
我々は、"magnituder"と呼ばれる新しいニューラルネットワーク層を導入する。
標準フィードフォワード層にマグニチュードを組み込むことで、推論速度と適応性を向上する。
我々のアプローチは、訓練された暗黙的ニューラル表現モデルにおいてゼロショットのパフォーマンス向上を可能にする。
論文 参考訳(メタデータ) (2024-10-13T08:06:41Z) - Temporal Feature Matters: A Framework for Diffusion Model Quantization [105.3033493564844]
拡散モデルはマルチラウンド・デノナイジングの時間ステップに依存している。
3つの戦略を含む新しい量子化フレームワークを導入する。
このフレームワークは時間情報のほとんどを保存し、高品質なエンドツーエンド生成を保証する。
論文 参考訳(メタデータ) (2024-07-28T17:46:15Z) - Spatial Annealing Smoothing for Efficient Few-shot Neural Rendering [106.0057551634008]
我々は,Spatial Annealing smoothing regularized NeRF (SANeRF) という,正確で効率的な数発のニューラルレンダリング手法を導入する。
単に1行のコードを追加することで、SANeRFは現在の数ショットのNeRF法と比較して、より優れたレンダリング品質とはるかに高速な再構築速度を提供する。
論文 参考訳(メタデータ) (2024-06-12T02:48:52Z) - Diffusion Models Without Attention [110.5623058129782]
Diffusion State Space Model (DiffuSSM) は、よりスケーラブルな状態空間モデルバックボーンで注目メカニズムを置き換えるアーキテクチャである。
拡散訓練におけるFLOP効率の高いアーキテクチャへの注力は、大きな前進となる。
論文 参考訳(メタデータ) (2023-11-30T05:15:35Z) - VoxNeRF: Bridging Voxel Representation and Neural Radiance Fields for
Enhanced Indoor View Synthesis [51.49008959209671]
本稿では,室内ビュー合成の品質と効率を高めるために,ボリューム表現を活用する新しいアプローチであるVoxNeRFを紹介する。
我々は,空間的特徴を適応的に捉えるためにマルチレゾリューション・ハッシュ・グリッドを使用し,室内シーンの閉塞や複雑な形状を効果的に管理する。
我々は,3つの屋内データセットに対するアプローチを検証するとともに,VoxNeRFが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2023-11-09T11:32:49Z) - VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。
圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。
我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文 参考訳(メタデータ) (2023-10-23T01:41:38Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Monocular Real-Time Volumetric Performance Capture [28.481131687883256]
本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
論文 参考訳(メタデータ) (2020-07-28T04:45:13Z) - Towards Practical Lipreading with Distilled and Efficient Models [57.41253104365274]
ニューラルネットワークの復活により、リリーディングは多くの進歩を目の当たりにした。
最近の研究は、最適なアーキテクチャを見つけるか、一般化を改善することで、パフォーマンスを改善するといった側面に重点を置いている。
現在の方法論と、実践的なシナリオにおける効果的なリップリーディングのデプロイ要件との間には、依然として大きなギャップがあります。
まず, LRW と LRW-1000 をそれぞれ 88.5% と 46.6% に比例して, 最先端の性能を高めることを提案する。
論文 参考訳(メタデータ) (2020-07-13T16:56:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。