論文の概要: Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views
- arxiv url: http://arxiv.org/abs/2503.02230v1
- Date: Tue, 04 Mar 2025 03:13:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:18:01.444197
- Title: Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views
- Title(参考訳): 二重レベルセマンティック誘導による疎入力型ニューラルラディアンスフィールドの高機能化
- Authors: Yingji Zhong, Kaichen Zhou, Zhihao Li, Lanqing Hong, Zhenguo Li, Dan Xu,
- Abstract要約: レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
- 参考スコア(独自算出の注目度): 66.1245505423179
- License:
- Abstract: Neural Radiance Fields (NeRF) have shown remarkable capabilities for photorealistic novel view synthesis. One major deficiency of NeRF is that dense inputs are typically required, and the rendering quality will drop drastically given sparse inputs. In this paper, we highlight the effectiveness of rendered semantics from dense novel views, and show that rendered semantics can be treated as a more robust form of augmented data than rendered RGB. Our method enhances NeRF's performance by incorporating guidance derived from the rendered semantics. The rendered semantic guidance encompasses two levels: the supervision level and the feature level. The supervision-level guidance incorporates a bi-directional verification module that decides the validity of each rendered semantic label, while the feature-level guidance integrates a learnable codebook that encodes semantic-aware information, which is queried by each point via the attention mechanism to obtain semantic-relevant predictions. The overall semantic guidance is embedded into a self-improved pipeline. We also introduce a more challenging sparse-input indoor benchmark, where the number of inputs is limited to as few as 6. Experiments demonstrate the effectiveness of our method and it exhibits superior performance compared to existing approaches.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)は、フォトリアリスティック・ノベルビューの合成に顕著な能力を示した。
NeRFの主な欠点の1つは、高密度入力が通常必要であり、レンダリング品質はスパース入力が大幅に低下することである。
本稿では、高密度な新規な視点から表現された意味論の有効性を強調し、レンダリングされた意味論はレンダリングされたRGBよりもより堅牢なデータとして扱うことができることを示す。
提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
レンダリングされたセマンティックガイダンスには、監督レベルと機能レベルという2つのレベルが含まれています。
監視レベルガイダンスには、各レンダリングセマンティックラベルの妥当性を決定する双方向検証モジュールが組み込まれており、特徴レベルガイダンスには、注意機構を介して各ポイントによってクエリされる意味認識情報をエンコードして意味関連予測を得る学習可能なコードブックが組み込まれている。
全体的なセマンティックガイダンスは、自己改善パイプラインに組み込まれる。
また、より困難なスパースインプット屋内ベンチマークを導入し、入力回数を6.5%に制限した。
提案手法の有効性を実証し,既存手法と比較して優れた性能を示す。
関連論文リスト
- DepthMaster: Taming Diffusion Models for Monocular Depth Estimation [41.81343543266191]
識別深度推定タスクに生成的特徴を適応する単一ステップ拡散モデルを提案する。
2つのモジュールの可能性を完全に活用するために、2段階のトレーニング戦略を採用しています。
本モデルでは, 一般化と詳細保存の観点から最先端の性能を達成し, 各種データセット間の拡散に基づく他の手法よりも優れる。
論文 参考訳(メタデータ) (2025-01-05T15:18:32Z) - Enhancing Hyperspectral Image Prediction with Contrastive Learning in Low-Label Regime [0.810304644344495]
自己教師付きコントラスト学習は、限られたラベル付きデータの課題に対処するための効果的なアプローチである。
単一ラベルと複数ラベルの分類タスクに対して,本手法の性能を評価する。
論文 参考訳(メタデータ) (2024-10-10T10:20:16Z) - 2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic
Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。
IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文 参考訳(メタデータ) (2023-11-27T07:57:29Z) - GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。
筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。
DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文 参考訳(メタデータ) (2022-12-05T14:00:59Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z) - Activation to Saliency: Forming High-Quality Labels for Unsupervised
Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。
トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。
本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文 参考訳(メタデータ) (2021-12-07T11:54:06Z) - Semi-supervised Implicit Scene Completion from Sparse LiDAR [11.136332180451308]
局所的な形状の埋め込みに半教師付き暗黙関数を条件付ける新しい定式化を開発する。
スパース畳み込みネットワークの強力な表現学習力を利用して、形状対応の高密度特徴量を生成する。
本稿では,この学習システムの本質的特性と実世界の道路シーンにおける有用性を示す。
論文 参考訳(メタデータ) (2021-11-29T18:50:09Z) - An audiovisual and contextual approach for categorical and continuous
emotion recognition in-the-wild [27.943550651941166]
第2回ワークショップおよびABAW(Affective Behavior Analysis in-wild)の会場における映像による視覚的感情認識の課題に取り組む。
顔の特徴の抽出にのみ依存する標準的な手法は、上記の感情情報のソースが、頭や身体の向き、解像度の低さ、照明不足によってアクセスできない場合に、正確な感情予測を欠くことが多い。
我々は、より広い感情認識フレームワークの一部として、身体的および文脈的特徴を活用することで、この問題を緩和したいと考えています。
論文 参考訳(メタデータ) (2021-07-07T20:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。