Fugu-MT 論文翻訳(概要): Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views

論文の概要: Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views

arxiv url: http://arxiv.org/abs/2503.02230v1
Date: Tue, 04 Mar 2025 03:13:44 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-05 18:50:38.995411
Title: Empowering Sparse-Input Neural Radiance Fields with Dual-Level Semantic Guidance from Dense Novel Views
Title（参考訳）: 二重レベルセマンティック誘導による疎入力型ニューラルラディアンスフィールドの高機能化
Authors: Yingji Zhong, Kaichen Zhou, Zhihao Li, Lanqing Hong, Zhenguo Li, Dan Xu,
Abstract要約: レンダリングされたセマンティクスは、レンダリングされたRGBよりも堅牢な拡張データとして扱うことができることを示す。提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。
参考スコア（独自算出の注目度）: 66.1245505423179
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Neural Radiance Fields (NeRF) have shown remarkable capabilities for photorealistic novel view synthesis. One major deficiency of NeRF is that dense inputs are typically required, and the rendering quality will drop drastically given sparse inputs. In this paper, we highlight the effectiveness of rendered semantics from dense novel views, and show that rendered semantics can be treated as a more robust form of augmented data than rendered RGB. Our method enhances NeRF's performance by incorporating guidance derived from the rendered semantics. The rendered semantic guidance encompasses two levels: the supervision level and the feature level. The supervision-level guidance incorporates a bi-directional verification module that decides the validity of each rendered semantic label, while the feature-level guidance integrates a learnable codebook that encodes semantic-aware information, which is queried by each point via the attention mechanism to obtain semantic-relevant predictions. The overall semantic guidance is embedded into a self-improved pipeline. We also introduce a more challenging sparse-input indoor benchmark, where the number of inputs is limited to as few as 6. Experiments demonstrate the effectiveness of our method and it exhibits superior performance compared to existing approaches.
Abstract（参考訳）: ニューラル・ラジアンス・フィールド(NeRF)は、フォトリアリスティック・ノベルビューの合成に顕著な能力を示した。 NeRFの主な欠点の1つは、高密度入力が通常必要であり、レンダリング品質はスパース入力が大幅に低下することである。本稿では、高密度な新規な視点から表現された意味論の有効性を強調し、レンダリングされた意味論はレンダリングされたRGBよりもより堅牢なデータとして扱うことができることを示す。提案手法は, セマンティクスから導出されるガイダンスを組み込むことで, NeRFの性能を向上させる。レンダリングされたセマンティックガイダンスには、監督レベルと機能レベルという2つのレベルが含まれています。監視レベルガイダンスには、各レンダリングセマンティックラベルの妥当性を決定する双方向検証モジュールが組み込まれており、特徴レベルガイダンスには、注意機構を介して各ポイントによってクエリされる意味認識情報をエンコードして意味関連予測を得る学習可能なコードブックが組み込まれている。全体的なセマンティックガイダンスは、自己改善パイプラインに組み込まれる。また、より困難なスパースインプット屋内ベンチマークを導入し、入力回数を6.5%に制限した。提案手法の有効性を実証し,既存手法と比較して優れた性能を示す。

関連論文リスト

"Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文参考訳（メタデータ） (2025-03-11T17:59:41Z)
DepthMaster: Taming Diffusion Models for Monocular Depth Estimation [41.81343543266191]
識別深度推定タスクに生成的特徴を適応する単一ステップ拡散モデルを提案する。 2つのモジュールの可能性を完全に活用するために、2段階のトレーニング戦略を採用しています。本モデルでは, 一般化と詳細保存の観点から最先端の性能を達成し, 各種データセット間の拡散に基づく他の手法よりも優れる。
論文参考訳（メタデータ） (2025-01-05T15:18:32Z)
Enhancing Hyperspectral Image Prediction with Contrastive Learning in Low-Label Regime [0.810304644344495]
自己教師付きコントラスト学習は、限られたラベル付きデータの課題に対処するための効果的なアプローチである。単一ラベルと複数ラベルの分類タスクに対して,本手法の性能を評価する。
論文参考訳（メタデータ） (2024-10-10T10:20:16Z)
SEER-ZSL: Semantic Encoder-Enhanced Representations for Generalized Zero-Shot Learning [0.6792605600335813]
Zero-Shot Learning (ZSL)は、トレーニング中に見えないカテゴリを特定するという課題を示す。ゼロショット学習のためのセマンティック強化表現(SEER-ZSL)を提案する。まず,確率的エンコーダを用いて意味のある意味情報を抽出し,意味的一貫性とロバスト性を高めることを目的とする。第2に、学習したデータ分布を逆向きに訓練した発電機で利用することにより、視覚空間を蒸留し、第3に、未確認なカテゴリを真のデータ多様体にマッピングできるようにする。
論文参考訳（メタデータ） (2023-12-20T15:18:51Z)
2D Feature Distillation for Weakly- and Semi-Supervised 3D Semantic Segmentation [92.17700318483745]
合成訓練された2Dセマンティックセマンティックセグメンテーションネットワークから高レベル特徴情報を蒸留するアイデアに基づく画像誘導ネットワーク(IGNet)を提案する。 IGNetは、ScribbleKITTI上の弱い教師付きLiDARセマンティックセマンティックセグメンテーションの最先端の結果を達成し、8%のラベル付きポイントしか持たない完全な教師付きトレーニングに対して最大98%のパフォーマンスを誇っている。
論文参考訳（メタデータ） (2023-11-27T07:57:29Z)
GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文参考訳（メタデータ） (2023-11-20T15:59:41Z)
DARF: Depth-Aware Generalizable Neural Radiance Field [51.29437249009986]
本稿では,Depth-Aware Dynamic Smpling(DADS)戦略を用いたDARF(Depth-Aware Generalizable Neural Radiance Field)を提案する。筆者らのフレームワークは,数枚の入力画像で,画素レベルと幾何学レベルの両方の見えないシーンを推測する。 DARFは、最先端の一般化可能なNeRF法と比較して、レンダリング品質と深さ推定を改善しつつ、サンプルを50%削減する。
論文参考訳（メタデータ） (2022-12-05T14:00:59Z)
Activation to Saliency: Forming High-Quality Labels for Unsupervised Salient Object Detection [54.92703325989853]
本稿では,高品質なサリエンシキューを効果的に生成する2段階アクティベーション・ツー・サリエンシ(A2S)フレームワークを提案する。トレーニングプロセス全体において、私たちのフレームワークにヒューマンアノテーションは関与していません。本フレームワークは,既存のUSOD法と比較して高い性能を示した。
論文参考訳（メタデータ） (2021-12-07T11:54:06Z)
An audiovisual and contextual approach for categorical and continuous emotion recognition in-the-wild [27.943550651941166]
第2回ワークショップおよびABAW(Affective Behavior Analysis in-wild)の会場における映像による視覚的感情認識の課題に取り組む。顔の特徴の抽出にのみ依存する標準的な手法は、上記の感情情報のソースが、頭や身体の向き、解像度の低さ、照明不足によってアクセスできない場合に、正確な感情予測を欠くことが多い。我々は、より広い感情認識フレームワークの一部として、身体的および文脈的特徴を活用することで、この問題を緩和したいと考えています。
論文参考訳（メタデータ） (2021-07-07T20:13:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。