論文の概要: MZEN: Multi-Zoom Enhanced NeRF for 3-D Reconstruction with Unknown Camera Poses
- arxiv url: http://arxiv.org/abs/2508.05819v1
- Date: Thu, 07 Aug 2025 19:44:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-11 20:39:05.998251
- Title: MZEN: Multi-Zoom Enhanced NeRF for 3-D Reconstruction with Unknown Camera Poses
- Title(参考訳): MZEN:未知のカメラで3D再構成のためのマルチズーム強化型NeRF
- Authors: Jong-Ik Park, Carlee Joe-Wong, Gary K. Fedder,
- Abstract要約: MZEN(Multi-Zoom Enhanced NeRF)を提案する。
MZENはピンホールカメラモデルを、焦点距離を拡大する明示的で学習可能なズームスカラーで強化する。
MZENはポーズなしのベースラインや高解像度のバリエーションよりも一貫して優れている。
- 参考スコア(独自算出の注目度): 11.389019661082415
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Neural Radiance Fields (NeRF) methods excel at 3D reconstruction from multiple 2D images, even those taken with unknown camera poses. However, they still miss the fine-detailed structures that matter in industrial inspection, e.g., detecting sub-micron defects on a production line or analyzing chips with Scanning Electron Microscopy (SEM). In these scenarios, the sensor resolution is fixed and compute budgets are tight, so the only way to expose fine structure is to add zoom-in images; yet, this breaks the multi-view consistency that pose-free NeRF training relies on. We propose Multi-Zoom Enhanced NeRF (MZEN), the first NeRF framework that natively handles multi-zoom image sets. MZEN (i) augments the pin-hole camera model with an explicit, learnable zoom scalar that scales the focal length, and (ii) introduces a novel pose strategy: wide-field images are solved first to establish a global metric frame, and zoom-in images are then pose-primed to the nearest wide-field counterpart via a zoom-consistent crop-and-match procedure before joint refinement. Across eight forward-facing scenes$\unicode{x2013}$synthetic TCAD models, real SEM of micro-structures, and BLEFF objects$\unicode{x2013}$MZEN consistently outperforms pose-free baselines and even high-resolution variants, boosting PSNR by up to $28 \%$, SSIM by $10 \%$, and reducing LPIPS by up to $222 \%$. MZEN, therefore, extends NeRF to real-world factory settings, preserving global accuracy while capturing the micron-level details essential for industrial inspection.
- Abstract(参考訳): ニューラル・ラジアンス・フィールド(NeRF)法は、未知のカメラのポーズで撮影されたものであっても、複数の2次元画像から3次元再構成において優れる。
しかし、産業検査、製造ライン上のサブミクロン欠陥の検出、走査電子顕微鏡(SEM)によるチップ分析などにおいて重要な細かな構造を見逃している。
これらのシナリオでは、センサーの解像度は固定され、計算予算は厳格であるため、微細な構造を公開する唯一の方法はズームインイメージを追加することだが、これは、ポーズなしのNeRFトレーニングが依存するマルチビュー一貫性を損なう。
我々は、マルチズーム画像集合をネイティブに処理する最初のNeRFフレームワークであるMZEN(Multi-Zoom Enhanced NeRF)を提案する。
MZEN
(i)焦点距離を拡大する明示的で学習可能なズームスカラーでピンホールカメラモデルを強化し、
(II) 広視野画像はまずグローバルな計量フレームを確立するために解決され、ズームイン画像は、共同改良前のズーム一貫性のある作物とマッチの手順により、最寄りの広視野画像にポーズする。
8つの前向きシーン$\unicode{x2013}$synthetic TCADモデル、実際のマイクロ構造のSEM、およびBLEFFオブジェクト$\unicode{x2013}$MZENは、ポーズなしのベースラインや高解像度のバリエーションを一貫して上回り、PSNRを最大280 \%、SSIMを10 \%、LPIPSを最大222 \%まで値下げする。
したがって、MZENはNeRFを実世界の工場環境に拡張し、産業検査に必要なミクロンレベルの詳細を捉えながら、世界的な精度を保っている。
関連論文リスト
- Blending Distributed NeRFs with Tri-stage Robust Pose Optimization [14.36438070050125]
3段ポーズ最適化を用いた分散NeRFシステムを提案する。
本稿では,三段ポーズ最適化を用いた分散NeRFシステムを提案する。
論文 参考訳(メタデータ) (2024-05-05T10:27:03Z) - CT-NeRF: Incremental Optimizing Neural Radiance Field and Poses with Complex Trajectory [12.460959809597213]
ポーズや深度入力を伴わないRGB画像のみを用いた逐次再構成最適化パイプラインであるCT-NeRFを提案する。
実世界の2つのデータセットであるNeRFBusterとFree-DatasetにおけるCT-NeRFの性能を評価する。
論文 参考訳(メタデータ) (2024-04-22T06:07:06Z) - MC-NeRF: Multi-Camera Neural Radiance Fields for Multi-Camera Image Acquisition Systems [22.494866649536018]
ニューラル・ラジアンス・フィールド(NeRF)は3次元シーン表現にマルチビュー・イメージを使用し、顕著な性能を示す。
以前のNeRFベースの手法のほとんどは、ユニークなカメラを前提としており、マルチカメラのシナリオをめったに考慮していない。
提案するMC-NeRFは,内在パラメータと外在パラメータの両方を,NeRFと併用して共同最適化する手法である。
論文 参考訳(メタデータ) (2023-09-14T16:40:44Z) - LU-NeRF: Scene and Pose Estimation by Synchronizing Local Unposed NeRFs [56.050550636941836]
NeRFモデルが野生で広く展開されるのを防ぐ重要な障害は、正確なカメラのポーズに依存することである。
カメラのポーズとニューラルフィールドを協調して推定するLU-NeRFという新しい手法を提案する。
LU-NeRFパイプラインは、ポーズに制限的な仮定を加えることなく、未提案のNeRFに対する事前試みより優れることを示す。
論文 参考訳(メタデータ) (2023-06-08T17:56:22Z) - CLONeR: Camera-Lidar Fusion for Occupancy Grid-aided Neural
Representations [77.90883737693325]
本稿では,スパース入力センサビューから観測される大規模な屋外運転シーンをモデル化することで,NeRFを大幅に改善するCLONeRを提案する。
これは、NeRFフレームワーク内の占有率と色学習を、それぞれLiDARとカメラデータを用いてトレーニングされた個別のMulti-Layer Perceptron(MLP)に分離することで実現される。
さらに,NeRFモデルと平行に3D Occupancy Grid Maps(OGM)を構築する手法を提案し,この占有グリッドを利用して距離空間のレンダリングのために線に沿った点のサンプリングを改善する。
論文 参考訳(メタデータ) (2022-09-02T17:44:50Z) - GNeRF: GAN-based Neural Radiance Field without Posed Camera [67.80805274569354]
gnerf(generative adversarial networks (gan) とニューラルネットワークのラジアンスフィールド再構成を組み合わせるためのフレームワーク)を,未知のカメラポーズでさえも複雑なシナリオで導入する。
提案手法は, 従来は非常に難易度の高い, 繰り返しパターンや低テクスチャの場面において, ベースラインを良好に向上させる。
論文 参考訳(メタデータ) (2021-03-29T13:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。