論文の概要: RemixFusion: Residual-based Mixed Representation for Large-scale Online RGB-D Reconstruction
- arxiv url: http://arxiv.org/abs/2507.17594v2
- Date: Mon, 28 Jul 2025 04:36:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 14:15:47.060068
- Title: RemixFusion: Residual-based Mixed Representation for Large-scale Online RGB-D Reconstruction
- Title(参考訳): RemixFusion:大規模オンラインRGB-D再構成のための残留型混合表現
- Authors: Yuqing Lan, Chenyang Zhu, Shuaifeng Zhi, Jiazhao Zhang, Zhoufeng Wang, Renjiao Yi, Yijie Wang, Kai Xu,
- Abstract要約: RemixFusionはシーン再構成とカメラポーズ推定のための新しい残差ベース混合表現である。
特に,明示的な粗いTSDFグリッドと暗黙的なニューラルモジュールからなる残差ベースのマップ表現を提案する。
我々の手法は、明示的あるいは暗黙的な表現に基づくものを含む、最先端のすべてのものを上回る。
- 参考スコア(独自算出の注目度): 18.4683556884268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The introduction of the neural implicit representation has notably propelled the advancement of online dense reconstruction techniques. Compared to traditional explicit representations, such as TSDF, it improves the mapping completeness and memory efficiency. However, the lack of reconstruction details and the time-consuming learning of neural representations hinder the widespread application of neural-based methods to large-scale online reconstruction. We introduce RemixFusion, a novel residual-based mixed representation for scene reconstruction and camera pose estimation dedicated to high-quality and large-scale online RGB-D reconstruction. In particular, we propose a residual-based map representation comprised of an explicit coarse TSDF grid and an implicit neural module that produces residuals representing fine-grained details to be added to the coarse grid. Such mixed representation allows for detail-rich reconstruction with bounded time and memory budget, contrasting with the overly-smoothed results by the purely implicit representations, thus paving the way for high-quality camera tracking. Furthermore, we extend the residual-based representation to handle multi-frame joint pose optimization via bundle adjustment (BA). In contrast to the existing methods, which optimize poses directly, we opt to optimize pose changes. Combined with a novel technique for adaptive gradient amplification, our method attains better optimization convergence and global optimality. Furthermore, we adopt a local moving volume to factorize the mixed scene representation with a divide-and-conquer design to facilitate efficient online learning in our residual-based framework. Extensive experiments demonstrate that our method surpasses all state-of-the-art ones, including those based either on explicit or implicit representations, in terms of the accuracy of both mapping and tracking on large-scale scenes.
- Abstract(参考訳): 神経暗黙の表現の導入は、オンラインの高密度再構築技術の進歩を顕著に促進した。
TSDFのような従来の明示的な表現と比較すると、マッピングの完全性とメモリ効率が向上する。
しかし、再建の詳細の欠如と神経表現の時間的学習は、大規模オンライン再構築へのニューラルネットワーク手法の広範な適用を妨げている。
本稿では,RemixFusionを紹介した。RemixFusionは,高品質で大規模なオンラインRGB-D再構成のためのシーン再構成とカメラポーズ推定のための,新しい残差ベース混合表現である。
特に,暗黙的な粗いTSDFグリッドと,粗いグリッドに付加される微細な詳細を表す残差を生成する暗黙のニューラルモジュールからなる残差ベースのマップ表現を提案する。
このような混合表現は、制限時間とメモリ予算で詳細な再構成を可能にし、純粋に暗黙的な表現による過度に平滑な結果とは対照的に、高品質なカメラトラッキングの道を開くことができる。
さらに,残差に基づく表現を拡張して,バンドル調整(BA)による多フレーム共同ポーズ最適化を行う。
ポーズを直接最適化する既存のメソッドとは対照的に、ポーズ変更を最適化することを選択します。
適応勾配増幅のための新しい手法と組み合わせることで,最適化収束性と大域的最適性を実現する。
さらに,混合シーン表現を分割コンカレント設計で分解するために,局所的な移動量を採用することにより,残差ベースフレームワークにおけるオンライン学習の効率化を図る。
大規模シーンのマッピングと追跡の精度から, 明示的表現と暗黙的表現のどちらにも基づく手法を含む, 最先端の手法を網羅した実験結果が得られた。
関連論文リスト
- Self-Calibrating Gaussian Splatting for Large Field of View Reconstruction [30.529707438964596]
本稿では,カメラパラメータ,レンズ歪み,3次元ガウス表現を協調的に最適化する自己校正フレームワークを提案する。
本手法により,広角レンズで撮影した大視野視野(FOV)画像から高品質なシーン再構成が可能となり,少ない画像からシーンをモデル化することができる。
論文 参考訳(メタデータ) (2025-02-13T18:15:10Z) - $R^2$-Mesh: Reinforcement Learning Powered Mesh Reconstruction via Geometry and Appearance Refinement [5.810659946867557]
Neural Radiance Fields (NeRF)に基づくメッシュ再構成は、コンピュータグラフィックス、仮想現実、医療画像などの様々なアプリケーションで人気がある。
マルチビュー画像からメッシュを段階的に生成し,最適化する新しいアルゴリズムを提案する。
本手法は,メッシュレンダリングの品質と幾何学的品質の両方において,高い競争力とロバストな性能を提供する。
論文 参考訳(メタデータ) (2024-08-19T16:33:17Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - MIPS-Fusion: Multi-Implicit-Submaps for Scalable and Robust Online
Neural RGB-D Reconstruction [15.853932110058585]
本稿では,新しい暗黙表現-多目的サブマップに基づく,堅牢でスケーラブルなオンラインRGB-D再構成手法を提案する。
本手法では,脳神経サブマップを走査軌道に沿って漸進的に配置し,局所的な神経束の調整によって効率よく学習する。
初めてランダム化された最適化は、学習プロセスにいくつかの重要な設計を施したニューラルトラッキングにおいて可能となり、高速カメラモーションの下でも効率的でロバストなトラッキングを可能にする。
論文 参考訳(メタデータ) (2023-08-17T02:33:16Z) - Beyond Learned Metadata-based Raw Image Reconstruction [86.1667769209103]
生画像は、線形性や微細な量子化レベルなど、sRGB画像に対して明確な利点がある。
ストレージの要求が大きいため、一般ユーザからは広く採用されていない。
本稿では,メタデータとして,潜在空間におけるコンパクトな表現を学習する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-21T06:59:07Z) - Iterative Soft Shrinkage Learning for Efficient Image Super-Resolution [91.3781512926942]
画像超解像(SR)は、CNNからトランスフォーマーアーキテクチャへの広範なニューラルネットワーク設計を目撃している。
本研究は,市販のネットワーク設計を生かし,基礎となる計算オーバーヘッドを低減するため,超高解像度イテレーションにおけるネットワークプルーニングの可能性について検討する。
本研究では, ランダムネットワークのスパース構造を最適化し, 重要でない重みを小さめに微調整することにより, 反復型軟収縮率(ISS-P)法を提案する。
論文 参考訳(メタデータ) (2023-03-16T21:06:13Z) - NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor
Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。
提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-02T17:54:31Z) - Neural BRDF Representation and Importance Sampling [79.84316447473873]
本稿では,リフレクタンスBRDFデータのコンパクトニューラルネットワークに基づく表現について述べる。
BRDFを軽量ネットワークとしてエンコードし、適応角サンプリングによるトレーニングスキームを提案する。
複数の実世界のデータセットから等方性および異方性BRDFの符号化結果を評価する。
論文 参考訳(メタデータ) (2021-02-11T12:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。