論文の概要: Query Quantized Neural SLAM
- arxiv url: http://arxiv.org/abs/2412.16476v1
- Date: Sat, 21 Dec 2024 04:08:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:50.203438
- Title: Query Quantized Neural SLAM
- Title(参考訳): クエリ量子化ニューラルSLAM
- Authors: Sijia Jiang, Jing Hua, Zhizhong Han,
- Abstract要約: 本稿では,入力の変動を減らし,フレームのオーバーフィットを容易かつ高速に行うためのクエリ量子化ニューラルネットワークSLAMを提案する。
広範に使用されているベンチマークの視覚的および数値的な比較を報告し、再構成とカメラトラッキングの両方における最新の手法よりも優位性を示す。
- 参考スコア(独自算出の注目度): 25.72309707436261
- License:
- Abstract: Neural implicit representations have shown remarkable abilities in jointly modeling geometry, color, and camera poses in simultaneous localization and mapping (SLAM). Current methods use coordinates, positional encodings, or other geometry features as input to query neural implicit functions for signed distances and color which produce rendering errors to drive the optimization in overfitting image observations. However, due to the run time efficiency requirement in SLAM systems, we are merely allowed to conduct optimization on each frame in few iterations, which is far from enough for neural networks to overfit these queries. The underfitting usually results in severe drifts in camera tracking and artifacts in reconstruction. To resolve this issue, we propose query quantized neural SLAM which uses quantized queries to reduce variations of input for much easier and faster overfitting a frame. To this end, we quantize a query into a discrete representation with a set of codes, and only allow neural networks to observe a finite number of variations. This allows neural networks to become increasingly familiar with these codes after overfitting more and more previous frames. Moreover, we also introduce novel initialization, losses, and argumentation to stabilize the optimization with significant uncertainty in the early optimization stage, constrain the optimization space, and estimate camera poses more accurately. We justify the effectiveness of each design and report visual and numerical comparisons on widely used benchmarks to show our superiority over the latest methods in both reconstruction and camera tracking.
- Abstract(参考訳): ニューラルな暗黙表現は、同時局所化とマッピング(SLAM)において、幾何学、色、カメラのポーズを共同でモデル化する際、顕著な能力を示している。
現在の手法では、座標、位置エンコーディング、その他の幾何学的特徴を入力として、符号付き距離と色に対して暗黙の関数をクエリし、レンダリングエラーを生成し、画像観察の過度な適合を最適化する。
しかし、SLAMシステムでは実行時の効率が要求されるため、各フレームを数回繰り返して最適化することが許されるだけで、ニューラルネットワークがこれらのクエリを過度に適合させるにはほど遠い。
この不適合は通常、カメラのトラッキングと復元のアーティファクトに深刻なドリフトをもたらす。
この問題を解決するために,クエリ量子化ニューラルSLAMを提案する。
この目的のために、クエリを一組のコードで離散表現に量子化し、ニューラルネットワークが有限個のバリエーションを観測することしかできない。
これにより、ニューラルネットワークは、これまで以上に多くのフレームをオーバーフィットさせた後、これらのコードに慣れるようになった。
さらに,初期最適化の段階において重要な不確実性を伴う最適化の安定化,最適化空間の制約,推定カメラの精度向上のために,新たな初期化,損失,議論を導入する。
本稿では,各設計の有効性を正当化し,広範に使用されているベンチマークの視覚的比較と数値的比較を報告する。
関連論文リスト
- Learning Robust Multi-Scale Representation for Neural Radiance Fields
from Unposed Images [65.41966114373373]
コンピュータビジョンにおけるニューラルイメージベースのレンダリング問題に対する改善された解決策を提案する。
提案手法は,テスト時に新たな視点からシーンのリアルなイメージを合成することができる。
論文 参考訳(メタデータ) (2023-11-08T08:18:23Z) - Training and Predicting Visual Error for Real-Time Applications [6.687091041822445]
コンボリューションニューラルネットワークが参照または描画画像を必要とすることなく、様々な視覚メトリクスを予測する能力について検討する。
我々のソリューションは、ほとんどの最先端の遅延シェーディングパイプラインで容易に利用できる画像空間情報と、以前のフレームからの再投影を組み合わせることで、視覚的エラーを適切に見積もることができる。
論文 参考訳(メタデータ) (2023-10-13T14:14:00Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - BID-NeRF: RGB-D image pose estimation with inverted Neural Radiance
Fields [0.0]
Inverted Neural Radiance Fields (iNeRF) アルゴリズムの改良を目標とし、画像ポーズ推定問題をNeRFに基づく反復線形最適化として定義する。
NeRFは、現実世界のシーンやオブジェクトのフォトリアリスティックな新しいビューを合成できる新しい空間表現モデルである。
論文 参考訳(メタデータ) (2023-10-05T14:27:06Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - FMapping: Factorized Efficient Neural Field Mapping for Real-Time Dense
RGB SLAM [3.6985351289638957]
本稿では,リアルタイム高密度RGB SLAMにおける色付き点クラウドマップの連続的推定を容易にする,効率的なニューラルネットワークマッピングフレームワークであるFMappingを紹介する。
本稿では,シーン表現のための効果的な因子化手法を提案し,シーン再構成の不確実性を低減するためのスライディングウィンドウ戦略を提案する。
論文 参考訳(メタデータ) (2023-06-01T11:51:46Z) - ZippyPoint: Fast Interest Point Detection, Description, and Matching
through Mixed Precision Discretization [71.91942002659795]
我々は,ネットワーク量子化技術を用いて推論を高速化し,計算限定プラットフォームでの利用を可能にする。
バイナリディスクリプタを用いた効率的な量子化ネットワークZippyPointは,ネットワーク実行速度,ディスクリプタマッチング速度,3Dモデルサイズを改善する。
これらの改善は、ホモグラフィー推定、視覚的ローカライゼーション、マップフリーな視覚的再ローカライゼーションのタスクで評価されるように、小さなパフォーマンス劣化をもたらす。
論文 参考訳(メタデータ) (2022-03-07T18:59:03Z) - NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor
Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。
提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-02T17:54:31Z) - A Flexible Framework for Designing Trainable Priors with Adaptive
Smoothing and Game Encoding [57.1077544780653]
我々は、前方通過を非滑らかな凸最適化問題として解釈できるニューラルネットワーク層の設計とトレーニングのための一般的なフレームワークを紹介する。
グラフのノードに代表されるローカルエージェントによって解決され、正規化関数を介して相互作用する凸ゲームに焦点を当てる。
このアプローチは、訓練可能なエンドツーエンドのディープモデル内で、古典的な画像の事前使用を可能にするため、画像の問題を解決するために魅力的である。
論文 参考訳(メタデータ) (2020-06-26T08:34:54Z) - u-net CNN based fourier ptychography [5.46367622374939]
本稿では,畳み込みニューラルネットワークに基づく新しい検索アルゴリズムを提案する。
実験により, システム収差下において, 再現性が向上し, より堅牢であることが確認された。
論文 参考訳(メタデータ) (2020-03-16T22:48:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。