Fugu-MT 論文翻訳(概要): HSCNet++: Hierarchical Scene Coordinate Classification and Regression for Visual Localization with Transformer

論文の概要: HSCNet++: Hierarchical Scene Coordinate Classification and Regression for Visual Localization with Transformer

arxiv url: http://arxiv.org/abs/2305.03595v1
Date: Fri, 5 May 2023 15:00:14 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-08 13:32:24.552085
Title: HSCNet++: Hierarchical Scene Coordinate Classification and Regression for Visual Localization with Transformer
Title（参考訳）: hscnet++:transformerを用いた視覚定位のための階層的シーン座標分類と回帰
Authors: Shuzhe Wang, Zakaria Laskar, Iaroslav Melekhov, Xiaotian Li, Yi Zhao, Giorgos Tolias, Juho Kannala
Abstract要約: 本稿では,1枚のRGB画像から画素シーン座標を粗い方法で予測する階層的なシーン座標ネットワークを提案する。提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。
参考スコア（独自算出の注目度）: 23.920690073252636
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Visual localization is critical to many applications in computer vision and robotics. To address single-image RGB localization, state-of-the-art feature-based methods match local descriptors between a query image and a pre-built 3D model. Recently, deep neural networks have been exploited to regress the mapping between raw pixels and 3D coordinates in the scene, and thus the matching is implicitly performed by the forward pass through the network. However, in a large and ambiguous environment, learning such a regression task directly can be difficult for a single network. In this work, we present a new hierarchical scene coordinate network to predict pixel scene coordinates in a coarse-to-fine manner from a single RGB image. The proposed method, which is an extension of HSCNet, allows us to train compact models which scale robustly to large environments. It sets a new state-of-the-art for single-image localization on the 7-Scenes, 12 Scenes, Cambridge Landmarks datasets, and the combined indoor scenes.
Abstract（参考訳）: 視覚のローカライゼーションは、コンピュータビジョンやロボット工学の多くの応用に不可欠である。単一画像rgbローカライズに対処するため、最先端の機能ベース手法はクエリ画像と予め構築された3dモデルの間のローカルディスクリプタにマッチする。近年,深層ニューラルネットワークを用いてシーン内の原画素と3次元座標のマッピングを回帰し,前方通過によって暗黙的にマッチングを行うようになっている。しかし、大規模で曖昧な環境では、そのような回帰タスクを直接学習することは、単一のネットワークで困難である。そこで本研究では,1つのrgb画像からピクセルシーン座標を粗視的に予測する新しい階層的シーン座標ネットワークを提案する。提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。 7つのシーン、12のシーン、ケンブリッジのランドマークデータセット、そして屋内のシーンを組み合わせた単一の画像のローカライズのための新しい最新技術を設定する。

関連論文リスト

A-SCoRe: Attention-based Scene Coordinate Regression for wide-ranging scenarios [1.2093553114715083]
A-ScoReは、意味のある高セマンティックな2Dディスクリプタを生成するために、ディスクリプタマップレベルの注意を利用するアテンションベースのモデルである。その結果,本手法はより軽量でフレキシブルでありながら,複数のベンチマークでState-of-the-artメソッドに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-03-18T07:39:50Z)
GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-06-06T17:59:50Z)
SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文参考訳（メタデータ） (2023-07-21T16:56:36Z)
Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文参考訳（メタデータ） (2023-04-27T23:03:52Z)
Graph Attention Network for Camera Relocalization on Dynamic Scenes [1.0398909602421018]
動的環境における画像カメラの位置を推定するために,シーントライアングルメッシュ表現を学習するためのグラフアテンションネットワークに基づくアプローチを考案する。室内カメラの動的再局在化のためのRIO10ベンチマークにおいて,最先端手法のカメラポーズ精度を0.358ドルから0.506ドルに改善した。
論文参考訳（メタデータ） (2022-09-29T18:57:52Z)
MeshLoc: Mesh-Based Visual Localization [54.731309449883284]
シーン表現を構築するために,データベースイメージ間のマッチング機能を必要としない,高密度な3Dメッシュに基づく,より柔軟な代替手段を模索する。驚くべきことに、ニューラルネットワークのレンダリングステージなしで、これらのメッシュのレンダリングの特徴を抽出するときに、競合的な結果が得られる。以上の結果から,高密度な3次元モデルに基づく表現は,既存の表現の代替として有望なものであり,今後の研究にとって興味深い,挑戦的な方向性を示すものと考えられる。
論文参考訳（メタデータ） (2022-07-21T21:21:10Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文参考訳（メタデータ） (2021-08-12T15:22:33Z)
VS-Net: Voting with Segmentation for Visual Localization [72.8165619061249]
本稿では,クエリ画像と3Dマップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。
論文参考訳（メタデータ） (2021-05-23T08:44:11Z)
Learning Camera Localization via Dense Scene Matching [45.0957383562443]
カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
論文参考訳（メタデータ） (2021-03-31T03:47:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。