Fugu-MT 論文翻訳(概要): SACReg: Scene-Agnostic Coordinate Regression for Visual Localization

論文の概要: SACReg: Scene-Agnostic Coordinate Regression for Visual Localization

arxiv url: http://arxiv.org/abs/2307.11702v2
Date: Fri, 28 Jul 2023 10:36:58 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-31 15:11:30.325464
Title: SACReg: Scene-Agnostic Coordinate Regression for Visual Localization
Title（参考訳）: sacreg:視覚局所化のためのシーン非依存座標回帰
Authors: Jerome Revaud, Yohann Cabon, Romain Br\'egier, JongMin Lee and Philippe Weinzaepfel
Abstract要約: シーン座標回帰(SCR)は、与えられた画像のピクセル毎に3D座標を予測する。本稿では,単一の汎用SCRモデルを一度トレーニングして,新しいテストシーンにデプロイする,という新しいパラダイムを提案する。私たちはCambridgeローカライゼーションベンチマークに新たな技術状況を設定し、機能マッチングベースのアプローチよりも優れています。
参考スコア（独自算出の注目度）: 16.79390271249552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Scene coordinates regression (SCR), i.e., predicting 3D coordinates for every pixel of a given image, has recently shown promising potential. However, existing methods remain mostly scene-specific or limited to small scenes and thus hardly scale to realistic datasets. In this paper, we propose a new paradigm where a single generic SCR model is trained once to be then deployed to new test scenes, regardless of their scale and without further finetuning. For a given query image, it collects inputs from off-the-shelf image retrieval techniques and Structure-from-Motion databases: a list of relevant database images with sparse pointwise 2D-3D annotations. The model is based on the transformer architecture and can take a variable number of images and sparse 2D-3D annotations as input. It is trained on a few diverse datasets and significantly outperforms other scene regression approaches on several benchmarks, including scene-specific models, for visual localization. In particular, we set a new state of the art on the Cambridge localization benchmark, even outperforming feature-matching-based approaches.
Abstract（参考訳）: シーン座標回帰(SCR)、すなわち、ある画像の各ピクセルの3D座標を予測することは、最近、有望な可能性を示している。しかし、既存の手法はほとんどシーン固有のものであり、小さなシーンに限定されているため、現実的なデータセットにはスケールしにくい。本稿では,1つの汎用SCRモデルを一度訓練して,そのスケールによらず,さらに微調整を行わずに新しいテストシーンに展開する,新しいパラダイムを提案する。与えられた問合せ画像に対して、オフ・ザ・シェルフの画像検索技術とstructure-from-motionデータベースから入力を収集する。このモデルはトランスアーキテクチャに基づいており、可変数の画像とスパース2D-3Dアノテーションを入力として取り込むことができる。さまざまなデータセットでトレーニングされ、視覚的なローカライゼーションのために、シーン固有のモデルを含むいくつかのベンチマークで、他のシーン回帰アプローチを著しく上回っている。特に、ケンブリッジのローカライゼーションベンチマークに新しい技術状況を設定し、機能マッチングベースのアプローチよりも優れています。

関連論文リスト

Continuous 3D Perception Model with Persistent State [111.83854602049222]
広い範囲の3Dタスクを解くことができる統一的なフレームワークを提案する。我々のアプローチでは、新しい観測毎に状態表現を継続的に更新するステートフルなリカレントモデルが特徴である。各種3D/4Dタスクにおける本手法の評価を行い,各課題における競合性や最先端性能を実証する。
論文参考訳（メタデータ） (2025-01-21T18:59:23Z)
No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文参考訳（メタデータ） (2024-10-31T17:58:22Z)
GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
3D Gaussian Splatting (3DGS) は、空間的特徴を持つ3次元幾何学とシーンの外観の両方をコンパクトに符号化することができる。モデルの空間的理解を改善するために,高密度キーポイント記述子を3DGSに蒸留することを提案する。提案手法はNeRFMatchやPNeRFLocなど,最先端のニューラル・レンダー・ポース(NRP)法を超越した手法である。
論文参考訳（メタデータ） (2024-09-24T23:18:32Z)
GLACE: Global Local Accelerated Coordinate Encoding [66.87005863868181]
シーン座標回帰法は小規模なシーンでは有効であるが、大規模シーンでは重大な課題に直面している。本研究では,事前学習したグローバルおよびローカルのエンコーディングを統合したGLACEを提案する。提案手法は,低マップサイズモデルを用いて,大規模シーンにおける最先端結果を実現する。
論文参考訳（メタデータ） (2024-06-06T17:59:50Z)
HSCNet++: Hierarchical Scene Coordinate Classification and Regression for Visual Localization with Transformer [23.920690073252636]
本稿では,1枚のRGB画像から画素シーン座標を粗い方法で予測する階層的なシーン座標ネットワークを提案する。提案手法は,HSCNetの拡張であり,大規模環境にロバストにスケールするコンパクトモデルの訓練を可能にする。
論文参考訳（メタデータ） (2023-05-05T15:00:14Z)
SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文参考訳（メタデータ） (2023-04-28T14:39:22Z)
Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文参考訳（メタデータ） (2023-04-12T16:15:05Z)
Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文参考訳（メタデータ） (2021-04-21T00:35:32Z)
Learning Camera Localization via Dense Scene Matching [45.0957383562443]
カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
論文参考訳（メタデータ） (2021-03-31T03:47:42Z)
Back to the Feature: Learning Robust Camera Localization from Pixels to Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文参考訳（メタデータ） (2021-03-16T17:40:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。