論文の概要: ACE-G: Improving Generalization of Scene Coordinate Regression Through Query Pre-Training
- arxiv url: http://arxiv.org/abs/2510.11605v1
- Date: Mon, 13 Oct 2025 16:45:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.46416
- Title: ACE-G: Improving Generalization of Scene Coordinate Regression Through Query Pre-Training
- Title(参考訳): ACE-G: クエリ事前学習によるシーンコーディネート回帰の一般化の改善
- Authors: Leonard Bruns, Axel Barroso-Laguna, Tommaso Cavallari, Áron Monszpart, Sowmya Munukutla, Victor Adrian Prisacariu, Eric Brachmann,
- Abstract要約: シーン座標回帰(SCR)は、視覚的再局在化のための有望な学習ベースのアプローチとして確立されている。
本稿では,座標回帰器と地図表現を汎用変換器とシーン固有の地図コードに分離する。
この分離により、数万のシーンでトランスフォーマーを事前トレーニングすることができます。
- 参考スコア(独自算出の注目度): 26.573873458594303
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scene coordinate regression (SCR) has established itself as a promising learning-based approach to visual relocalization. After mere minutes of scene-specific training, SCR models estimate camera poses of query images with high accuracy. Still, SCR methods fall short of the generalization capabilities of more classical feature-matching approaches. When imaging conditions of query images, such as lighting or viewpoint, are too different from the training views, SCR models fail. Failing to generalize is an inherent limitation of previous SCR frameworks, since their training objective is to encode the training views in the weights of the coordinate regressor itself. The regressor essentially overfits to the training views, by design. We propose to separate the coordinate regressor and the map representation into a generic transformer and a scene-specific map code. This separation allows us to pre-train the transformer on tens of thousands of scenes. More importantly, it allows us to train the transformer to generalize from mapping images to unseen query images during pre-training. We demonstrate on multiple challenging relocalization datasets that our method, ACE-G, leads to significantly increased robustness while keeping the computational footprint attractive.
- Abstract(参考訳): シーン座標回帰(SCR)は、視覚的再局在化のための有望な学習ベースのアプローチとして確立されている。
シーン固有のトレーニングの数分後、SCRモデルは、高精度なクエリ画像のカメラポーズを推定する。
それでも、SCRメソッドは、より古典的な特徴マッチングアプローチの一般化能力に欠ける。
照度や視点などのクエリ画像の撮像条件がトレーニングビューとあまりにも異なる場合、SCRモデルは失敗する。
一般化に失敗したことは、従来のSCRフレームワークに固有の制限であり、彼らのトレーニングの目的は、座標回帰器自体の重みでトレーニングビューを符号化することである。
回帰器は基本的に、設計によってトレーニングビューに過度に適合する。
本稿では,座標回帰器と地図表現を汎用変換器とシーン固有の地図コードに分離する。
この分離により、数万のシーンでトランスフォーマーを事前トレーニングすることができます。
さらに重要なのは、事前トレーニング中にトランスフォーマーをトレーニングすることで、イメージのマッピングから未確認のクエリイメージへの一般化を可能にします。
提案手法であるACE-Gは,計算フットプリントを魅力的に保ちながら,ロバスト性を大幅に向上させることを示す。
関連論文リスト
- Scene Coordinate Reconstruction Priors [29.668748429324154]
シーン座標回帰(SCR)モデルは、3次元視覚のための強力な暗黙のシーン表現であることが証明されている。
本稿では,SCRモデルの確率論的再解釈について述べる。
より一貫性のあるシーンポイントの雲、より高い登録率、より良いカメラポーズが生まれるのです。
論文 参考訳(メタデータ) (2025-10-14T11:13:31Z) - HoliGS: Holistic Gaussian Splatting for Embodied View Synthesis [59.25751939710903]
本稿では,長い単眼RGBビデオのエンボディドビュー合成に対処する,変形可能なガウススプラッティングフレームワークを提案する。
提案手法は,非可逆ガウス散乱変形ネットワークを利用して大規模動的環境を正確に再構築する。
その結果、現実のシナリオにおけるEVSの実用的でスケーラブルなソリューションが浮かび上がっています。
論文 参考訳(メタデータ) (2025-06-24T03:54:40Z) - Rethinking Visual Content Refinement in Low-Shot CLIP Adaptation [31.023236232633213]
近年の適応は、コントラストビジョン・ランゲージ事前訓練の低ショット能力を高めることができる。
本稿では,テスト段階の適応計算に先立って,視覚的コンテンツリファインメント(VCR)を提案する。
提案手法を,13のデータセットを持つ3つの一般的なローショットベンチマークタスクに適用し,最先端の手法よりも大幅に改善した。
論文 参考訳(メタデータ) (2024-07-19T08:34:23Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Weatherproofing Retrieval for Localization with Generative AI and
Geometric Consistency [32.46493952272438]
最先端のビジュアルローカライゼーションアプローチは、最初の画像検索ステップに依存している。
我々は、この検索手順を改善し、最終ローカライゼーションタスクに調整する。
これらの変化が、最も困難な視覚的ローカライゼーションデータセットの大幅な改善に変換されることを実験的に示す。
論文 参考訳(メタデータ) (2024-02-14T15:24:20Z) - Vision-by-Language for Training-Free Compositional Image Retrieval [78.60509831598745]
合成画像検索(CIR)は、データベース内の関連する対象画像を検索することを目的としている。
大規模視覚言語モデル(VLM)を用いた最近の研究動向
我々は、CIReVL(Vision-by-Language)による学習自由なCIRへの取り組みを提案する。
論文 参考訳(メタデータ) (2023-10-13T17:59:38Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - Learning to Localize in Unseen Scenes with Relative Pose Regressors [5.672132510411465]
相対的なポーズ回帰器(RPR)は、相対的な翻訳と回転をポーズラベル付き参照に推定することで、カメラをローカライズする。
しかし実際には、RPRのパフォーマンスは目に見えない場面で著しく劣化している。
我々は、結合、投影、注意操作(Transformer)によるアグリゲーションを実装し、結果として生じる潜在コードから相対的なポーズパラメータを回帰することを学ぶ。
現状のRCPと比較すると、室内および屋外のベンチマークにおいて、表示シーンにおける競合性能を維持しながら、見えない環境において、より優れたローカライズが期待できる。
論文 参考訳(メタデータ) (2023-03-05T17:12:50Z) - Location-Aware Self-Supervised Transformers [74.76585889813207]
画像部品の相対的な位置を予測し,セマンティックセグメンテーションのためのネットワークを事前訓練する。
参照パッチのサブセットを問合せのサブセットにマスキングすることで,タスクの難しさを制御します。
実験により,この位置認識事前学習が,いくつかの難解なセマンティックセグメンテーションベンチマークに競合する表現をもたらすことが示された。
論文 参考訳(メタデータ) (2022-12-05T16:24:29Z) - Leveraging Image Matching Toward End-to-End Relative Camera Pose Regression [13.233301155616616]
本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。
従来のパイプラインにインスパイアされた本手法では,画像マッチング(IM)を,相対的ポーズ回帰のための事前学習タスクとして活用する。
提案手法をいくつかのデータセット上で評価し,従来のエンドツーエンド手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-11-27T22:01:47Z) - Pretraining is All You Need for Image-to-Image Translation [59.43151345732397]
画像から画像への一般的な翻訳を促進するために,事前学習を使うことを提案する。
提案した事前学習型画像画像変換(PITI)は,前例のないリアリズムと忠実さのイメージを合成できることを示す。
論文 参考訳(メタデータ) (2022-05-25T17:58:26Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。