論文の概要: DC-VLAQ: Query-Residual Aggregation for Robust Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2601.12729v1
- Date: Mon, 19 Jan 2026 05:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.761475
- Title: DC-VLAQ: Query-Residual Aggregation for Robust Visual Place Recognition
- Title(参考訳): DC-VLAQ:ロバストな視覚的位置認識のためのクエリ残差集約
- Authors: Hanyu Zhu, Zhihao Zhan, Yuhang Ming, Liang Li, Dibo Hou, Javier Civera, Wanzeng Kong,
- Abstract要約: 本稿では,相補的VFMとロバストなグローバルアグリゲーションを融合した表現中心のフレームワークであるDC-VLAQを提案する。
我々は,DC-VLAQが強いベースラインを一貫して上回り,最先端の性能を実現していることを示す。
- 参考スコア(独自算出の注目度): 22.709465759219327
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the central challenges in visual place recognition (VPR) is learning a robust global representation that remains discriminative under large viewpoint changes, illumination variations, and severe domain shifts. While visual foundation models (VFMs) provide strong local features, most existing methods rely on a single model, overlooking the complementary cues offered by different VFMs. However, exploiting such complementary information inevitably alters token distributions, which challenges the stability of existing query-based global aggregation schemes. To address these challenges, we propose DC-VLAQ, a representation-centric framework that integrates the fusion of complementary VFMs and robust global aggregation. Specifically, we first introduce a lightweight residual-guided complementary fusion that anchors representations in the DINOv2 feature space while injecting complementary semantics from CLIP through a learned residual correction. In addition, we propose the Vector of Local Aggregated Queries (VLAQ), a query--residual global aggregation scheme that encodes local tokens by their residual responses to learnable queries, resulting in improved stability and the preservation of fine-grained discriminative cues. Extensive experiments on standard VPR benchmarks, including Pitts30k, Tokyo24/7, MSLS, Nordland, SPED, and AmsterTime, demonstrate that DC-VLAQ consistently outperforms strong baselines and achieves state-of-the-art performance, particularly under challenging domain shifts and long-term appearance changes.
- Abstract(参考訳): 視覚的位置認識(VPR)における中心的な課題の1つは、大きな視点の変化、照明のバリエーション、厳しい領域シフトの下で差別的であり続ける、堅牢なグローバルな表現を学ぶことである。
視覚基礎モデル(VFM)は強力な局所的特徴を提供するが、既存のほとんどの手法は単一のモデルに依存しており、異なるVFMによって提供される補完的な手がかりを見渡している。
しかし、このような補完的な情報を活用するとトークンの分布が必然的に変化し、既存のクエリベースのグローバルアグリゲーションスキームの安定性に挑戦する。
これらの課題に対処するために、相補的なVFMとロバストなグローバルアグリゲーションの融合を統合する表現中心のフレームワークであるDC-VLAQを提案する。
具体的には、まず、DINOv2特徴空間における表現をアンカーし、CLIPから相補的意味論を学習された残差補正により注入する軽量な残留誘導相補的融合を導入する。
さらに,局所集約クエリ(VLAQ, Vector of Local Aggregated Queries, VLAQ)を提案する。
Pitts30k、Tokyo24/7、MSLS、Norland、SPED、AmsterTimeといった標準VPRベンチマークの広範な実験は、DC-VLAQが強いベースラインを一貫して上回り、最先端のパフォーマンスを達成することを実証している。
関連論文リスト
- Steering Vision-Language Pre-trained Models for Incremental Face Presentation Attack Detection [62.89126207012712]
顔提示攻撃検出(PAD)は、スプーフィング戦術やドメインと戦うために漸進的な学習を要求する。
過去のデータ保持を禁止し、リハーサルフリーラーニング(RF-IL)を必要とするプライバシー規制
論文 参考訳(メタデータ) (2025-12-22T04:30:11Z) - Mitigating Group-Level Fairness Disparities in Federated Visual Language Models [115.16940773660104]
本稿では、FLと公正なプロンプトチューニング技術を組み合わせた新しいフレームワークであるFVL-FPを紹介する。
モデル性能を維持しながら、人口統計バイアスを軽減することに注力する。
本手法は,標準FL法に比べて平均45%の人口格差を減少させる。
論文 参考訳(メタデータ) (2025-05-03T16:09:52Z) - Deep Incomplete Multi-view Clustering with Distribution Dual-Consistency Recovery Guidance [69.58609684008964]
本稿では,distriBution dUal-Consistency Recovery Guidanceを用いた不完全なマルチビュークラスタリング手法であるBURGを提案する。
我々は,各サンプルを別カテゴリとして扱い,欠落したビューの分布空間を予測するために,クロスビュー配信を行う。
信頼性の高いカテゴリ情報の欠如を補うために,隣り合った整合性によって案内されるビュー内アライメントと,プロトタイプ的な整合性によって案内されるクロスビューアライメントを含む二重整合性ガイド付きリカバリ戦略を設計する。
論文 参考訳(メタデータ) (2025-03-14T02:27:45Z) - Trusted Unified Feature-Neighborhood Dynamics for Multi-View Classification [16.994115410201974]
マルチビュー分類(MVC)は、異なる視点におけるドメインギャップと不整合に起因する固有の課題に直面している。
堅牢なMVCのためのTUNED(Trusted Unified Feature-Neighborhood Dynamics)モデルを提案する。
この手法は, 局所的およびグローバルな特徴近傍構造(F-N)を, 堅牢な意思決定のために効果的に統合する。
論文 参考訳(メタデータ) (2024-09-01T15:48:20Z) - Modality-Collaborative Transformer with Hybrid Feature Reconstruction
for Robust Emotion Recognition [35.15390769958969]
ハイブリッド特徴再構成(MCT-HFR)を用いた統一型モダリティ協調変換器を提案する。
MCT-HFRは、モダリティ内およびモダリティ間関係を同時に抽出し、動的にバランスをとる新しいアテンションベースのエンコーダで構成されている。
モデルトレーニング中、LFIは、完全特徴を監督信号として活用し、局所的欠落した特徴を回復する一方、GFAはペア完全表現と不完全表現のグローバルな意味的ギャップを減らすように設計されている。
論文 参考訳(メタデータ) (2023-12-26T01:59:23Z) - Coping with Change: Learning Invariant and Minimum Sufficient
Representations for Fine-Grained Visual Categorization [26.254072665916155]
細粒度視覚分類(FGVC)は、様々な種間の類似した視覚的外観のために難しい課題である。
以前の研究では、トレーニングデータとテストデータは、同じ基礎的な分布を持ち、現代のバックボーンアーキテクチャによって抽出された特徴は差別的であり、見つからないテストデータによく当てはまると仮定されている。
我々は、FGVCにおける不変リスク最小化(IRM)と情報ボトルネック(IB)の原則を組み合わせて、不変性と最小限のIMS表現を学習する。
論文 参考訳(メタデータ) (2023-06-08T02:45:15Z) - Feature Alignment and Restoration for Domain Generalization and
Adaptation [93.39253443415392]
クロスドメイン機能アライメントは、ドメイン不変表現を学ぶために、異なるドメインの特徴分布を抽出するために広く研究されてきた。
本稿では,FAR(Feature Alignment and Restoration)と呼ばれる統合フレームワークを提案する。
複数の分類ベンチマークの実験は、ドメインの一般化と教師なしドメインの適応の両方のためのFARフレームワークの性能と強力な一般化を実証している。
論文 参考訳(メタデータ) (2020-06-22T05:08:13Z) - Unsupervised Domain Adaptation in Person re-ID via k-Reciprocal
Clustering and Large-Scale Heterogeneous Environment Synthesis [76.46004354572956]
個人再識別のための教師なし領域適応手法を提案する。
実験結果から,ktCUDA法とSHRED法は,再同定性能において,+5.7 mAPの平均的改善を実現することがわかった。
論文 参考訳(メタデータ) (2020-01-14T17:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。