論文の概要: DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision
Model and Feature Mixing
- arxiv url: http://arxiv.org/abs/2311.00230v1
- Date: Wed, 1 Nov 2023 02:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-02 15:07:46.593647
- Title: DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision
Model and Feature Mixing
- Title(参考訳): dino-mix:基本視覚モデルと特徴混合による視覚位置認識の強化
- Authors: Gaoshuang Huang, Yang Zhou, Xiaofei Hu, Chenglong Zhang, Luying Zhao,
Wenjian Gan and Mingbo Hou
- Abstract要約: 本稿では,基礎的な視覚モデルと特徴集約を組み合わせた,DINO-Mixと呼ばれる新しいVPRアーキテクチャを提案する。
提案したDINO-Mixアーキテクチャは,現在最先端(SOTA)手法を著しく上回っていることを実験的に実証した。
- 参考スコア(独自算出の注目度): 4.053793612295086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Utilizing visual place recognition (VPR) technology to ascertain the
geographical location of publicly available images is a pressing issue for
real-world VPR applications. Although most current VPR methods achieve
favorable results under ideal conditions, their performance in complex
environments, characterized by lighting variations, seasonal changes, and
occlusions caused by moving objects, is generally unsatisfactory. In this
study, we utilize the DINOv2 model as the backbone network for trimming and
fine-tuning to extract robust image features. We propose a novel VPR
architecture called DINO-Mix, which combines a foundational vision model with
feature aggregation. This architecture relies on the powerful image feature
extraction capabilities of foundational vision models. We employ an
MLP-Mixer-based mix module to aggregate image features, resulting in globally
robust and generalizable descriptors that enable high-precision VPR. We
experimentally demonstrate that the proposed DINO-Mix architecture
significantly outperforms current state-of-the-art (SOTA) methods. In test sets
having lighting variations, seasonal changes, and occlusions (Tokyo24/7,
Nordland, SF-XL-Testv1), our proposed DINO-Mix architecture achieved Top-1
accuracy rates of 91.75%, 80.18%, and 82%, respectively. Compared with SOTA
methods, our architecture exhibited an average accuracy improvement of 5.14%.
- Abstract(参考訳): 公開画像の地理的位置を確認するために視覚的位置認識(VPR)技術を利用することは、現実のVPRアプリケーションにとって重要な問題である。
現在のVPR法の多くは理想的な条件下で良好な結果が得られるが、光の変動、季節変化、移動物体による閉塞といった複雑な環境での性能は概して満足できない。
本研究では,トリミングと微調整のためのバックボーンネットワークとしてdinov2モデルを用いてロバストな画像特徴を抽出する。
本稿では,基本ビジョンモデルと特徴集約を組み合わせた新しいvprアーキテクチャであるdino-mixを提案する。
このアーキテクチャは、基本ビジョンモデルの強力な画像特徴抽出機能に依存している。
MLP-Mixer ベースの混合モジュールを用いて画像特徴を集約し,高精度 VPR を実現する。
提案したDINO-Mixアーキテクチャが現在最先端(SOTA)手法よりも優れていることを示す。
照明変化,季節変化,咬合を有するテストセット(tokyo24/7,nordland,sf-xl-testv1)では,dino-mixアーキテクチャが91.75%,80.18%,82%の精度でトップ1となった。
SOTA法と比較すると, 平均精度は5.14%向上した。
関連論文リスト
- Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。
CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文 参考訳(メタデータ) (2024-07-29T18:00:10Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。
まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。
次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - Learning Neural Volumetric Pose Features for Camera Localization [47.06118952014523]
本稿では,PoseMapと呼ばれるニューラルボリュームポーズ機能を導入し,カメラのローカライゼーションを強化した。
我々のフレームワークは、拡張されたNeRFモジュールとともにAPR(Absolute Pose Regression)アーキテクチャを活用している。
室内および屋外のベンチマークシーンで平均14.28%, 20.51%の性能向上が得られた。
論文 参考訳(メタデータ) (2024-03-19T15:01:18Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。
提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。
提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文 参考訳(メタデータ) (2023-07-15T04:48:35Z) - GAN-based Image Compression with Improved RDO Process [20.00340507091567]
速度歪みの最適化を改良した新しいGANベースの画像圧縮手法を提案する。
これを実現するために、DisTSとMS-SSIMのメトリクスを用いて、色、テクスチャ、構造における知覚的変性を測定する。
提案手法は,既存のGAN法および最先端ハイブリッド(VVC)よりも優れている。
論文 参考訳(メタデータ) (2023-06-18T03:21:11Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文 参考訳(メタデータ) (2020-09-16T14:43:22Z) - Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。
ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。
合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文 参考訳(メタデータ) (2020-04-01T12:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。