Fugu-MT 論文翻訳(概要): DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision Model and Feature Mixing

論文の概要: DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision Model and Feature Mixing

arxiv url: http://arxiv.org/abs/2311.00230v1
Date: Wed, 1 Nov 2023 02:22:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-02 15:07:46.593647
Title: DINO-Mix: Enhancing Visual Place Recognition with Foundational Vision Model and Feature Mixing
Title（参考訳）: dino-mix:基本視覚モデルと特徴混合による視覚位置認識の強化
Authors: Gaoshuang Huang, Yang Zhou, Xiaofei Hu, Chenglong Zhang, Luying Zhao, Wenjian Gan and Mingbo Hou
Abstract要約: 本稿では,基礎的な視覚モデルと特徴集約を組み合わせた,DINO-Mixと呼ばれる新しいVPRアーキテクチャを提案する。提案したDINO-Mixアーキテクチャは,現在最先端(SOTA)手法を著しく上回っていることを実験的に実証した。
参考スコア（独自算出の注目度）: 4.053793612295086
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Utilizing visual place recognition (VPR) technology to ascertain the geographical location of publicly available images is a pressing issue for real-world VPR applications. Although most current VPR methods achieve favorable results under ideal conditions, their performance in complex environments, characterized by lighting variations, seasonal changes, and occlusions caused by moving objects, is generally unsatisfactory. In this study, we utilize the DINOv2 model as the backbone network for trimming and fine-tuning to extract robust image features. We propose a novel VPR architecture called DINO-Mix, which combines a foundational vision model with feature aggregation. This architecture relies on the powerful image feature extraction capabilities of foundational vision models. We employ an MLP-Mixer-based mix module to aggregate image features, resulting in globally robust and generalizable descriptors that enable high-precision VPR. We experimentally demonstrate that the proposed DINO-Mix architecture significantly outperforms current state-of-the-art (SOTA) methods. In test sets having lighting variations, seasonal changes, and occlusions (Tokyo24/7, Nordland, SF-XL-Testv1), our proposed DINO-Mix architecture achieved Top-1 accuracy rates of 91.75%, 80.18%, and 82%, respectively. Compared with SOTA methods, our architecture exhibited an average accuracy improvement of 5.14%.
Abstract（参考訳）: 公開画像の地理的位置を確認するために視覚的位置認識(VPR)技術を利用することは、現実のVPRアプリケーションにとって重要な問題である。現在のVPR法の多くは理想的な条件下で良好な結果が得られるが、光の変動、季節変化、移動物体による閉塞といった複雑な環境での性能は概して満足できない。本研究では,トリミングと微調整のためのバックボーンネットワークとしてdinov2モデルを用いてロバストな画像特徴を抽出する。本稿では,基本ビジョンモデルと特徴集約を組み合わせた新しいvprアーキテクチャであるdino-mixを提案する。このアーキテクチャは、基本ビジョンモデルの強力な画像特徴抽出機能に依存している。 MLP-Mixer ベースの混合モジュールを用いて画像特徴を集約し,高精度 VPR を実現する。提案したDINO-Mixアーキテクチャが現在最先端(SOTA)手法よりも優れていることを示す。照明変化,季節変化,咬合を有するテストセット(tokyo24/7,nordland,sf-xl-testv1)では,dino-mixアーキテクチャが91.75%,80.18%,82%の精度でトップ1となった。 SOTA法と比較すると, 平均精度は5.14%向上した。

関連論文リスト

An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
BRIGHT-VO: Brightness-Guided Hybrid Transformer for Visual Odometry with Multi-modality Refinement Module [11.898515581215708]
視覚計測(VO)は、自律運転、ロボットナビゲーション、その他の関連するタスクにおいて重要な役割を果たす。本稿では,トランスフォーマーアーキテクチャに基づく新しいVOモデルであるBrightVOを紹介し,フロントエンドの視覚的特徴抽出を行う。ポーズグラフ最適化を用いて、このモジュールは、エラーを減らし、精度とロバスト性の両方を改善するために、ポーズ推定を反復的に洗練する。
論文参考訳（メタデータ） (2025-01-15T08:50:52Z)
Predicting Satisfied User and Machine Ratio for Compressed Images: A Unified Approach [58.71009078356928]
圧縮画像のSUR(Satified User Ratio)とSMR(Satified Machine Ratio)を同時に予測するディープラーニングモデルを構築した。実験結果から,提案手法は最先端SURおよびSMR予測法より有意に優れていたことが示唆された。
論文参考訳（メタデータ） (2024-12-23T11:09:30Z)
Contrasting Deepfakes Diffusion via Contrastive Learning and Global-Local Similarities [88.398085358514]
Contrastive Deepfake Embeddings (CoDE)は、ディープフェイク検出に特化した新しい埋め込み空間である。 CoDEは、グローバルローカルな類似性をさらに強化することで、対照的な学習を通じて訓練される。
論文参考訳（メタデータ） (2024-07-29T18:00:10Z)
EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文参考訳（メタデータ） (2024-05-28T11:24:41Z)
Learning Neural Volumetric Pose Features for Camera Localization [47.06118952014523]
本稿では,PoseMapと呼ばれるニューラルボリュームポーズ機能を導入し,カメラのローカライゼーションを強化した。我々のフレームワークは、拡張されたNeRFモジュールとともにAPR(Absolute Pose Regression)アーキテクチャを活用している。室内および屋外のベンチマークシーンで平均14.28%, 20.51%の性能向上が得られた。
論文参考訳（メタデータ） (2024-03-19T15:01:18Z)
DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文参考訳（メタデータ） (2023-12-12T06:07:21Z)
ExposureDiffusion: Learning to Expose for Low-light Image Enhancement [87.08496758469835]
この研究は、拡散モデルと物理ベースの露光モデルとをシームレスに統合することで、この問題に対処する。提案手法は,バニラ拡散モデルと比較して性能が大幅に向上し,推論時間を短縮する。提案するフレームワークは、実際のペア付きデータセット、SOTAノイズモデル、および異なるバックボーンネットワークの両方で動作する。
論文参考訳（メタデータ） (2023-07-15T04:48:35Z)
GAN-based Image Compression with Improved RDO Process [20.00340507091567]
速度歪みの最適化を改良した新しいGANベースの画像圧縮手法を提案する。これを実現するために、DisTSとMS-SSIMのメトリクスを用いて、色、テクスチャ、構造における知覚的変性を測定する。提案手法は,既存のGAN法および最先端ハイブリッド(VVC)よりも優れている。
論文参考訳（メタデータ） (2023-06-18T03:21:11Z)
Image-specific Convolutional Kernel Modulation for Single Image Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文参考訳（メタデータ） (2021-11-16T11:05:10Z)
Domain-invariant Similarity Activation Map Contrastive Learning for Retrieval-based Long-term Visual Localization [30.203072945001136]
本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。 CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
論文参考訳（メタデータ） (2020-09-16T14:43:22Z)
Two-shot Spatially-varying BRDF and Shape Estimation [89.29020624201708]
形状とSVBRDFを段階的に推定した新しいディープラーニングアーキテクチャを提案する。ドメインランダム化された幾何学と現実的な材料を用いた大規模合成学習データセットを作成する。合成データセットと実世界のデータセットの両方の実験により、合成データセットでトレーニングされたネットワークが、実世界の画像に対してうまく一般化できることが示されている。
論文参考訳（メタデータ） (2020-04-01T12:56:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。