論文の概要: Distillation Improves Visual Place Recognition for Low-Quality Queries
- arxiv url: http://arxiv.org/abs/2310.06906v1
- Date: Tue, 10 Oct 2023 18:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:36:58.050312
- Title: Distillation Improves Visual Place Recognition for Low-Quality Queries
- Title(参考訳): 蒸留による低品質クエリの視覚的位置認識の改善
- Authors: Anbang Yang, Yao Wang, John-Ross Rizzo, Chen Feng
- Abstract要約: クエリ画像やビデオをサーバにストリーミングして視覚的位置認識を行うと、解像度が低下したり、量子化が増大する。
本稿では、ディープラーニングに基づくVPRのための優れた特徴表現を抽出するために、訓練中のみ高品質なクエリを使用する方法を提案する。
実験結果に示すように、低品質なクエリよりも顕著なVPRリコール率の向上を実現している。
- 参考スコア(独自算出の注目度): 11.383202263053379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The shift to online computing for real-time visual localization often
requires streaming query images/videos to a server for visual place recognition
(VPR), where fast video transmission may result in reduced resolution or
increased quantization. This compromises the quality of global image
descriptors, leading to decreased VPR performance. To improve the low recall
rate for low-quality query images, we present a simple yet effective method
that uses high-quality queries only during training to distill better feature
representations for deep-learning-based VPR, such as NetVLAD. Specifically, we
use mean squared error (MSE) loss between the global descriptors of queries
with different qualities, and inter-channel correlation knowledge distillation
(ICKD) loss over their corresponding intermediate features. We validate our
approach using the both Pittsburgh 250k dataset and our own indoor dataset with
varying quantization levels. By fine-tuning NetVLAD parameters with our
distillation-augmented losses, we achieve notable VPR recall-rate improvements
over low-quality queries, as demonstrated in our extensive experimental
results. We believe this work not only pushes forward the VPR research but also
provides valuable insights for applications needing dependable place
recognition under resource-limited conditions.
- Abstract(参考訳): リアルタイムのビジュアルローカライズのためのオンラインコンピューティングへのシフトは、多くの場合、高速なビデオ伝送によって解像度が低下したり、量子化が増加するような、視覚的な場所認識(vpr)のためのサーバへのクエリ画像/ビデオのストリーミングを必要とする。
これにより、グローバルイメージディスクリプタの品質が損なわれ、VPR性能が低下する。
低品質なクエリ画像のリコール率を改善するため,NetVLADのような深層学習に基づくVPRのための特徴表現を抽出するために,訓練中のみ高品質なクエリを使用する,シンプルで効果的な手法を提案する。
具体的には、異なる品質のクエリのグローバル記述子間の平均二乗誤差(MSE)損失と、対応する中間特性に対するチャネル間相関知識蒸留(ICKD)損失を用いる。
ピッツバーグ250kデータセットと、さまざまな量子化レベルを持つ独自の屋内データセットを用いて、我々のアプローチを検証する。
蒸留損失を増大させ,NetVLADパラメータを微調整することにより,低品質クエリに対するVPRリコール率の改善を実現した。
この研究は、VPRの研究を推し進めるだけでなく、リソース制限条件下での信頼性の高い位置認識を必要とするアプリケーションに対して貴重な洞察を提供すると考えている。
関連論文リスト
- DP-IQA: Utilizing Diffusion Prior for Blind Image Quality Assessment in the Wild [54.139923409101044]
拡散先行型IQA(DP-IQA)と呼ばれる新しいIQA法を提案する。
トレーニング済みの安定拡散をバックボーンとして使用し、復調するU-Netから多レベル特徴を抽出し、それらをデコードして画質スコアを推定する。
上記のモデルの知識をCNNベースの学生モデルに抽出し、適用性を高めるためにパラメータを大幅に削減する。
論文 参考訳(メタデータ) (2024-05-30T12:32:35Z) - EffoVPR: Effective Foundation Model Utilization for Visual Place Recognition [6.996304653818122]
本稿では,視覚的位置認識のための基盤モデルの可能性を活用するための,シンプルながら強力なアプローチを提案する。
まず、自己注意層から抽出した機能が、VPRの強力なリランカとして機能することを実証する。
次に、内部のViT層をプールに利用した単一ステージの手法が、最先端の結果をもたらすグローバルな特徴を生み出すことを実証した。
論文 参考訳(メタデータ) (2024-05-28T11:24:41Z) - Contrastive Pre-Training with Multi-View Fusion for No-Reference Point Cloud Quality Assessment [49.36799270585947]
No-Reference Point Cloud Quality Assessment (NR-PCQA) は、歪んだ点雲の知覚的品質を、参照なしで自動的に評価することを目的としている。
我々は,PCQA(CoPA)に適した新しいコントラスト付き事前学習フレームワークを提案する。
提案手法は,最新のPCQA手法よりも高い性能を示す。
論文 参考訳(メタデータ) (2024-03-15T07:16:07Z) - Investigating Prompting Techniques for Zero- and Few-Shot Visual
Question Answering [7.640416680391081]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。