論文の概要: Distillation Improves Visual Place Recognition for Low-Quality Queries
- arxiv url: http://arxiv.org/abs/2310.06906v1
- Date: Tue, 10 Oct 2023 18:03:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:36:58.050312
- Title: Distillation Improves Visual Place Recognition for Low-Quality Queries
- Title(参考訳): 蒸留による低品質クエリの視覚的位置認識の改善
- Authors: Anbang Yang, Yao Wang, John-Ross Rizzo, Chen Feng
- Abstract要約: クエリ画像やビデオをサーバにストリーミングして視覚的位置認識を行うと、解像度が低下したり、量子化が増大する。
本稿では、ディープラーニングに基づくVPRのための優れた特徴表現を抽出するために、訓練中のみ高品質なクエリを使用する方法を提案する。
実験結果に示すように、低品質なクエリよりも顕著なVPRリコール率の向上を実現している。
- 参考スコア(独自算出の注目度): 11.383202263053379
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The shift to online computing for real-time visual localization often
requires streaming query images/videos to a server for visual place recognition
(VPR), where fast video transmission may result in reduced resolution or
increased quantization. This compromises the quality of global image
descriptors, leading to decreased VPR performance. To improve the low recall
rate for low-quality query images, we present a simple yet effective method
that uses high-quality queries only during training to distill better feature
representations for deep-learning-based VPR, such as NetVLAD. Specifically, we
use mean squared error (MSE) loss between the global descriptors of queries
with different qualities, and inter-channel correlation knowledge distillation
(ICKD) loss over their corresponding intermediate features. We validate our
approach using the both Pittsburgh 250k dataset and our own indoor dataset with
varying quantization levels. By fine-tuning NetVLAD parameters with our
distillation-augmented losses, we achieve notable VPR recall-rate improvements
over low-quality queries, as demonstrated in our extensive experimental
results. We believe this work not only pushes forward the VPR research but also
provides valuable insights for applications needing dependable place
recognition under resource-limited conditions.
- Abstract(参考訳): リアルタイムのビジュアルローカライズのためのオンラインコンピューティングへのシフトは、多くの場合、高速なビデオ伝送によって解像度が低下したり、量子化が増加するような、視覚的な場所認識(vpr)のためのサーバへのクエリ画像/ビデオのストリーミングを必要とする。
これにより、グローバルイメージディスクリプタの品質が損なわれ、VPR性能が低下する。
低品質なクエリ画像のリコール率を改善するため,NetVLADのような深層学習に基づくVPRのための特徴表現を抽出するために,訓練中のみ高品質なクエリを使用する,シンプルで効果的な手法を提案する。
具体的には、異なる品質のクエリのグローバル記述子間の平均二乗誤差(MSE)損失と、対応する中間特性に対するチャネル間相関知識蒸留(ICKD)損失を用いる。
ピッツバーグ250kデータセットと、さまざまな量子化レベルを持つ独自の屋内データセットを用いて、我々のアプローチを検証する。
蒸留損失を増大させ,NetVLADパラメータを微調整することにより,低品質クエリに対するVPRリコール率の改善を実現した。
この研究は、VPRの研究を推し進めるだけでなく、リソース制限条件下での信頼性の高い位置認識を必要とするアプリケーションに対して貴重な洞察を提供すると考えている。
関連論文リスト
- Investigating Prompting Techniques for Zero- and Few-Shot Visual
Question Answering [7.640416680391081]
本稿では,ゼロおよび少数ショットの視覚質問応答(VQA)性能を向上させる効果的なプロンプト手法について検討する。
特定のテンプレートがVQAの結果に大きく影響し,戦略的テンプレート選択の必要性が強調される。
自由形式のオープンエンドVQA応答を評価する際の課題を軽減するために,簡単なLCM誘導前処理技術を導入する。
論文 参考訳(メタデータ) (2023-06-16T17:47:57Z) - Combining Attention Module and Pixel Shuffle for License Plate
Super-Resolution [3.8831062015253055]
本研究は,低解像度・低画質画像におけるライセンスプレート(LP)再構成に焦点を当てた。
本稿では、注目/変圧器モジュールの概念を拡張したシングルイメージ超解法(SISR)アプローチを提案する。
実験では, 提案手法は, 定量的および定性的に, ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-10-30T13:05:07Z) - Neighbourhood Representative Sampling for Efficient End-to-end Video
Quality Assessment [60.57703721744873]
リアルタイムビデオの高解像度化は、VQA(Deep Video Quality Assessment)の効率性と精度のジレンマを示す
そこで本研究では,空間時空間格子型ミニキューブサンプリング(St-GMS)を統一的に提案し,新しいタイプのフラグメントを抽出する。
フラグメントとFANetにより、提案された効率的なエンドツーエンドのFAST-VQAとFasterVQAは、既存のVQAベンチマークよりも大幅にパフォーマンスが向上した。
論文 参考訳(メタデータ) (2022-10-11T11:38:07Z) - FAST-VQA: Efficient End-to-end Video Quality Assessment with Fragment
Sampling [54.31355080688127]
現在のDeep Video Quality Assessment (VQA) 法は通常、高解像度ビデオを評価する際に高い計算コストがかかる。
そこで我々はGrid Mini-patch Smpling (GMS)を提案する。
フラグメント・アテンション・ネットワーク(FANet)は,フラグメントを入力として扱うように設計されている。
FAST-VQAは1080P高解像度ビデオで99.5%のFLOPを削減し、最先端の精度を約10%向上させる。
論文 参考訳(メタデータ) (2022-07-06T11:11:43Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Learning Transformer Features for Image Quality Assessment [53.51379676690971]
本稿では,CNNバックボーンとトランスフォーマーエンコーダを用いて特徴抽出を行うIQAフレームワークを提案する。
提案するフレームワークはFRモードとNRモードの両方と互換性があり、共同トレーニング方式が可能である。
論文 参考訳(メタデータ) (2021-12-01T13:23:00Z) - Learning Conditional Knowledge Distillation for Degraded-Reference Image
Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。
DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。
私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文 参考訳(メタデータ) (2021-08-18T02:35:08Z) - Self-Supervised Adaptation for Video Super-Resolution [7.26562478548988]
シングルイメージスーパーリゾリューション(SISR)ネットワークは、特定の入力画像にネットワークパラメータを適応させることができます。
従来のビデオスーパーレゾリューション(VSR)ネットワークがビデオフレームをテストするためにパラメータを適応できるようにする新しい学習アルゴリズムを紹介します。
論文 参考訳(メタデータ) (2021-03-18T08:30:24Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。