Fugu-MT 論文翻訳(概要): Distillation Improves Visual Place Recognition for Low-Quality Queries

論文の概要: Distillation Improves Visual Place Recognition for Low-Quality Queries

arxiv url: http://arxiv.org/abs/2310.06906v1
Date: Tue, 10 Oct 2023 18:03:29 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-13 01:36:58.050312
Title: Distillation Improves Visual Place Recognition for Low-Quality Queries
Title（参考訳）: 蒸留による低品質クエリの視覚的位置認識の改善
Authors: Anbang Yang, Yao Wang, John-Ross Rizzo, Chen Feng
Abstract要約: クエリ画像やビデオをサーバにストリーミングして視覚的位置認識を行うと、解像度が低下したり、量子化が増大する。本稿では、ディープラーニングに基づくVPRのための優れた特徴表現を抽出するために、訓練中のみ高品質なクエリを使用する方法を提案する。実験結果に示すように、低品質なクエリよりも顕著なVPRリコール率の向上を実現している。
参考スコア（独自算出の注目度）: 11.383202263053379
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The shift to online computing for real-time visual localization often requires streaming query images/videos to a server for visual place recognition (VPR), where fast video transmission may result in reduced resolution or increased quantization. This compromises the quality of global image descriptors, leading to decreased VPR performance. To improve the low recall rate for low-quality query images, we present a simple yet effective method that uses high-quality queries only during training to distill better feature representations for deep-learning-based VPR, such as NetVLAD. Specifically, we use mean squared error (MSE) loss between the global descriptors of queries with different qualities, and inter-channel correlation knowledge distillation (ICKD) loss over their corresponding intermediate features. We validate our approach using the both Pittsburgh 250k dataset and our own indoor dataset with varying quantization levels. By fine-tuning NetVLAD parameters with our distillation-augmented losses, we achieve notable VPR recall-rate improvements over low-quality queries, as demonstrated in our extensive experimental results. We believe this work not only pushes forward the VPR research but also provides valuable insights for applications needing dependable place recognition under resource-limited conditions.
Abstract（参考訳）: リアルタイムのビジュアルローカライズのためのオンラインコンピューティングへのシフトは、多くの場合、高速なビデオ伝送によって解像度が低下したり、量子化が増加するような、視覚的な場所認識(vpr)のためのサーバへのクエリ画像/ビデオのストリーミングを必要とする。これにより、グローバルイメージディスクリプタの品質が損なわれ、VPR性能が低下する。低品質なクエリ画像のリコール率を改善するため,NetVLADのような深層学習に基づくVPRのための特徴表現を抽出するために,訓練中のみ高品質なクエリを使用する,シンプルで効果的な手法を提案する。具体的には、異なる品質のクエリのグローバル記述子間の平均二乗誤差(MSE)損失と、対応する中間特性に対するチャネル間相関知識蒸留(ICKD)損失を用いる。ピッツバーグ250kデータセットと、さまざまな量子化レベルを持つ独自の屋内データセットを用いて、我々のアプローチを検証する。蒸留損失を増大させ,NetVLADパラメータを微調整することにより,低品質クエリに対するVPRリコール率の改善を実現した。この研究は、VPRの研究を推し進めるだけでなく、リソース制限条件下での信頼性の高い位置認識を必要とするアプリケーションに対して貴重な洞察を提供すると考えている。

関連論文リスト

Range Image-Based Implicit Neural Compression for LiDAR Point Clouds [10.143205531474907]
我々は,3次元LiDAR観測の軽量なフォーマットとして,2Dレンジ画像(RI)に着目した。本稿では,浮動小数点値画素を効果的に処理する暗黙的ニューラル表現(INR)に基づくRI圧縮法を提案する。 KITTIデータセットを用いた実験により,提案手法は既存の画像,点雲,RI,INRに基づく圧縮手法を3次元再構成および検出品質で上回ることがわかった。
論文参考訳（メタデータ） (2025-04-24T03:41:57Z)
Decouple to Reconstruct: High Quality UHD Restoration via Active Feature Disentanglement and Reversible Fusion [77.08942160610478]
超高精細画像復元(UHD)は、高解像度のため、しばしば計算ボトルネックや情報損失に直面している。本稿では,より難解な劣化情報を潜時空間に符号化しながら,容易に復元可能な背景情報を破棄する制御付き微分遠絡型VAEを提案する。提案手法は,UHD画像復元の精度を向上し,UHD画像復元の6つの課題を1Mパラメータのみで実現し,VAEモデルにおける情報損失問題を効果的に軽減する。
論文参考訳（メタデータ） (2025-03-17T02:55:18Z)
Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文参考訳（メタデータ） (2024-01-25T08:11:27Z)
VCISR: Blind Single Image Super-Resolution with Video Compression Synthetic Data [18.877077302923713]
本稿では,映像圧縮に基づく劣化モデルを用いて,ブラインドSISRタスクにおける低解像度画像データを合成する。提案手法は既存の画像データセットに適用可能である。 SISR分解モデルにビデオ符号化アーティファクトを導入することで、ニューラルネットワークは、ビデオ圧縮劣化を復元する機能を備えた、画像の超解凍を可能にする。
論文参考訳（メタデータ） (2023-11-02T05:24:19Z)
Kernel Inversed Pyramidal Resizing Network for Efficient Pavement Distress Recognition [9.927965682734069]
画像リサイズのために,Kernel Inversed Pyramidal Resizing Network (KIPRN) というライトネットワークを導入した。 KIPRNでは、ピラミッドの畳み込みとカーネルの逆転畳み込みは、識別情報をマイニングするために特別に設計されている。以上の結果から,KIPRNは一般的にCNNモデルの舗装救難認識を改善することが示唆された。
論文参考訳（メタデータ） (2022-12-04T10:40:40Z)
Analysis of the Effect of Low-Overhead Lossy Image Compression on the Performance of Visual Crowd Counting for Smart City Applications [78.55896581882595]
画像圧縮技術は画像の品質を低下させ、精度を低下させる。本稿では,低オーバヘッド損失画像圧縮法の適用が視覚的群集カウントの精度に与える影響を解析する。
論文参考訳（メタデータ） (2022-07-20T19:20:03Z)
Identity Preserving Loss for Learned Image Compression [0.0]
本研究は,高圧縮率を実現するために,ドメイン固有の特徴を学習するエンドツーエンド画像圧縮フレームワークを提案する。本稿では,CRF-23 HEVC圧縮の38%と42%のビット・パー・ピクセル(BPP)値が得られる新しいID保存再構成(IPR)ロス関数を提案する。 CRF-23 HEVC圧縮の38%の低いBPP値を保ちながら、未確認の認識モデルを用いてLFWデータセットの at-par 認識性能を示す。
論文参考訳（メタデータ） (2022-04-22T18:01:01Z)
Reducing Redundancy in the Bottleneck Representation of the Autoencoders [98.78384185493624]
オートエンコーダは教師なしニューラルネットワークの一種であり、様々なタスクを解くのに使用できる。本稿では,ボトルネック表現における特徴冗長性を明示的に罰する手法を提案する。我々は,3つの異なるデータセットを用いた次元削減,MNISTデータセットを用いた画像圧縮,ファッションMNISTを用いた画像デノナイズという,さまざまなタスクにまたがってアプローチを検証した。
論文参考訳（メタデータ） (2022-02-09T18:48:02Z)
Recognition-Aware Learned Image Compression [0.5801044612920815]
本稿では,タスク固有の損失と並行して,速度歪み損失を最適化する認識認識型学習圧縮手法を提案する。提案手法は,BPGなどの従来の手法と比較して,同等値での認識精度が26%向上する。
論文参考訳（メタデータ） (2022-02-01T03:33:51Z)
Learning Conditional Knowledge Distillation for Degraded-Reference Image Quality Assessment [157.1292674649519]
劣化参照IQA(DR-IQA)という実用的な解を提案する。 DR-IQAはIRモデルの入力、劣化したイメージを参照として利用する。私たちの結果は、フル参照設定のパフォーマンスに近いものもあります。
論文参考訳（メタデータ） (2021-08-18T02:35:08Z)
Attention Based Real Image Restoration [48.933507352496726]
深層畳み込みニューラルネットワークは、合成劣化を含む画像に対してより良い性能を発揮する。本稿では,新しい1段ブラインド実画像復元ネットワーク(R$2$Net)を提案する。
論文参考訳（メタデータ） (2020-04-26T04:21:49Z)
Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文参考訳（メタデータ） (2020-02-17T07:35:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。