論文の概要: Condition-Invariant and Compact Visual Place Description by
Convolutional Autoencoder
- arxiv url: http://arxiv.org/abs/2204.07350v1
- Date: Fri, 15 Apr 2022 07:09:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-18 12:16:11.108833
- Title: Condition-Invariant and Compact Visual Place Description by
Convolutional Autoencoder
- Title(参考訳): 畳み込みオートエンコーダによる条件不変かつコンパクトな視覚位置記述
- Authors: Hanjing Ye, Weinan Chen, Jingwen Yu, Li He, Yisheng Guan and Hong
Zhang
- Abstract要約: CNNベースの画像ディスクリプタは、手作りの視覚的特徴に基づいて従来の画像ディスクリプタよりも優れていることが示されている。
本稿では,この問題を解決するために,畳み込みオートエンコーダ(CAE)を提案する。
我々は、事前訓練されたCNNの高レベル層を用いて特徴を生成し、その特徴を低次元空間にマッピングするためにCAEを訓練する。
- 参考スコア(独自算出の注目度): 10.241353249974694
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition (VPR) in condition-varying environments is still an
open problem. Popular solutions are CNN-based image descriptors, which have
been shown to outperform traditional image descriptors based on hand-crafted
visual features. However, there are two drawbacks of current CNN-based
descriptors: a) their high dimension and b) lack of generalization, leading to
low efficiency and poor performance in applications. In this paper, we propose
to use a convolutional autoencoder (CAE) to tackle this problem. We employ a
high-level layer of a pre-trained CNN to generate features, and train a CAE to
map the features to a low-dimensional space to improve the condition invariance
property of the descriptor and reduce its dimension at the same time. We verify
our method in three challenging datasets involving significant illumination
changes, and our method is shown to be superior to the state-of-the-art. For
the benefit of the community, we make public the source code.
- Abstract(参考訳): 条件変化環境における視覚的位置認識(VPR)はまだ未解決の問題である。
一般的なソリューションはcnnベースのイメージディスクリプタで、手作りのビジュアル機能に基づいた従来のイメージディスクリプタよりも優れていることが示されている。
しかし、現在のCNNベースの記述子には2つの欠点がある。
a) それらの高次元と
b) 一般化の欠如により,アプリケーションの効率が低下し,性能が低下する。
本稿では,この問題を解決するために,畳み込みオートエンコーダ(CAE)を提案する。
我々は,事前学習したcnnの高レベル層を用いて特徴を生成し,caeを訓練し,特徴を低次元空間にマッピングし,ディスクリプタの条件不変性を改善し,同時に次元を縮小する。
本手法は,照明の大幅な変更を伴う3つの難易度データセットで検証し,最新技術よりも優れていることを示す。
コミュニティの利益のために、私たちはソースコードを公開します。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Condition-Invariant Semantic Segmentation [77.10045325743644]
我々は現在最先端のドメイン適応アーキテクチャ上で条件不変セマンティック(CISS)を実装している。
本手法は,通常の都市景観$to$ACDCベンチマークにおいて,2番目に高い性能を実現する。
CISSはBDD100K-nightやACDC-nightのようなトレーニング中に見えない領域によく一般化している。
論文 参考訳(メタデータ) (2023-05-27T03:05:07Z) - The Devil Is in the Details: Window-based Attention for Image
Compression [58.1577742463617]
既存の学習画像圧縮モデルは畳み込みニューラルネットワーク(CNN)に基づいている。
本稿では,複数種類の注意機構が局所特徴学習に与える影響について検討し,より単純で効果的なウィンドウベースの局所的注意ブロックを提案する。
提案されたウィンドウベースのアテンションは非常に柔軟で、CNNとTransformerモデルを強化するためのプラグイン・アンド・プレイコンポーネントとして機能する可能性がある。
論文 参考訳(メタデータ) (2022-03-16T07:55:49Z) - STA-VPR: Spatio-temporal Alignment for Visual Place Recognition [17.212503755962757]
画像間の距離を計測しながら空間領域から局所的な特徴を整列する適応動的時間ウォーピングアルゴリズムを提案する。
時間的アライメントに基づく画像シーケンスマッチングを行うために、局所マッチングDTWアルゴリズムを適用した。
その結果,提案手法はcnnに基づく手法を大幅に改善した。
論文 参考訳(メタデータ) (2021-03-25T03:27:42Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - Image Inpainting with Learnable Feature Imputation [8.293345261434943]
正規畳み込み層は、未知の領域にフィルターを適用するのと同じ方法で、塗装された画像の視覚的アーティファクトを引き起こす。
本稿では,欠落した入力値の畳み込みに対する(階層的な)特徴計算を提案する。
我々はCelebA-HQとPlaces2を比較し,そのモデルを検証する。
論文 参考訳(メタデータ) (2020-11-02T16:05:32Z) - When to Use Convolutional Neural Networks for Inverse Problems [40.60063929073102]
本稿では,畳み込みニューラルネットワークを,畳み込みスパース符号問題に対する近似解とみなすことができることを示す。
ある種の逆問題に対して、CNN近似は性能の低下につながると論じる。
具体的には、JPEGアーチファクトの低減と非剛性軌道再構成をCNNの逆問題として同定する。
論文 参考訳(メタデータ) (2020-03-30T21:08:14Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。