論文の概要: Why-So-Deep: Towards Boosting Previously Trained Models for Visual Place
Recognition
- arxiv url: http://arxiv.org/abs/2201.03212v1
- Date: Mon, 10 Jan 2022 08:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 17:37:27.160307
- Title: Why-So-Deep: Towards Boosting Previously Trained Models for Visual Place
Recognition
- Title(参考訳): Why-So-Deep: 視覚的位置認識のためのトレーニング済みモデルの強化を目指す
- Authors: M. Usman Maqbool Bhutta, Yuxiang Sun, Darwin Lau, Ming Liu
- Abstract要約: 画像のリコールを改善するために,事前学習モデルのパワーを増幅する知的手法MAQBOOLを提案する。
我々は,最先端手法の高記述次元 (4096-D) と比較して,低記述次元 (512-D) で画像検索結果に匹敵する結果を得た。
- 参考スコア(独自算出の注目度): 12.807343105549409
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep learning-based image retrieval techniques for the loop closure detection
demonstrate satisfactory performance. However, it is still challenging to
achieve high-level performance based on previously trained models in different
geographical regions. This paper addresses the problem of their deployment with
simultaneous localization and mapping (SLAM) systems in the new environment.
The general baseline approach uses additional information, such as GPS,
sequential keyframes tracking, and re-training the whole environment to enhance
the recall rate. We propose a novel approach for improving image retrieval
based on previously trained models. We present an intelligent method, MAQBOOL,
to amplify the power of pre-trained models for better image recall and its
application to real-time multiagent SLAM systems. We achieve comparable image
retrieval results at a low descriptor dimension (512-D), compared to the high
descriptor dimension (4096-D) of state-of-the-art methods. We use spatial
information to improve the recall rate in image retrieval on pre-trained
models.
- Abstract(参考訳): ループ閉鎖検出のための深層学習に基づく画像検索技術は良好な性能を示す。
しかし、以前訓練された異なる地域におけるモデルに基づいてハイレベルな性能を達成することは依然として困難である。
本稿では,新しい環境における同時ローカライゼーション・マッピング(slam)システムによる配置の問題について述べる。
一般的なベースラインアプローチでは、GPS、シーケンシャルなキーフレーム追跡、リコール率を高めるために環境全体の再トレーニングなどの追加情報を使用する。
本稿では,事前学習モデルに基づく画像検索を改善するための新しい手法を提案する。
画像リコールのための事前学習モデルのパワーを増幅する知的手法MAQBOOLとそのリアルタイムマルチエージェントSLAMシステムへの応用について述べる。
低ディスクリプタ次元(512-d)において,最先端手法の高ディスクリプタ次元(4096-d)と比較して,比較画像検索結果が得られる。
事前学習モデルにおける画像検索におけるリコール率を改善するために空間情報を用いる。
関連論文リスト
- VHS: High-Resolution Iterative Stereo Matching with Visual Hull Priors [3.523208537466128]
本稿では,視覚的包絡を先行として高解像度画像から深度推定を行うステレオマッチング手法を提案する。
提案手法では,シーンの補助的な視点から抽出したオブジェクトマスクを用いて,不一致推定を導出し,マッチングの検索スペースを効果的に削減する。
このアプローチは、下流の復元作業において、正確な深さが重要な役割を果たすボリュームキャプチャシステムにおけるステレオリグに特化している。
論文 参考訳(メタデータ) (2024-06-04T17:59:57Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - An Empirical Analysis of Recurrent Learning Algorithms In Neural Lossy
Image Compression Systems [73.48927855855219]
近年のディープラーニングの進歩により、JPEGとJPEG 2000を標準のKodakベンチマークで上回る画像圧縮アルゴリズムが実現している。
本稿では,最近の最先端ハイブリッドニューラル圧縮アルゴリズムの大規模比較を行う。
論文 参考訳(メタデータ) (2022-01-27T19:47:51Z) - Cross-Modal Retrieval Augmentation for Multi-Modal Classification [61.5253261560224]
画像の非構造化外部知識源とそれに対応するキャプションを用いて視覚的質問応答を改善する。
まず,画像とキャプションを同一空間に埋め込むための新しいアライメントモデルを訓練し,画像検索の大幅な改善を実現する。
第2に、トレーニングされたアライメントモデルを用いた検索強化マルチモーダルトランスは、強いベースライン上でのVQAの結果を改善することを示す。
論文 参考訳(メタデータ) (2021-04-16T13:27:45Z) - Unifying Remote Sensing Image Retrieval and Classification with Robust
Fine-tuning [3.6526118822907594]
新しい大規模トレーニングおよびテストデータセットであるSF300で、リモートセンシングイメージの検索と分類を統一することを目指しています。
本研究では,ImageNetの事前学習ベースラインと比較して,9つのデータセットの検索性能と分類性能を体系的に向上させることを示す。
論文 参考訳(メタデータ) (2021-02-26T11:01:30Z) - An application of a pseudo-parabolic modeling to texture image
recognition [0.0]
偏微分方程式モデルを用いたテクスチャ画像認識のための新しい手法を提案する。
擬似パラボリックなBuckley-Leverett方程式を用いて、デジタル画像表現のダイナミクスを提供し、時間とともに進化するそれらの画像から局所的な記述子を収集する。
論文 参考訳(メタデータ) (2021-02-09T18:08:42Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z) - Sparse Signal Models for Data Augmentation in Deep Learning ATR [0.8999056386710496]
ドメイン知識を取り入れ,データ集約学習アルゴリズムの一般化能力を向上させるためのデータ拡張手法を提案する。
本研究では,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を活かし,過パラメータモデルフィッティングの問題を解く。
論文 参考訳(メタデータ) (2020-12-16T21:46:33Z) - A Plug-and-play Scheme to Adapt Image Saliency Deep Model for Video Data [54.198279280967185]
本稿では,ビデオデータに対して予め訓練された画像の鮮度深度モデルを弱めに再学習する新しいプラグイン・アンド・プレイ方式を提案する。
本手法は,既訓練画像の深度モデルに適応して高品質な映像の鮮度検出を実現するのに有効である。
論文 参考訳(メタデータ) (2020-08-02T13:23:14Z) - Learning Deformable Image Registration from Optimization: Perspective,
Modules, Bilevel Training and Beyond [62.730497582218284]
マルチスケールの伝搬により微分同相モデルを最適化する,新しいディープラーニングベースのフレームワークを開発した。
我々は,脳MRIデータにおける画像-アトラス登録,肝CTデータにおける画像-画像登録を含む,3次元ボリュームデータセットにおける画像登録実験の2つのグループを実行する。
論文 参考訳(メタデータ) (2020-04-30T03:23:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。