論文の概要: Place Recognition under Occlusion and Changing Appearance via
Disentangled Representations
- arxiv url: http://arxiv.org/abs/2211.11439v1
- Date: Mon, 21 Nov 2022 13:27:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 21:18:39.721828
- Title: Place Recognition under Occlusion and Changing Appearance via
Disentangled Representations
- Title(参考訳): 斜め表現による排除と外観変化による位置認識
- Authors: Yue Chen, Xingyu Chen
- Abstract要約: 位置認識は、データベースからクエリ画像と同じ場所で撮影された画像を取得することを目的として、移動ロボットにとって重要かつ困難なタスクである。
画像表現を3つの符号に分解するための教師なしのアプローチである PROCA を提案する。
我々のモデルは実験で最先端の手法より優れています。
- 参考スコア(独自算出の注目度): 25.51776866333271
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Place recognition is a critical and challenging task for mobile robots,
aiming to retrieve an image captured at the same place as a query image from a
database. Existing methods tend to fail while robots move autonomously under
occlusion (e.g., car, bus, truck) and changing appearance (e.g., illumination
changes, seasonal variation). Because they encode the image into only one code,
entangling place features with appearance and occlusion features. To overcome
this limitation, we propose PROCA, an unsupervised approach to decompose the
image representation into three codes: a place code used as a descriptor to
retrieve images, an appearance code that captures appearance properties, and an
occlusion code that encodes occlusion content. Extensive experiments show that
our model outperforms the state-of-the-art methods. Our code and data are
available at https://github.com/rover-xingyu/PROCA.
- Abstract(参考訳): 位置認識は、データベースからクエリ画像と同じ場所で撮影された画像を取得することを目的として、移動ロボットにとって重要かつ困難なタスクである。
既存の方法は、ロボットが自律的に閉塞状態(車、バス、トラックなど)で動き、外観の変化(照明の変化、季節変動など)で失敗する傾向がある。
画像はたった1つのコードにエンコードされるため、外観と咬合の特徴が絡み合っている。
この制限を克服するために,画像表現を3つのコードに分解するための教師なし手法であるprocaを提案する。画像検索のためのディスクリプタとして使用されるプレースコード,外観特性をキャプチャする外観コード,閉塞内容のエンコードを行うオクルージョンコードである。
我々のモデルは最先端の手法よりも優れています。
私たちのコードとデータはhttps://github.com/rover-xingyu/procaで入手できます。
関連論文リスト
- Revisit Anything: Visual Place Recognition via Image Segment Retrieval [8.544326445217369]
既存の視覚的場所認識パイプラインは、"全体"イメージをエンコードし、マッチを検索する。
画像全体の代わりに「画像セグメント」をエンコードして検索することで、この問題に対処する。
これらの部分的表現を検索すると、通常の画像ベース検索よりも認識リコールが大幅に高くなることを示す。
論文 参考訳(メタデータ) (2024-09-26T16:49:58Z) - A Generative Approach for Wikipedia-Scale Visual Entity Recognition [56.55633052479446]
与えられたクエリ画像をWikipediaにある600万の既存エンティティの1つにマッピングするタスクに対処する。
本稿では,対象エンティティを識別する「意味的・識別的コード」の自動復号化を学習する,新しい生成エンティティ認識フレームワークを紹介する。
論文 参考訳(メタデータ) (2024-03-04T13:47:30Z) - Image Coding for Machines with Object Region Learning [0.0]
対象領域を学習する画像圧縮モデルを提案する。
私たちのモデルはROIマップのような入力として追加情報を必要としておらず、タスクロスを使用しません。
論文 参考訳(メタデータ) (2023-08-27T01:54:03Z) - The Change You Want to See (Now in 3D) [65.61789642291636]
本稿の目的は、同じ3Dシーンの2つの「野生」画像の間で何が変わったかを検出することである。
我々は,全合成データに基づいて学習し,クラスに依存しない変化検出モデルに貢献する。
我々は,人間に注釈を付けた実世界のイメージペアによる評価データセットを新たにリリースした。
論文 参考訳(メタデータ) (2023-08-21T01:59:45Z) - DIAGNOSIS: Detecting Unauthorized Data Usages in Text-to-image Diffusion Models [79.71665540122498]
保護されたデータセットにインジェクトされたコンテンツを配置することで、不正なデータ利用を検出する手法を提案する。
具体的には、ステルス画像ワープ機能を用いて、これらの画像にユニークな内容を追加することにより、保護された画像を修正する。
このモデルが注入されたコンテンツを記憶したかどうかを解析することにより、不正に不正に使用したモデルを検出することができる。
論文 参考訳(メタデータ) (2023-07-06T16:27:39Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - A Shared Representation for Photorealistic Driving Simulators [83.5985178314263]
本稿では、識別器アーキテクチャを再考することにより、生成画像の品質を向上させることを提案する。
シーンセグメンテーションマップや人体ポーズといったセマンティックインプットによって画像が生成されるという問題に焦点が当てられている。
我々は,意味的セグメンテーション,コンテンツ再構成,および粗い粒度の逆解析を行うのに十分な情報をエンコードする,共有潜在表現を学習することを目指している。
論文 参考訳(メタデータ) (2021-12-09T18:59:21Z) - Free-Form Image Inpainting via Contrastive Attention Network [64.05544199212831]
画像の塗装作業では、複雑なパターンを形成する画像のどこにでも、どんな形でもマスクが現れる。
エンコーダはこの複雑な状況下でこのような強力な表現を捕捉することは困難である。
本稿では,ロバスト性と一般化性を改善するための自己教師型シームズ推論ネットワークを提案する。
論文 参考訳(メタデータ) (2020-10-29T14:46:05Z) - A Self-supervised GAN for Unsupervised Few-shot Object Recognition [39.79912546252623]
本稿では、教師なし数発の物体認識について述べる。
すべてのトレーニングイメージはラベル付けされておらず、テストイメージはクエリと、対象のクラス毎にラベル付きサポートイメージに分割されている。
我々は,バニラGANを2つの損失関数で拡張し,それぞれが自己教師型学習を目的とした。
論文 参考訳(メタデータ) (2020-08-16T19:47:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。