論文の概要: Generalizable Person Re-Identification via Viewpoint Alignment and
Fusion
- arxiv url: http://arxiv.org/abs/2212.02398v1
- Date: Mon, 5 Dec 2022 16:24:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 17:51:57.232560
- Title: Generalizable Person Re-Identification via Viewpoint Alignment and
Fusion
- Title(参考訳): 視点アライメントと融合による一般化可能な人物再同定
- Authors: Bingliang Jiao, Lingqiao Liu, Liying Gao, Guosheng Lin, Ruiqi Wu,
Shizhou Zhang, Peng Wang, and Yanning Zhang
- Abstract要約: 本研究は,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。
テクスチャマッピングモジュールの不完全性のため、標準ビュー画像は、原画像から識別的な詳細手がかりを失う可能性がある。
提案手法は,各種評価設定における既存手法よりも優れた性能が得られることを示す。
- 参考スコア(独自算出の注目度): 74.30861504619851
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In the current person Re-identification (ReID) methods, most domain
generalization works focus on dealing with style differences between domains
while largely ignoring unpredictable camera view change, which we identify as
another major factor leading to a poor generalization of ReID methods. To
tackle the viewpoint change, this work proposes to use a 3D dense pose
estimation model and a texture mapping module to map the pedestrian images to
canonical view images. Due to the imperfection of the texture mapping module,
the canonical view images may lose the discriminative detail clues from the
original images, and thus directly using them for ReID will inevitably result
in poor performance. To handle this issue, we propose to fuse the original
image and canonical view image via a transformer-based module. The key insight
of this design is that the cross-attention mechanism in the transformer could
be an ideal solution to align the discriminative texture clues from the
original image with the canonical view image, which could compensate for the
low-quality texture information of the canonical view image. Through extensive
experiments, we show that our method can lead to superior performance over the
existing approaches in various evaluation settings.
- Abstract(参考訳): 現在の人物再識別(ReID)手法では、ほとんどの領域の一般化作業は、予測不可能なカメラビューの変更を無視しながら、ドメイン間のスタイルの違いに対処することに焦点を当てている。
視点変化に対処するために,3次元高密度ポーズ推定モデルとテクスチャマッピングモジュールを用いて,歩行者画像を標準視像にマッピングすることを提案する。
テクスチャマッピングモジュールが不完全であるため、標準ビューイメージは元の画像から識別可能な詳細手がかりを失う可能性があるため、直接ReIDに使用すると必然的に性能が低下する。
この問題に対処するため,トランスフォーマーベースモジュールを用いたオリジナル画像と標準画像の融合を提案する。
この設計の鍵となる洞察は、変換器のクロスアテンション機構が、原画像からの識別的テクスチャヒントと標準ビュー画像との整合性に理想的な解となり、標準ビュー画像の低品質テクスチャ情報を補うことができるということである。
実験により,提案手法は各種評価設定における既存手法よりも優れた性能が得られることを示す。
関連論文リスト
- SHIC: Shape-Image Correspondences with no Keypoint Supervision [106.99157362200867]
正準曲面マッピングは、オブジェクトの各ピクセルを3Dテンプレートの対応する点に割り当てることで、キーポイント検出を一般化する。
人間の分析のためにDensePoseによって人気を得た著者は、この概念をより多くのカテゴリに適用しようと試みている。
そこで本研究では,手動による指導を伴わない標準地図学習手法ShiCを紹介し,ほとんどのカテゴリにおいて教師付き手法よりも優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2024-07-26T17:58:59Z) - Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Face Feature Visualisation of Single Morphing Attack Detection [13.680968065638108]
本稿では,異なる顔特徴抽出アルゴリズムの視覚化について説明する。
単変態攻撃検出のためのボナファイドの検出と変態画像を可能にする。
この視覚化は、境界ポリシーのためのグラフィカルユーザインタフェースの開発に役立つかもしれない。
論文 参考訳(メタデータ) (2023-04-25T17:51:23Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - Learning Edge-Preserved Image Stitching from Large-Baseline Deep
Homography [32.28310831466225]
本稿では,大規模なベースライン深部ホログラフィモジュールとエッジ保存変形モジュールからなる画像縫合学習フレームワークを提案する。
本手法は既存の学習方法よりも優れ,最先端の従来の手法と競合する性能を示す。
論文 参考訳(メタデータ) (2020-12-11T08:43:30Z) - Cross-Descriptor Visual Localization and Mapping [81.16435356103133]
視覚のローカライゼーションとマッピングは、Mixed Realityとロボティクスシステムの大部分を支える重要な技術である。
特徴表現の連続的な更新を必要とする局所化とマッピングのための3つの新しいシナリオを提案する。
我々のデータ駆動型アプローチは特徴記述子型に非依存であり、計算要求が低く、記述アルゴリズムの数と線形にスケールする。
論文 参考訳(メタデータ) (2020-12-02T18:19:51Z) - Look here! A parametric learning based approach to redirect visual
attention [49.609412873346386]
画像領域を微妙な画像編集によってより注目度の高いものにするための自動手法を提案する。
我々のモデルは、前景および背景画像領域に適用可能な、異なるグローバルパラメトリック変換セットを予測する。
編集により、任意の画像サイズでインタラクティブなレートでの推論が可能になり、簡単に動画に一般化できる。
論文 参考訳(メタデータ) (2020-08-12T16:08:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。