論文の概要: OH-Former: Omni-Relational High-Order Transformer for Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2109.11159v1
- Date: Thu, 23 Sep 2021 06:11:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-24 15:02:27.541763
- Title: OH-Former: Omni-Relational High-Order Transformer for Person
Re-Identification
- Title(参考訳): oh-former: 人物再同定のための全相関高次変圧器
- Authors: Xianing Chen, Jialang Xu, Jiale Xu, Shenghua Gao
- Abstract要約: 我々は,Omni-Relational High-Order Transformer (OH-Former)を提案する。
提案モデル実験の結果は, Market-1501, DukeMTMC, MSMT17, Occluded-Dukeデータセットの最先端性能を示す,優れた有望性を示した。
- 参考スコア(独自算出の注目度): 30.023365814501137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have shown preferable performance on many vision tasks. However,
for the task of person re-identification (ReID), vanilla transformers leave the
rich contexts on high-order feature relations under-exploited and deteriorate
local feature details, which are insufficient due to the dramatic variations of
pedestrians. In this work, we propose an Omni-Relational High-Order Transformer
(OH-Former) to model omni-relational features for ReID. First, to strengthen
the capacity of visual representation, instead of obtaining the attention
matrix based on pairs of queries and isolated keys at each spatial location, we
take a step further to model high-order statistics information for the
non-local mechanism. We share the attention weights in the corresponding layer
of each order with a prior mixing mechanism to reduce the computation cost.
Then, a convolution-based local relation perception module is proposed to
extract the local relations and 2D position information. The experimental
results of our model are superior promising, which show state-of-the-art
performance on Market-1501, DukeMTMC, MSMT17 and Occluded-Duke datasets.
- Abstract(参考訳): トランスフォーマーは多くの視覚タスクで望ましい性能を示している。
しかし、人物再同定作業(reid)では、バニラ変圧器は、歩行者の劇的な変動により不十分な、高階特徴関係の豊かな文脈を残して、局所的特徴詳細を掘り下げる。
本稿では,reidのための全相関特徴をモデル化する全相関高次変換器(oh-former)を提案する。
まず、視覚的表現の能力を強化するため、各空間的位置における一対のクエリと孤立鍵に基づく注意行列を得る代わりに、非局所的機構のための高次統計情報をモデル化する。
計算コストを低減するために,各順序の対応する層に,先行混合機構で注目重みを共有する。
次に,局所関係と2次元位置情報を抽出するために畳み込みに基づく局所関係知覚モジュールを提案する。
実験結果は,market-1501,dukemtmc,msmt17,occluded-dukeデータセットにおいて最先端の性能を示す。
関連論文リスト
- S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Transferring Modality-Aware Pedestrian Attentive Learning for
Visible-Infrared Person Re-identification [43.05147831905626]
本稿では,トランスファーリング・モダリティを意識した歩行者注意学習(TMPA)モデルを提案する。
TMPAは、欠落したモダリティ固有の特徴を効率的に補うために歩行者地域に焦点を当てている。
ベンチマークSYSU-MM01とRegDBデータセットを用いて実験を行い,提案したTMPAモデルの有効性を実証した。
論文 参考訳(メタデータ) (2023-12-12T07:15:17Z) - DAT++: Spatially Dynamic Vision Transformer with Deformable Attention [87.41016963608067]
Deformable Attention Transformer (DAT++)を提案する。
DAT++は、85.9%のImageNet精度、54.5および47.0のMS-COCOインスタンスセグメンテーションmAP、51.5のADE20KセマンティックセグメンテーションmIoUで、様々なビジュアル認識ベンチマークで最先端の結果を達成している。
論文 参考訳(メタデータ) (2023-09-04T08:26:47Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - Vision Transformer with Deformable Attention [29.935891419574602]
大規模な、時としてグローバルな受信フィールドは、CNNモデルよりも高い表現力を持つTransformerモデルを提供する。
本稿では,キーと値ペアの位置をデータ依存的に選択する,変形可能な新しい自己保持モジュールを提案する。
画像分類と重み付き予測の両方に変形性を考慮した一般的なバックボーンモデルであるDeformable Attention Transformerを提案する。
論文 参考訳(メタデータ) (2022-01-03T08:29:01Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - Robust Person Re-Identification through Contextual Mutual Boosting [77.1976737965566]
本研究では,歩行者の局地化を目的としたコンテキスト相互ブースティングネットワーク(CMBN)を提案する。
歩行者をローカライズし、文脈情報と統計的推測を効果的に活用することで特徴を再検討する。
ベンチマークの実験は、最先端のアーキテクチャと比較してアーキテクチャの優位性を示している。
論文 参考訳(メタデータ) (2020-09-16T06:33:35Z) - Hierarchical Bi-Directional Feature Perception Network for Person
Re-Identification [12.259747100939078]
過去の人物再同定(Re-ID)モデルは、画像の最も識別性の高い領域に焦点を当てることを目的としている。
本稿では,階層型双方向特徴知覚ネットワーク (HBFP-Net) という新しいモデルを提案する。
Market-1501, CUHK03, DukeMTMC-ReIDデータセットなどの主要な評価実験により, 提案手法が最近のSOTA Re-IDモデルより優れていることが示された。
論文 参考訳(メタデータ) (2020-08-08T12:33:32Z) - Augmented Parallel-Pyramid Net for Attention Guided Pose-Estimation [90.28365183660438]
本稿では、注意部分モジュールと微分可能な自動データ拡張を備えた拡張並列ピラミドネットを提案する。
我々は、データ拡張のシーケンスをトレーニング可能なCNNコンポーネントとして定式化する新しいポーズ検索空間を定義する。
特に,本手法は,挑戦的なCOCOキーポイントベンチマークとMPIIデータセットの最先端結果において,トップ1の精度を実現する。
論文 参考訳(メタデータ) (2020-03-17T03:52:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。