論文の概要: NFormer: Robust Person Re-identification with Neighbor Transformer
- arxiv url: http://arxiv.org/abs/2204.09331v1
- Date: Wed, 20 Apr 2022 09:06:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 13:30:06.571304
- Title: NFormer: Robust Person Re-identification with Neighbor Transformer
- Title(参考訳): NFormer: 隣のトランスフォーマーでロバストな人物を再識別
- Authors: Haochen Wang, Jiayi Shen, Yongtuo Liu, Yan Gao, Efstratios Gavves
- Abstract要約: 隣のトランスフォーマーネットワーク(NFormer)は、すべての入力画像間での相互作用を明示的にモデル化する。
ランドマークエージェント注意(Landmark Agent Attention)とReciprocal Neighbor Softmax(Reciprocal Neighbor Softmax)の2つのモジュールが開発されている。
4つの大規模なデータセットの実験で、NFormerは新たな最先端技術を達成した。
- 参考スコア(独自算出の注目度): 32.27199954794268
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification aims to retrieve persons in highly varying settings
across different cameras and scenarios, in which robust and discriminative
representation learning is crucial. Most research considers learning
representations from single images, ignoring any potential interactions between
them. However, due to the high intra-identity variations, ignoring such
interactions typically leads to outlier features. To tackle this issue, we
propose a Neighbor Transformer Network, or NFormer, which explicitly models
interactions across all input images, thus suppressing outlier features and
leading to more robust representations overall. As modelling interactions
between enormous amount of images is a massive task with lots of distractors,
NFormer introduces two novel modules, the Landmark Agent Attention, and the
Reciprocal Neighbor Softmax. Specifically, the Landmark Agent Attention
efficiently models the relation map between images by a low-rank factorization
with a few landmarks in feature space. Moreover, the Reciprocal Neighbor
Softmax achieves sparse attention to relevant -- rather than all -- neighbors
only, which alleviates interference of irrelevant representations and further
relieves the computational burden. In experiments on four large-scale datasets,
NFormer achieves a new state-of-the-art. The code is released at
\url{https://github.com/haochenheheda/NFormer}.
- Abstract(参考訳): 人物の再識別は、堅牢で差別的な表現学習が不可欠である様々なカメラやシナリオで、高度に異なる設定の人物を検索することを目的としている。
ほとんどの研究は、単一の画像からの学習表現を考慮し、それら間の潜在的な相互作用を無視している。
しかし、id内変異が大きいため、そのような相互作用を無視すると通常、異常な特徴が生じる。
そこで本研究では,全ての入力画像間のインタラクションを明示的にモデル化するnformer(neighent transformer network)を提案する。
膨大な画像間の相互作用のモデリングは膨大な作業であり、多くの邪魔者を抱えているため、nformerは2つの新しいモジュール、ランドマークエージェントの注意と相互隣のsoftmaxを導入している。
特に、ランドマークエージェントの注意は、特徴空間にいくつかのランドマークがある低ランク分解によって、画像間の関係マップを効率的にモデル化する。
さらに、相反する隣のsoftmaxは、関係のある(すべてではなく)隣人のみにあまり注意を払わず、無関係な表現の干渉を緩和し、計算の負担を緩和する。
4つの大規模なデータセットの実験で、NFormerは新たな最先端技術を達成した。
コードは \url{https://github.com/haochenheheda/NFormer} でリリースされる。
関連論文リスト
- Unsegment Anything by Simulating Deformation [67.10966838805132]
「無声化」とは、「無声化の権利」を画像に付与する作業である。
我々は、全てのプロンプトベースセグメンテーションモデルに対して、転送可能な敵攻撃を実現することを目指している。
本手法は, 画像エンコーダの特徴を破壊し, 即時攻撃を実現することに焦点を当てる。
論文 参考訳(メタデータ) (2024-04-03T09:09:42Z) - AMatFormer: Efficient Feature Matching via Anchor Matching Transformer [34.08771267009364]
本稿では,特徴マッチング問題に対する効率的なアンカーマッチング変換器 (AMatFormer) を提案する。
AMatFormerには2つの主な側面がある。 まず、主にアンカー機能に対して自己/クロスアテンションを実行し、これらのアンカー機能をメッセージボトルネックとして活用する。
いくつかのベンチマークの実験では、提案したAMatFormerマッチング手法の有効性と効率が示されている。
論文 参考訳(メタデータ) (2023-05-30T16:54:10Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Decoupled Multi-task Learning with Cyclical Self-Regulation for Face
Parsing [71.19528222206088]
顔解析のための周期的自己統制型デカップリング型マルチタスク学習を提案する。
具体的には、DML-CSRは、顔解析、バイナリエッジ、カテゴリエッジ検出を含むマルチタスクモデルを設計する。
提案手法は,Helen,CelebA-HQ,LapaMaskのデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-28T02:12:30Z) - An attention-driven hierarchical multi-scale representation for visual
recognition [3.3302293148249125]
畳み込みニューラルネットワーク(CNN)は、視覚内容の理解に革命をもたらした。
グラフ畳み込みネットワーク(GCN)を探索することにより,高レベルの長距離依存関係を捕捉する手法を提案する。
本手法は,細粒度と総称的な視覚的分類の両問題を解くのに極めて効果的である。
論文 参考訳(メタデータ) (2021-10-23T09:22:22Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Hybrid-Attention Guided Network with Multiple Resolution Features for
Person Re-Identification [30.285126447140254]
本稿では,ハイレベルな特徴を学習する際の情報損失を低減するために,ハイレベルな埋め込みと低レベルな埋め込みを融合した新しい人物再IDモデルを提案する。
また,対象物に関するより識別的な特徴を抽出することを目的とした,空間的およびチャネル的注意機構をモデルに導入する。
論文 参考訳(メタデータ) (2020-09-16T08:12:42Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。