論文の概要: IAUnet: Global Context-Aware Feature Learning for Person
Re-Identification
- arxiv url: http://arxiv.org/abs/2009.01035v1
- Date: Wed, 2 Sep 2020 13:07:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:29:44.536300
- Title: IAUnet: Global Context-Aware Feature Learning for Person
Re-Identification
- Title(参考訳): IAUnet: 人物再識別のためのグローバルコンテキスト認識機能学習
- Authors: Ruibing Hou and Bingpeng Ma and Hong Chang and Xinqian Gu and Shiguang
Shan and Xilin Chen
- Abstract要約: IAUブロックは、グローバル空間、時間、チャネルコンテキストを組み込むことができる。
軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単に接続してIAUnetを形成することができる。
実験の結果、IAUnetは画像とビデオの両方で最先端のreIDタスクに対して好意的に機能することがわかった。
- 参考スコア(独自算出の注目度): 106.50534744965955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Person re-identification (reID) by CNNs based networks has achieved favorable
performance in recent years. However, most of existing CNNs based methods do
not take full advantage of spatial-temporal context modeling. In fact, the
global spatial-temporal context can greatly clarify local distractions to
enhance the target feature representation. To comprehensively leverage the
spatial-temporal context information, in this work, we present a novel block,
Interaction-Aggregation-Update (IAU), for high-performance person reID.
Firstly, Spatial-Temporal IAU (STIAU) module is introduced. STIAU jointly
incorporates two types of contextual interactions into a CNN framework for
target feature learning. Here the spatial interactions learn to compute the
contextual dependencies between different body parts of a single frame. While
the temporal interactions are used to capture the contextual dependencies
between the same body parts across all frames. Furthermore, a Channel IAU
(CIAU) module is designed to model the semantic contextual interactions between
channel features to enhance the feature representation, especially for
small-scale visual cues and body parts. Therefore, the IAU block enables the
feature to incorporate the globally spatial, temporal, and channel context. It
is lightweight, end-to-end trainable, and can be easily plugged into existing
CNNs to form IAUnet. The experiments show that IAUnet performs favorably
against state-of-the-art on both image and video reID tasks and achieves
compelling results on a general object categorization task. The source code is
available at https://github.com/blue-blue272/ImgReID-IAnet.
- Abstract(参考訳): 近年,CNNを基盤としたネットワークによる人物識別(reID)が向上している。
しかし、既存のcnnsベースの手法のほとんどは、時空間的文脈モデリングを十分に活用していない。
実際、大域的空間-時間的文脈は、対象の特徴表現を強化するために局所的注意を著しく明確化することができる。
本研究では,空間的文脈情報を包括的に活用するために,ハイパフォーマンスな人物のreIDのための新しいブロックであるInteraction-Aggregation-Update(IAU)を提案する。
まず、時空間IAU(Spatial-Temporal IAU)モジュールを導入する。
STIAUは2種類のコンテキストインタラクションをCNNフレームワークに組み込んでターゲット特徴学習を行う。
ここで空間的相互作用は、1つのフレームの異なるボディ部分間のコンテキスト依存を計算することを学ぶ。
時間的相互作用は、すべてのフレームにまたがる同じボディ部分間のコンテキスト依存性をキャプチャするために使用される。
さらに、チャンネルIAU(CIAU)モジュールは、チャネル特徴間の意味的文脈的相互作用をモデル化して特徴表現を強化するように設計されている。
したがって、iauブロックは、グローバルな空間的、時間的、チャネル的コンテキストを組み込むことができる。
軽量でエンドツーエンドのトレーニングが可能で、既存のCNNに簡単に接続してIAUnetを形成することができる。
実験の結果,IAUnetは画像とビデオの両方で最先端のreIDタスクに対して良好に動作し,汎用オブジェクト分類タスクにおいて説得力のある結果が得られることがわかった。
ソースコードはhttps://github.com/blue-blue272/imgreid-ianetで入手できる。
関連論文リスト
- Keypoint-Augmented Self-Supervised Learning for Medical Image
Segmentation with Limited Annotation [21.203307064937142]
本稿では,短距離と長距離の両方の自己注意を保った表現を抽出するキーポイント拡張融合層を提案する。
特に,長距離空間の自己意識を学習する追加入力を組み込むことで,CNN機能マップを複数スケールで拡張する。
提案手法は,より堅牢な自己アテンションを生成することにより,既存のSSLメソッドよりも優れる。
論文 参考訳(メタデータ) (2023-10-02T22:31:30Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Abstract Flow for Temporal Semantic Segmentation on the Permutohedral
Lattice [27.37701107719647]
バックボーンのLatticeNetを拡張して、時間的ポイントクラウドデータを処理します。
我々は,ネットワークがシーンの一部に類似した抽象的な特徴を持たせるための抽象フローという新しいモジュールを提案する。
我々は,実都市環境からのLiDARスキャンを含むSemantic KITTIデータセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-03-29T12:14:31Z) - SSAN: Separable Self-Attention Network for Video Representation Learning [11.542048296046524]
本稿では,空間的および時間的相関を逐次モデル化する分離型自己アテンションモジュールを提案する。
2次元CNNにSSAモジュールを追加することで、ビデオ表現学習のためのSSAネットワーク(SSAN)を構築する。
提案手法は,Something と Kinetics-400 データセットの最先端手法より優れている。
論文 参考訳(メタデータ) (2021-05-27T10:02:04Z) - Dense Interaction Learning for Video-based Person Re-identification [75.03200492219003]
ビデオベースの人物再ID問題に取り組むために,Dense Interaction Learning (DenseIL) というハイブリッドフレームワークを提案する。
DenseILにはCNNエンコーダとDense Interaction (DI)デコーダが含まれている。
当社の実験は、複数の標準ビデオベースの再IDデータセットにおけるすべての最先端の手法を一貫して大幅に上回ります。
論文 参考訳(メタデータ) (2021-03-16T12:22:08Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - AXM-Net: Cross-Modal Context Sharing Attention Network for Person Re-ID [20.700750237972155]
クロスモーダルな人物識別(Re-ID)は、現代のビデオ監視システムにおいて重要である。
主な課題は、人に存在する意味情報に従ってモダリティ間表現を整合させ、背景情報を無視することです。
AXM-Netは、意味的に整列された視覚およびテキスト表現を学習するために設計された新しいCNNベースのアーキテクチャである。
論文 参考訳(メタデータ) (2021-01-19T16:06:39Z) - Temporal Attribute-Appearance Learning Network for Video-based Person
Re-Identification [94.03477970865772]
本稿では,ビデオに基づく人物再識別のための時間属性・アプライアンス学習ネットワーク(TALNet)を提案する。
TALNetは人間の属性と外観を利用して、ビデオから包括的で効果的な歩行者表現を学習する。
論文 参考訳(メタデータ) (2020-09-09T09:28:07Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。