論文の概要: Adversarial Self-Attack Defense and Spatial-Temporal Relation Mining for
Visible-Infrared Video Person Re-Identification
- arxiv url: http://arxiv.org/abs/2307.03903v1
- Date: Sat, 8 Jul 2023 05:03:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-11 16:48:11.421302
- Title: Adversarial Self-Attack Defense and Spatial-Temporal Relation Mining for
Visible-Infrared Video Person Re-Identification
- Title(参考訳): 可視赤外ビデオパーソン再同定のための対向的自己攻撃防御と空間的時間的関係マイニング
- Authors: Huafeng Li, Le Xu, Yafei Zhang, Dapeng Tao, Zhengtao Yu
- Abstract要約: 本稿では,新しい視点,すなわち対人自己防衛と時空間的関係のマイニングから,新しい可視赤外ビデオパーソン re-ID 手法を提案する。
提案手法は,大規模なクロスモダリティビデオデータセットにおいて魅力的な性能を示す。
- 参考スコア(独自算出の注目度): 24.9205771457704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In visible-infrared video person re-identification (re-ID), extracting
features not affected by complex scenes (such as modality, camera views,
pedestrian pose, background, etc.) changes, and mining and utilizing motion
information are the keys to solving cross-modal pedestrian identity matching.
To this end, the paper proposes a new visible-infrared video person re-ID
method from a novel perspective, i.e., adversarial self-attack defense and
spatial-temporal relation mining. In this work, the changes of views, posture,
background and modal discrepancy are considered as the main factors that cause
the perturbations of person identity features. Such interference information
contained in the training samples is used as an adversarial perturbation. It
performs adversarial attacks on the re-ID model during the training to make the
model more robust to these unfavorable factors. The attack from the adversarial
perturbation is introduced by activating the interference information contained
in the input samples without generating adversarial samples, and it can be thus
called adversarial self-attack. This design allows adversarial attack and
defense to be integrated into one framework. This paper further proposes a
spatial-temporal information-guided feature representation network to use the
information in video sequences. The network cannot only extract the information
contained in the video-frame sequences but also use the relation of the local
information in space to guide the network to extract more robust features. The
proposed method exhibits compelling performance on large-scale cross-modality
video datasets. The source code of the proposed method will be released at
https://github.com/lhf12278/xxx.
- Abstract(参考訳): 可視赤外ビデオパーソナライゼーション(re-ID)では、複雑なシーン(モダリティ、カメラビュー、歩行者ポーズ、背景など)の変化の影響を受けない特徴を抽出し、移動情報をマイニングし活用することが、横断的歩行者識別マッチングの鍵となる。
そこで本研究では,新たな視点,すなわち対人自己攻撃防衛と時空間関係のマイニングの観点から,新しい可視赤外ビデオパーソンre-ID手法を提案する。
本研究では,視点,姿勢,背景,モーダルの不一致の変化が,人物のアイデンティティ特徴の摂動を引き起こす主な要因であると考えられる。
トレーニングサンプルに含まれるそのような干渉情報は、対向摂動として使用される。
トレーニング中にre-idモデルに対して敵対的な攻撃を行い、これらの不利な要因に対してモデルをより堅牢にする。
敵の摂動からの攻撃は、入力サンプルに含まれる干渉情報を敵のサンプルを発生させることなく活性化し、敵の自己攻撃(adversarial self-ack)と呼ばれる。
この設計により、敵の攻撃と防御を一つのフレームワークに統合できる。
本稿では,映像列における情報を利用する空間-時間情報案内特徴表現ネットワークを提案する。
ネットワークは、ビデオフレームシーケンスに含まれる情報を抽出するだけでなく、空間内のローカル情報の関係を利用してネットワークをガイドし、より堅牢な特徴を抽出する。
提案手法は,大規模なクロスモダリティビデオデータセットにおいて魅力的な性能を示す。
提案手法のソースコードはhttps://github.com/lhf12278/xxxで公開される。
関連論文リスト
- Generative Adversarial Patches for Physical Attacks on Cross-Modal Pedestrian Re-Identification [24.962600785183582]
Visible-Infrared pedestrian Re-identification (VI-ReID)は、赤外線カメラと可視カメラで撮影された歩行者画像とをマッチングすることを目的としている。
本稿では,VI-ReIDモデルに対する最初の物理的攻撃について紹介する。
論文 参考訳(メタデータ) (2024-10-26T06:40:10Z) - Erasing, Transforming, and Noising Defense Network for Occluded Person
Re-Identification [36.91680117072686]
我々は,隠蔽された人物のリIDを解決するために,ETNDNet(Easing, Transforming, and Noising Defense Network)を提案する。
提案するETNDNetでは,特徴マップをランダムに消去し,不完全な情報を持つ逆表現を生成する。
第3に、障害物や歩行者以外の歩行者が導入したノイズ情報に対処するために、ランダムな値で特徴マップを摂動する。
論文 参考訳(メタデータ) (2023-07-14T06:42:21Z) - Feature Disentanglement Learning with Switching and Aggregation for
Video-based Person Re-Identification [9.068045610800667]
映像人物再識別(Re-ID)では、連続したフレームから対象人物の特徴を一貫して抽出する必要がある。
既存の手法は時間的情報の使用方法にのみ焦点をあてる傾向があり、しばしばネットワークは同じような外観と同じ背景に騙される。
本稿では,DSANet(Disentanglement and Switching and Aggregation Network)を提案する。
論文 参考訳(メタデータ) (2022-12-16T04:27:56Z) - Keypoint Message Passing for Video-based Person Re-Identification [106.41022426556776]
ビデオベースの人物再識別(re-ID)は、異なるカメラで捉えた人々のビデオスニペットをマッチングすることを目的とした、視覚監視システムにおいて重要な技術である。
既存の手法は主に畳み込みニューラルネットワーク(CNN)に基づいており、そのビルディングブロックは近隣のピクセルを一度に処理するか、あるいは3D畳み込みが時間情報のモデル化に使用される場合、人の動きによって生じるミスアライメントの問題に悩まされる。
本稿では,人間指向グラフ法を用いて,通常の畳み込みの限界を克服することを提案する。具体的には,人手指のキーポイントに位置する特徴を抽出し,時空間グラフとして接続する。
論文 参考訳(メタデータ) (2021-11-16T08:01:16Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - Deconfounded Video Moment Retrieval with Causal Intervention [80.90604360072831]
本研究は,ビデオ中の特定のモーメントをテキストクエリに従ってローカライズすることを目的とした,ビデオモーメント検索(VMR)の課題に取り組む。
既存の手法は主に複雑な相互モーダル相互作用によるクエリとモーメントのマッチング関係をモデル化する。
本稿では,クエリとビデオコンテンツが予測に与える影響を捉えるために,構造因果モデルを構築する因果性に着想を得たVMRフレームワークを提案する。
論文 参考訳(メタデータ) (2021-06-03T01:33:26Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - A Flow-Guided Mutual Attention Network for Video-Based Person
Re-Identification [25.217641512619178]
Person ReIDは多くの分析および監視アプリケーションにおいて難しい問題である。
ビデオベースのReIDは最近、特徴識別時間情報をキャプチャできるので、大きな関心を集めている。
本稿では、ReIDのための追加のキューとして、人物の動作パターンを探索する。
論文 参考訳(メタデータ) (2020-08-09T18:58:11Z) - Attribute-aware Identity-hard Triplet Loss for Video-based Person
Re-identification [51.110453988705395]
ビデオベースの人物識別(Re-ID)は重要なコンピュータビジョンタスクである。
属性認識型ID-hard Triplet Loss (AITL) と呼ばれる新しいメトリクス学習手法を提案する。
ビデオベースのRe-IDの完全なモデルを実現するために,Attribute-driven Spatio-Temporal Attention (ASTA) 機構を備えたマルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-13T09:15:38Z) - Over-the-Air Adversarial Flickering Attacks against Video Recognition
Networks [54.82488484053263]
ビデオ分類のためのディープニューラルネットワークは、敵の操作を受けることができる。
本稿では,フリックング時間摂動を導入することで,ビデオ分類器を騙す操作手法を提案する。
攻撃はいくつかの標的モデルに実装され、攻撃の伝達性が実証された。
論文 参考訳(メタデータ) (2020-02-12T17:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。