論文の概要: Multi-direction and Multi-scale Pyramid in Transformer for Video-based
Pedestrian Retrieval
- arxiv url: http://arxiv.org/abs/2202.06014v1
- Date: Sat, 12 Feb 2022 08:22:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-15 15:52:30.612624
- Title: Multi-direction and Multi-scale Pyramid in Transformer for Video-based
Pedestrian Retrieval
- Title(参考訳): ビデオベース歩行者検索用変圧器における多方向・多スケールピラミッド
- Authors: Xianghao Zang, Ge Li, Wei Gao
- Abstract要約: ビデオ監視では、歩行者の検索が重要な課題である。
近年の変圧器ベースモデルは, この課題において大きな進歩を遂げている。
本稿では, この問題を解決するために, トランスフォーマー(PiT)の多方向・マルチスケールピラミッドを提案する。
- 参考スコア(独自算出の注目度): 15.85563209776999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In video surveillance, pedestrian retrieval (also called person
re-identification) is a critical task. This task aims to retrieve the
pedestrian of interest from non-overlapping cameras. Recently,
transformer-based models have achieved significant progress for this task.
However, these models still suffer from ignoring fine-grained, part-informed
information. This paper proposes a multi-direction and multi-scale Pyramid in
Transformer (PiT) to solve this problem. In transformer-based architecture,
each pedestrian image is split into many patches. Then, these patches are fed
to transformer layers to obtain the feature representation of this image. To
explore the fine-grained information, this paper proposes to apply vertical
division and horizontal division on these patches to generate
different-direction human parts. These parts provide more fine-grained
information. To fuse multi-scale feature representation, this paper presents a
pyramid structure containing global-level information and many pieces of
local-level information from different scales. The feature pyramids of all the
pedestrian images from the same video are fused to form the final
multi-direction and multi-scale feature representation. Experimental results on
two challenging video-based benchmarks, MARS and iLIDS-VID, show the proposed
PiT achieves state-of-the-art performance. Extensive ablation studies
demonstrate the superiority of the proposed pyramid structure. The code is
available at https://git.openi.org.cn/zangxh/PiT.git.
- Abstract(参考訳): ビデオサーベイランスでは、歩行者検索(人物再特定とも呼ばれる)が重要な課題である。
このタスクは、重複しないカメラから歩行者を回収することを目的としている。
近年,トランスフォーマーモデルがこの課題に対して大きな進歩を遂げている。
しかし、これらのモデルは、きめ細かい部分情報を無視している。
本稿では, この問題を解決するために, トランスフォーマー(PiT)の多方向・マルチスケールピラミッドを提案する。
トランスフォーマーベースのアーキテクチャでは、各歩行者イメージは多数のパッチに分割される。
そして、これらのパッチを変圧器層に供給し、この画像の特徴表現を得る。
そこで本研究では,これらのパッチに垂直分割と水平分割を適用し,異なる方向の人体部品を生成することを提案する。
これらの部品はよりきめ細かい情報を提供する。
マルチスケールの特徴表現を融合するために,グローバルレベルの情報と,さまざまなスケールのローカルレベルの情報を含むピラミッド構造を提案する。
同じビデオから得られたすべての歩行者画像の特徴ピラミッドは融合され、最終的な多方向およびマルチスケールの特徴表現を形成する。
MARSとiLIDS-VIDという2つの挑戦的なビデオベースベンチマークの実験結果から、提案したPiTが最先端のパフォーマンスを達成することを示す。
大規模なアブレーション研究は、提案されたピラミッド構造の優位性を示している。
コードはhttps://git.openi.org.cn/zangxh/PiT.gitで入手できる。
関連論文リスト
- TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - Meta-Transformer: A Unified Framework for Multimodal Learning [105.77219833997962]
マルチモーダル学習は、複数のモーダルからの情報を処理し、関連付けるモデルを構築することを目的としている。
この分野での長年の開発にもかかわらず、様々なモダリティを処理する統一ネットワークを設計することは依然として困難である。
我々は、textbffrozen$ encoderを利用してマルチモーダル認識を行うMeta-Transformerというフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-20T12:10:29Z) - Efficient End-to-End Video Question Answering with Pyramidal Multimodal
Transformer [13.71165050314854]
ビデオQA(End-to-end Video Questioning)のための新しい手法を提案する。
学習可能な単語埋め込み層を組み込んだピラミッド型マルチモーダルトランスフォーマー(PMT)モデルでこれを実現できる。
我々は,5つのビデオQAベンチマークにおいて,最先端手法に対して高い計算効率で高い性能を示す。
論文 参考訳(メタデータ) (2023-02-04T09:14:18Z) - A Light Touch Approach to Teaching Transformers Multi-view Geometry [80.35521056416242]
視覚変換器の多視点幾何学習を支援する「ライトタッチ」手法を提案する。
本研究では,トランスフォーマーのクロスアテンションマップの導出にエピポーラ線を用いる。
従来の方法とは異なり、我々の提案ではテスト時にカメラのポーズ情報を必要としない。
論文 参考訳(メタデータ) (2022-11-28T07:54:06Z) - Fully Transformer Network for Change Detection of Remote Sensing Images [22.989324947501014]
リモートセンシング画像CDのための新しい学習フレームワークであるFully Transformer Network (FTN)を提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの公開CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-10-03T08:21:25Z) - Multiview Detection with Shadow Transformer (and View-Coherent Data
Augmentation) [25.598840284457548]
本稿では,マルチビュー情報を集約するシャドートランスを用いた新しいマルチビュー検出器MVDeTrを提案する。
畳み込みとは異なり、シャドートランスフォーマーは様々な位置やカメラで様々な影のような歪みに対処する。
本報告では,提案方式による最新の精度について報告する。
論文 参考訳(メタデータ) (2021-08-12T17:59:02Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - P2T: Pyramid Pooling Transformer for Scene Understanding [62.41912463252468]
私たちはP2Tと呼ばれる下流タスク指向のトランスネットワークを構築します。
プールベースのMHSAを組み込んで、P2Tと呼ばれる下流タスク指向のトランスネットワークを構築しました。
論文 参考訳(メタデータ) (2021-06-22T18:28:52Z) - Keeping Your Eye on the Ball: Trajectory Attention in Video Transformers [77.52828273633646]
暗黙的に決定された動き経路に沿って情報を集約するビデオトランスフォーマー用の新しいドロップインブロックを提案する。
また,入力サイズに対する計算とメモリの二次的依存に対処する新しい手法を提案する。
我々は、Kineetics、Something V2、Epic-Kitchensデータセットの最先端結果を得る。
論文 参考訳(メタデータ) (2021-06-09T21:16:05Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。