論文の概要: A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification
- arxiv url: http://arxiv.org/abs/2104.01745v1
- Date: Mon, 5 Apr 2021 02:50:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 14:54:10.628635
- Title: A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification
- Title(参考訳): ビデオは3つの価値ある: ビデオベースの人物識別のためのトリガミナルトランスフォーマー
- Authors: Xuehu Liu and Pingping Zhang and Chenyang Yu and Huchuan Lu and
Xuesheng Qian and Xiaoyun Yang
- Abstract要約: ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 77.08204941207985
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video-based person re-identification (Re-ID) aims to retrieve video sequences
of the same person under non-overlapping cameras. Previous methods usually
focus on limited views, such as spatial, temporal or spatial-temporal view,
which lack of the observations in different feature domains. To capture richer
perceptions and extract more comprehensive video representations, in this paper
we propose a novel framework named Trigeminal Transformers (TMT) for
video-based person Re-ID. More specifically, we design a trigeminal feature
extractor to jointly transform raw video data into spatial, temporal and
spatial-temporal domain. Besides, inspired by the great success of vision
transformer, we introduce the transformer structure for video-based person
Re-ID. In our work, three self-view transformers are proposed to exploit the
relationships between local features for information enhancement in spatial,
temporal and spatial-temporal domains. Moreover, a cross-view transformer is
proposed to aggregate the multi-view features for comprehensive video
representations. The experimental results indicate that our approach can
achieve better performance than other state-of-the-art approaches on public
Re-ID benchmarks. We will release the code for model reproduction.
- Abstract(参考訳): ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
従来の手法は通常、異なる特徴領域における観察の欠如である空間的、時間的、時間的といった限られた視点に焦点を当てていた。
本稿では,よりリッチな知覚を捉え,より包括的な映像表現を抽出すべく,映像ベースの人物再識別のための新しいフレームワーク trigeminal transformers (tmt) を提案する。
具体的には,生映像データを空間的・時間的・空間的領域に共同変換する特徴抽出器を設計する。
また,視覚トランスフォーマーの偉大な成功に触発されて,映像ベースの人物認証のためのトランスフォーマー構造を導入する。
本研究では,空間的,時空間的および時空間的領域における情報エンハンスメントのための局所的特徴の関係を活用すべく,3つの自己視点トランスフォーマを提案する。
さらに、包括的映像表現のための多視点特徴を集約するクロスビュー変換器を提案する。
実験結果から,我々の手法は,公開Re-IDベンチマークにおける他の最先端手法よりも優れた性能が得られることが示された。
モデル再現のためのコードをリリースします。
関連論文リスト
- SITAR: Semi-supervised Image Transformer for Action Recognition [20.609596080624662]
本稿では,少数のラベル付きビデオを利用する半教師付き環境での映像行動認識について述べる。
我々は、ラベルなしサンプルの膨大なプールを利用して、エンコードされたスーパーイメージに対して対照的な学習を行う。
本手法は,従来の半教師あり行動認識手法と比較して優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-04T17:49:54Z) - Multi-entity Video Transformers for Fine-Grained Video Representation
Learning [36.31020249963468]
ビデオ表現学習のためのトランスフォーマーアーキテクチャの設計を再検討する。
我々の自己監督手法の健全な側面は、時間的パイプラインにおける空間情報の統合の改善である。
我々のMV-Former(Multi-entity Video Transformer)アーキテクチャは、複数のきめ細かいビデオベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2023-11-17T21:23:12Z) - VDT: General-purpose Video Diffusion Transformers via Mask Modeling [62.71878864360634]
Video Diffusion Transformer (VDT)は、拡散に基づくビデオ生成におけるトランスフォーマーの利用の先駆者である。
本稿では,多様な映像生成シナリオに対応するために,モデルとシームレスに統合された空間時空間マスクモデリング機構を提案する。
論文 参考訳(メタデータ) (2023-05-22T17:59:45Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Space-time Mixing Attention for Video Transformer [55.50839896863275]
本稿では,ビデオシーケンス内のフレーム数と線形にスケールする複雑性をビデオトランスフォーマーモデルとして提案する。
我々は,最も人気のあるビデオ認識データセットに対して,認識精度が非常に高いことを実証した。
論文 参考訳(メタデータ) (2021-06-10T17:59:14Z) - Spatiotemporal Transformer for Video-based Person Re-identification [102.58619642363958]
我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
論文 参考訳(メタデータ) (2021-03-30T16:19:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。