論文の概要: Spatiotemporal Transformer for Video-based Person Re-identification
- arxiv url: http://arxiv.org/abs/2103.16469v1
- Date: Tue, 30 Mar 2021 16:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 16:31:18.457170
- Title: Spatiotemporal Transformer for Video-based Person Re-identification
- Title(参考訳): ビデオに基づく人物再識別のための時空間変換器
- Authors: Tianyu Zhang, Longhui Wei, Lingxi Xie, Zijie Zhuang, Yongfei Zhang, Bo
Li, Qi Tian
- Abstract要約: 我々は、強い学習能力にもかかわらず、バニラトランスフォーマーは過剰フィットのリスクの増加に苦しむことを示しています。
そこで本研究では,合成ビデオデータからモデルを事前学習し,下流領域に伝達する新しいパイプラインを提案する。
提案アルゴリズムは,3つの人気ビデオベース人物識別ベンチマークにおいて,精度向上を実現する。
- 参考スコア(独自算出の注目度): 102.58619642363958
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, the Transformer module has been transplanted from natural language
processing to computer vision. This paper applies the Transformer to
video-based person re-identification, where the key issue is to extract the
discriminative information from a tracklet. We show that, despite the strong
learning ability, the vanilla Transformer suffers from an increased risk of
over-fitting, arguably due to a large number of attention parameters and
insufficient training data. To solve this problem, we propose a novel pipeline
where the model is pre-trained on a set of synthesized video data and then
transferred to the downstream domains with the perception-constrained
Spatiotemporal Transformer (STT) module and Global Transformer (GT) module. The
derived algorithm achieves significant accuracy gain on three popular
video-based person re-identification benchmarks, MARS, DukeMTMC-VideoReID, and
LS-VID, especially when the training and testing data are from different
domains. More importantly, our research sheds light on the application of the
Transformer on highly-structured visual data.
- Abstract(参考訳): 近年,Transformerモジュールは自然言語処理からコンピュータビジョンへ移植されている。
本論文は,ビデオベースの人物再同定にトランスフォーマーを適用し,トラックレットから識別情報を抽出することを目的としている。
強い学習能力にもかかわらず、バニラトランスフォーマは、多量の注意パラメータと不十分なトレーニングデータのために、過剰フィッティングのリスクが増大していることが示されている。
そこで本研究では,合成ビデオデータの集合上でモデルを事前学習し,知覚拘束時空間トランスフォーマ (stt) モジュールとグローバルトランスフォーマ (gt) モジュールを用いて下流領域に伝達する新しいパイプラインを提案する。
得られたアルゴリズムは,MARS, DukeMTMC-VideoReID, LS-VIDの3つの人気ビデオベース人物識別ベンチマークにおいて, トレーニングデータとテストデータが異なる領域からのものである場合において, 大幅な精度向上を実現する。
より重要なことに、我々の研究は、高度に構造化された視覚データへのトランスフォーマーの適用に光を当てている。
関連論文リスト
- iTransformer: Inverted Transformers Are Effective for Time Series Forecasting [62.40166958002558]
iTransformerを提案する。これは、逆次元に注意とフィードフォワードのネットワークを単純に適用する。
iTransformerモデルは、挑戦的な現実世界のデータセットの最先端を実現する。
論文 参考訳(メタデータ) (2023-10-10T13:44:09Z) - On the Effect of Pre-training for Transformer in Different Modality on
Offline Reinforcement Learning [0.0]
本研究は,トランスフォーマーモデルからムジョコのオフライン強化学習タスクへの微調整に,言語や視覚などの異なるモーダルデータの事前学習がどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2022-11-17T13:34:08Z) - Pix4Point: Image Pretrained Standard Transformers for 3D Point Cloud
Understanding [62.502694656615496]
本稿では、プログレッシブ・ポイント・パッチ・エンベディングと、PViTと呼ばれる新しいポイント・クラウド・トランスフォーマーモデルを提案する。
PViTはTransformerと同じバックボーンを共有しているが、データに対して空腹が少ないことが示されており、Transformerは最先端技術に匹敵するパフォーマンスを実現することができる。
我々は、イメージ領域で事前訓練されたトランスフォーマーを活用して、下流のクラウド理解を強化する、シンプルで効果的なパイプライン「Pix4Point」を定式化します。
論文 参考訳(メタデータ) (2022-08-25T17:59:29Z) - Long-Short Temporal Contrastive Learning of Video Transformers [62.71874976426988]
ビデオのみのデータセットにおけるビデオトランスフォーマーの自己教師付き事前トレーニングは、大規模画像データセットでの教師付き事前トレーニングで得られたものよりも、同等以上のアクション認識結果につながる可能性がある。
我々の手法は、長短時空間コントラスト学習(Long-Short Temporal Contrastive Learning)と呼ばれ、ビデオトランスフォーマーが、より長い時間的範囲から捉えた時間的文脈を予測することによって、効果的なクリップレベルの表現を学習することを可能にする。
論文 参考訳(メタデータ) (2021-06-17T02:30:26Z) - Visformer: The Vision-friendly Transformer [105.52122194322592]
我々は視覚に優しいトランスフォーマーから短縮したvisformerという新しいアーキテクチャを提案する。
同じ計算の複雑さにより、VisformerはTransformerベースのモデルとConvolutionベースのモデルの両方をImageNet分類精度で上回る。
論文 参考訳(メタデータ) (2021-04-26T13:13:03Z) - A Video Is Worth Three Views: Trigeminal Transformers for Video-based
Person Re-identification [77.08204941207985]
ビデオベースの人物再識別(Re-ID)は、重複しないカメラで同一人物のビデオシーケンスを検索することを目的としている。
本稿では、ビデオベースのRe-IDのためのTrigeminal Transformers(TMT)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T02:50:16Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z) - Developing Real-time Streaming Transformer Transducer for Speech
Recognition on Large-scale Dataset [37.619200507404145]
Transformer Transducer (T-T) モデルは、大規模なデータセット上で、低レイテンシで高速な高速なフィストパスデコーディングのためのモデルである。
我々はTransformer-XLとチャンクワイドストリーミング処理のアイデアを組み合わせて、ストリーム可能なTransformer Transducerモデルを設計する。
ストリーミングシナリオにおいて、T-Tはハイブリッドモデル、RNNトランスデューサ(RNN-T)、ストリーム可能なトランスフォーマーアテンションベースのエンコーダデコーダモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-10-22T03:01:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。