論文の概要: Towards Grouping in Large Scenes with Occlusion-aware Spatio-temporal
Transformers
- arxiv url: http://arxiv.org/abs/2310.19447v1
- Date: Mon, 30 Oct 2023 11:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 20:32:20.604783
- Title: Towards Grouping in Large Scenes with Occlusion-aware Spatio-temporal
Transformers
- Title(参考訳): 咬合認識時空間変圧器を用いた大規模シーンのグルーピング
- Authors: Jinsong Zhang and Lingfeng Gu and Yu-Kun Lai and Xueyang Wang and Kun
Li
- Abstract要約: 特に大規模なシーンにおけるグループ検出は、公共の安全とスマートシティに多くの潜在的な応用がある。
既存の方法は、複数の人との大規模なシーンにおいて、頻繁に排他的に対処することができない。
本稿では,大規模シーンにおけるグループ検出のためのエンドツーエンドフレームワークTransformerを提案する。
- 参考スコア(独自算出の注目度): 47.83631610648981
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Group detection, especially for large-scale scenes, has many potential
applications for public safety and smart cities. Existing methods fail to cope
with frequent occlusions in large-scale scenes with multiple people, and are
difficult to effectively utilize spatio-temporal information. In this paper, we
propose an end-to-end framework,GroupTransformer, for group detection in
large-scale scenes. To deal with the frequent occlusions caused by multiple
people, we design an occlusion encoder to detect and suppress severely occluded
person crops. To explore the potential spatio-temporal relationship, we propose
spatio-temporal transformers to simultaneously extract trajectory information
and fuse inter-person features in a hierarchical manner. Experimental results
on both large-scale and small-scale scenes demonstrate that our method achieves
better performance compared with state-of-the-art methods. On large-scale
scenes, our method significantly boosts the performance in terms of precision
and F1 score by more than 10%. On small-scale scenes, our method still improves
the performance of F1 score by more than 5%. The project page with code can be
found at http://cic.tju.edu.cn/faculty/likun/projects/GroupTrans.
- Abstract(参考訳): グループ検出、特に大規模なシーンでは、公共の安全とスマートシティに多くの潜在的な応用がある。
既存の手法では,複数人の大規模場面で頻繁な閉塞に対処できず,時空間情報の有効活用が困難である。
本稿では,大規模シーンにおけるグループ検出のためのエンドツーエンドフレームワークGroupTransformerを提案する。
複数の人による頻繁な隠蔽に対処するため,重度の隠蔽人作物の検出・抑制のための隠蔽エンコーダを設計した。
本研究では, 時空間的関係を探究するために, 軌跡情報を抽出し, 人物間特徴を階層的に融合する時空間的トランスフォーマを提案する。
大規模・小規模の両方での実験結果から,本手法は最先端の手法と比較して性能が向上することが示された。
大規模シーンでは,F1スコアが10%以上向上し,精度が向上した。
小規模シーンでは,f1スコアのパフォーマンスを5%以上向上させることができた。
コード付きのプロジェクトページはhttp://cic.tju.edu.cn/faculty/likun/projects/GroupTransにある。
関連論文リスト
- Delving into CLIP latent space for Video Anomaly Recognition [24.37974279994544]
本稿では,CLIP などの大規模言語と視覚(LLV)モデルを組み合わせた新しい手法 AnomalyCLIP を提案する。
当社のアプローチでは、通常のイベントサブスペースを特定するために、潜伏するCLIP機能空間を操作することが特に必要です。
異常フレームがこれらの方向に投影されると、それらが特定のクラスに属している場合、大きな特徴量を示す。
論文 参考訳(メタデータ) (2023-10-04T14:01:55Z) - CloudAttention: Efficient Multi-Scale Attention Scheme For 3D Point
Cloud Learning [81.85951026033787]
この作業にトランスフォーマーをセットし、それらを形状分類と部分およびシーンセグメンテーションのための階層的なフレームワークに組み込む。
また、各イテレーションにおけるサンプリングとグループ化を活用して、効率的でダイナミックなグローバルなクロスアテンションを計算します。
提案した階層モデルは,最先端の形状分類を平均精度で達成し,従来のセグメンテーション法と同等の結果を得る。
論文 参考訳(メタデータ) (2022-07-31T21:39:15Z) - Towards Robust Semantic Segmentation of Accident Scenes via Multi-Source
Mixed Sampling and Meta-Learning [29.74171323437029]
本稿では,セグメント化変換器を極端に事故現場に一般化するための多元的メタラーニング・アン教師付きドメイン適応フレームワークを提案する。
DADA-segベンチマークではmIoUスコアが46.97%に達し,従来の最先端モデルよりも7.50%以上向上した。
論文 参考訳(メタデータ) (2022-03-19T21:18:54Z) - Congested Crowd Instance Localization with Dilated Convolutional Swin
Transformer [119.72951028190586]
クラウドローカライゼーションは、クラウドカウントから進化した新しいコンピュータビジョンタスクである。
本稿では,高密度群集シーンにおける高精度なインスタンスローカライズを実現する方法について述べる。
混雑した群集シーンを対象とした拡張畳み込みスイム変換器 (DCST) を提案する。
論文 参考訳(メタデータ) (2021-08-02T01:27:53Z) - Augmented Transformer with Adaptive Graph for Temporal Action Proposal
Generation [79.98992138865042]
TAPGの長期的および局所的時間的コンテキストを利用するための適応グラフネットワーク(ATAG)を備えた拡張トランスを提案する。
具体的には、スニペット動作損失と前部ブロックを装着し、拡張トランスと呼ばれるバニラトランスを強化する。
位置情報と隣接特徴の差異をマイニングすることで局所時間文脈を構築するための適応型グラフ畳み込みネットワーク(gcn)を提案する。
論文 参考訳(メタデータ) (2021-03-30T02:01:03Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z) - Two-branch Recurrent Network for Isolating Deepfakes in Videos [17.59209853264258]
本稿では,2分岐ネットワーク構造に基づくディープフェイク検出手法を提案する。
1つのブランチは元の情報を伝達し、もう1つのブランチは顔の内容を抑制する。
当社の2つの新しいコンポーネントは、FaceForensics++、Celeb-DF、FacebookのDFDCプレビューベンチマークで有望な結果を示している。
論文 参考訳(メタデータ) (2020-08-08T01:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。