論文の概要: AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification
- arxiv url: http://arxiv.org/abs/2503.08121v2
- Date: Mon, 17 Mar 2025 01:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 14:56:57.401522
- Title: AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification
- Title(参考訳): AG-VPReID: Aerial-Ground Video-based Person Re-Identificationのための大規模ベンチマーク
- Authors: Huy Nguyen, Kien Nguyen, Akila Pemasiri, Feng Liu, Sridha Sridharan, Clinton Fookes,
- Abstract要約: 我々は,地上ビデオに基づく人物識別(ReID)のための大規模データセット AG-VPReID を紹介する。
このデータセットは6,632人の被験者、32,321のトラックレット、960万フレーム以上をドローン(高度15-120m)、CCTV、ウェアラブルカメラで捉えている。
本稿では,3つの補完ストリームからなるエンドツーエンドフレームワーク AG-VPReID-Net を提案する。
- 参考スコア(独自算出の注目度): 39.350429734981184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce AG-VPReID, a new large-scale dataset for aerial-ground video-based person re-identification (ReID) that comprises 6,632 subjects, 32,321 tracklets and over 9.6 million frames captured by drones (altitudes ranging from 15-120m), CCTV, and wearable cameras. This dataset offers a real-world benchmark for evaluating the robustness to significant viewpoint changes, scale variations, and resolution differences in cross-platform aerial-ground settings. In addition, to address these challenges, we propose AG-VPReID-Net, an end-to-end framework composed of three complementary streams: (1) an Adapted Temporal-Spatial Stream addressing motion pattern inconsistencies and facilitating temporal feature learning, (2) a Normalized Appearance Stream leveraging physics-informed techniques to tackle resolution and appearance changes, and (3) a Multi-Scale Attention Stream handling scale variations across drone altitudes. We integrate visual-semantic cues from all streams to form a robust, viewpoint-invariant whole-body representation. Extensive experiments demonstrate that AG-VPReID-Net outperforms state-of-the-art approaches on both our new dataset and existing video-based ReID benchmarks, showcasing its effectiveness and generalizability. Nevertheless, the performance gap observed on AG-VPReID across all methods underscores the dataset's challenging nature. The dataset, code and trained models are available at https://github.com/agvpreid25/AG-VPReID-Net.
- Abstract(参考訳): AG-VPReIDは、6,632人の被験者、32,321のトラックレット、ドローン(高度15~120m)、CCTV、ウェアラブルカメラによって捕獲された960万フレームからなる、地上ビデオに基づく人物識別(ReID)のための新しい大規模データセットである。
このデータセットは、クロスプラットフォームの地上設定において、重要な視点の変化、スケールのバリエーション、解像度の違いに対する堅牢性を評価するための実世界のベンチマークを提供する。
さらに,これらの課題に対処するため,(1)適応時空間ストリーム対応動作パターンの不整合と時間的特徴学習の促進,(2)物理インフォーマルな手法を活用して解像度と外観の変化に対処する正規化外観ストリーム,(3)ドローン高度のスケール変化を扱うマルチスケール注意ストリームの3つの補完ストリームからなるエンドツーエンドフレームワーク AG-VPReID-Netを提案する。
すべてのストリームから視覚的セマンティックなキューを統合して、堅牢で視点不変な全体表現を形成する。
AG-VPReID-Netは、我々の新しいデータセットと既存のビデオベースのReIDベンチマークの両方において最先端のアプローチよりも優れており、その有効性と一般化性を示している。
それにもかかわらず、すべてのメソッドでAG-VPReIDで観測されるパフォーマンスギャップは、データセットの困難な性質を浮き彫りにしている。
データセット、コード、トレーニングされたモデルはhttps://github.com/agvpreid25/AG-VPReID-Net.orgで公開されている。
関連論文リスト
- SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [61.753607285860944]
本稿では,AG-ReIDのためのSD-ReIDという2段階特徴学習フレームワークを提案する。
第1段階では、粗粒度表現と制御可能な条件を抽出するために、簡単なViTベースモデルを訓練する。
第2段階では、制御可能な条件で導かれる補完表現を学習するためにSDモデルを微調整する。
論文 参考訳(メタデータ) (2025-04-13T12:44:50Z) - Griffin: Aerial-Ground Cooperative Detection and Tracking Dataset and Benchmark [15.405137983083875]
航空と地上の協力は、UAVの空中視界と地上の車両の局部的な観測を統合することで、有望な解決策を提供する。
本稿では,3つの重要な貢献を通じて,地上3次元協調認識のための包括的ソリューションを提案する。
論文 参考訳(メタデータ) (2025-03-10T07:00:07Z) - Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach [37.53617620654204]
我々はG2A-VReIDという地上から地上までの映像に基づく人物再同定のための大規模ベンチマークデータセットを構築した。
G2A-VReIDデータセットには次のような特徴がある: 1) 劇的な視点の変化; 2) 注釈付きアイデンティティの多さ; 3) リッチ屋外シナリオ; 4) 解像度の大きな差。
論文 参考訳(メタデータ) (2024-08-14T12:29:49Z) - Object Re-identification via Spatial-temporal Fusion Networks and Causal Identity Matching [4.123763595394021]
空間時間融合ネットワークと因果同一性マッチング(CIM)を利用した新しいReIDフレームワークを提案する。
本フレームワークは,提案した適応型Parzenウィンドウを用いてカメラネットワークトポロジを推定し,外観特徴と融合ネットワーク内の空間的時間的手がかりを組み合わせる。
このアプローチは、VeRi776、Vine-3I、Market-1501を含むいくつかのデータセットで顕著な性能を示し、99.70%のランク1の精度と95.5%のmAPを達成した。
論文 参考訳(メタデータ) (2024-08-10T13:50:43Z) - Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-07-13T15:27:39Z) - View-decoupled Transformer for Person Re-identification under Aerial-ground Camera Network [87.36616083812058]
地上人物再識別のための簡易かつ効果的なフレームワークとして,ビューデカップリングトランス (VDT) が提案されている。
2つの主要なコンポーネントは、ビュー関連とビュー非関連の機能を切り離すためにVDTで設計されている。
さらに,5/8の空中/地上カメラ,5,000のアイデンティティ,108,563のイメージからなる大規模AGPReIDデータセットCARGOをコントリビュートした。
論文 参考訳(メタデータ) (2024-03-21T16:08:21Z) - AG-ReID.v2: Bridging Aerial and Ground Views for Person Re-identification [39.58286453178339]
空中人物再識別(Re-ID)は、コンピュータビジョンにおいて固有の課題を提示する。
AG-ReID.v2は、空中および地上の混合シナリオにおいて、人物Re-ID用に特別に設計されたデータセットである。
このデータセットは、1,615人のユニークな個人の100,502枚の画像で構成され、それぞれに一致するIDと15のソフト属性ラベルが付加されている。
論文 参考訳(メタデータ) (2024-01-05T04:53:33Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。