論文の概要: AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification
- arxiv url: http://arxiv.org/abs/2503.08121v1
- Date: Tue, 11 Mar 2025 07:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:43:37.686456
- Title: AG-VPReID: A Challenging Large-Scale Benchmark for Aerial-Ground Video-based Person Re-Identification
- Title(参考訳): AG-VPReID: Aerial-Ground Video-based Person Re-Identificationのための大規模ベンチマーク
- Authors: Huy Nguyen, Kien Nguyen, Akila Pemasiri, Feng Liu, Sridha Sridharan, Clinton Fookes,
- Abstract要約: 地上映像に基づく人物識別(ReID)のためのベンチマークデータセット AG-VPReID を紹介する。
このデータセットは、Person ReIDアプローチの堅牢性を調べるために、現実世界のベンチマークを示す。
本稿では,3つの補完ストリームを組み合わせたエンドツーエンドフレームワーク AG-VPReID-Net を提案する。
- 参考スコア(独自算出の注目度): 39.350429734981184
- License:
- Abstract: We introduce AG-VPReID, a challenging large-scale benchmark dataset for aerial-ground video-based person re-identification (ReID), comprising 6,632 identities, 32,321 tracklets, and 9.6 million frames captured from drones (15-120m altitude), CCTV, and wearable cameras. This dataset presents a real-world benchmark to investigate the robustness of Person ReID approaches against the unique challenges of cross-platform aerial-ground settings. To address these challenges, we propose AG-VPReID-Net, an end-to-end framework combining three complementary streams: (1) an Adapted Temporal-Spatial Stream addressing motion pattern inconsistencies and temporal feature learning, (2) a Normalized Appearance Stream using physics-informed techniques to tackle resolution and appearance changes, and (3) a Multi-Scale Attention Stream handling scale variations across drone altitudes. Our approach integrates complementary visual-semantic information from all streams to generate robust, viewpoint-invariant person representations. Extensive experiments demonstrate that AG-VPReID-Net outperforms state-of-the-art approaches on both our new dataset and other existing video-based ReID benchmarks, showcasing its effectiveness and generalizability. The relatively lower performance of all state-of-the-art approaches, including our proposed approach, on our new dataset highlights its challenging nature. The AG-VPReID dataset, code and models are available at https://github.com/agvpreid25/AG-VPReID-Net.
- Abstract(参考訳): AG-VPReIDは、6,632のアイデンティティ、32,321のトラックレット、ドローン(高度15-120m)、CCTV、ウェアラブルカメラから取得した960万フレームからなる、地上ビデオベースの人物識別(ReID)のための挑戦的な大規模なベンチマークデータセットである。
このデータセットは、Person ReIDアプローチの堅牢性と、クロスプラットフォームの地上環境におけるユニークな課題を調査するための実世界のベンチマークを示す。
これらの課題に対処するために,(1)適応時間-空間ストリーム対応動作パターンの不整合と時間的特徴学習,(2)物理情報を用いた正規化出現ストリームによる解像度変化と外観変化への対処,(3)ドローン高度のスケール変化を扱うマルチスケールアテンションストリームの3つの補完ストリームを組み合わせたエンドツーエンドフレームワーク AG-VPReID-Netを提案する。
提案手法は,全てのストリームから補完的な視覚意味情報を統合して,頑健で視点不変な人物表現を生成する。
AG-VPReID-Netは、我々の新しいデータセットと既存のビデオベースのReIDベンチマークの両方において最先端のアプローチよりも優れており、その有効性と一般化性を示している。
我々の新しいデータセットにおける提案したアプローチを含む最先端のアプローチの比較的低いパフォーマンスは、その挑戦的な性質を強調している。
AG-VPReIDデータセット、コード、モデルはhttps://github.com/agvpreid25/AG-VPReID-Netで入手できる。
関連論文リスト
- Event Stream-based Visual Object Tracking: HDETrack V2 and A High-Definition Benchmark [36.9654606035663]
本稿では,学生トランスフォーマーネットワークの学習を支援するために,新しい階層的知識蒸留戦略を導入する。
新たに提案したテストタイムチューニング戦略により,テスト対象オブジェクトに対してネットワークモデルを適用する。
大規模なイベントベースのトラッキングデータセットであるEventVOTを提案する。
論文 参考訳(メタデータ) (2025-02-08T13:59:52Z) - Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach [37.53617620654204]
我々はG2A-VReIDという地上から地上までの映像に基づく人物再同定のための大規模ベンチマークデータセットを構築した。
G2A-VReIDデータセットには次のような特徴がある: 1) 劇的な視点の変化; 2) 注釈付きアイデンティティの多さ; 3) リッチ屋外シナリオ; 4) 解像度の大きな差。
論文 参考訳(メタデータ) (2024-08-14T12:29:49Z) - Object Re-identification via Spatial-temporal Fusion Networks and Causal Identity Matching [4.123763595394021]
空間時間融合ネットワークと因果同一性マッチング(CIM)を利用した新しいReIDフレームワークを提案する。
本フレームワークは,提案した適応型Parzenウィンドウを用いてカメラネットワークトポロジを推定し,外観特徴と融合ネットワーク内の空間的時間的手がかりを組み合わせる。
このアプローチは、VeRi776、Vine-3I、Market-1501を含むいくつかのデータセットで顕著な性能を示し、99.70%のランク1の精度と95.5%のmAPを達成した。
論文 参考訳(メタデータ) (2024-08-10T13:50:43Z) - Arbitrary-Scale Video Super-Resolution with Structural and Textural Priors [80.92195378575671]
Arbitraスケール超解像(AVSR)の強いベースラインについて述べる。
次に、事前学習したVGGネットワークから計算したマルチスケールの構造とテクスチャをベースラインに組み込むことにより、ST-AVSRを導入する。
総合的な実験により、ST-AVSRは最先端技術よりも超解像品質、一般化能力、推論速度を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-07-13T15:27:39Z) - View-decoupled Transformer for Person Re-identification under Aerial-ground Camera Network [87.36616083812058]
地上人物再識別のための簡易かつ効果的なフレームワークとして,ビューデカップリングトランス (VDT) が提案されている。
2つの主要なコンポーネントは、ビュー関連とビュー非関連の機能を切り離すためにVDTで設計されている。
さらに,5/8の空中/地上カメラ,5,000のアイデンティティ,108,563のイメージからなる大規模AGPReIDデータセットCARGOをコントリビュートした。
論文 参考訳(メタデータ) (2024-03-21T16:08:21Z) - AG-ReID.v2: Bridging Aerial and Ground Views for Person Re-identification [39.58286453178339]
空中人物再識別(Re-ID)は、コンピュータビジョンにおいて固有の課題を提示する。
AG-ReID.v2は、空中および地上の混合シナリオにおいて、人物Re-ID用に特別に設計されたデータセットである。
このデータセットは、1,615人のユニークな個人の100,502枚の画像で構成され、それぞれに一致するIDと15のソフト属性ラベルが付加されている。
論文 参考訳(メタデータ) (2024-01-05T04:53:33Z) - Scalable Video Object Segmentation with Identification Mechanism [125.4229430216776]
本稿では,半教師付きビデオオブジェクト(VOS)のスケーラブルで効果的なマルチオブジェクトモデリングを実現する上での課題について検討する。
AOT(Associating Objects with Transformers)とAOST(Associating Objects with Scalable Transformers)の2つの革新的なアプローチを提案する。
当社のアプローチは最先端の競合に勝って,6つのベンチマークすべてにおいて,例外的な効率性とスケーラビリティを一貫して示しています。
論文 参考訳(メタデータ) (2022-03-22T03:33:27Z) - Anchor Retouching via Model Interaction for Robust Object Detection in
Aerial Images [15.404024559652534]
本稿では,新しいトレーニングサンプルジェネレータを構築するために,動的拡張アンカー(DEA)ネットワークを提案する。
提案手法は,適度な推論速度とトレーニングの計算オーバーヘッドを伴って,最先端の性能を精度良く達成する。
論文 参考訳(メタデータ) (2021-12-13T14:37:20Z) - Efficient Person Search: An Anchor-Free Approach [86.45858994806471]
パーソンサーチは、クエリーの人物を、リアルで切り刻まれていない画像から、同時にローカライズし、識別することを目的としている。
この目標を達成するために、最先端モデルは通常、Faster R-CNNのような2段階検出器にre-idブランチを追加する。
本研究では,この課題に対処するためのアンカーフリーな手法を提案する。
論文 参考訳(メタデータ) (2021-09-01T07:01:33Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。