論文の概要: Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach
- arxiv url: http://arxiv.org/abs/2408.07500v2
- Date: Tue, 3 Sep 2024 02:50:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-04 16:42:00.408926
- Title: Cross-Platform Video Person ReID: A New Benchmark Dataset and Adaptation Approach
- Title(参考訳): クロスプラットフォームビデオパーソンReID:新しいベンチマークデータセットと適応アプローチ
- Authors: Shizhou Zhang, Wenlong Luo, De Cheng, Qingchun Yang, Lingyan Ran, Yinghui Xing, Yanning Zhang,
- Abstract要約: 我々はG2A-VReIDという地上から地上までの映像に基づく人物再同定のための大規模ベンチマークデータセットを構築した。
G2A-VReIDデータセットには次のような特徴がある: 1) 劇的な視点の変化; 2) 注釈付きアイデンティティの多さ; 3) リッチ屋外シナリオ; 4) 解像度の大きな差。
- 参考スコア(独自算出の注目度): 37.53617620654204
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we construct a large-scale benchmark dataset for Ground-to-Aerial Video-based person Re-Identification, named G2A-VReID, which comprises 185,907 images and 5,576 tracklets, featuring 2,788 distinct identities. To our knowledge, this is the first dataset for video ReID under Ground-to-Aerial scenarios. G2A-VReID dataset has the following characteristics: 1) Drastic view changes; 2) Large number of annotated identities; 3) Rich outdoor scenarios; 4) Huge difference in resolution. Additionally, we propose a new benchmark approach for cross-platform ReID by transforming the cross-platform visual alignment problem into visual-semantic alignment through vision-language model (i.e., CLIP) and applying a parameter-efficient Video Set-Level-Adapter module to adapt image-based foundation model to video ReID tasks, termed VSLA-CLIP. Besides, to further reduce the great discrepancy across the platforms, we also devise the platform-bridge prompts for efficient visual feature alignment. Extensive experiments demonstrate the superiority of the proposed method on all existing video ReID datasets and our proposed G2A-VReID dataset.
- Abstract(参考訳): 本稿では,G2A-VReIDという,地上から地上までの映像に基づく人物再同定のための大規模ベンチマークデータセットを構築し,その特徴を2,788個の異なる特徴を持つ185,907の画像と5,576個のトラックレットからなる。
我々の知る限り、このデータセットは地上から地上までのシナリオ下でのビデオReIDのための最初のデータセットである。
G2A-VReIDデータセットには以下の特徴がある。
1) 劇的視点の変更
2) 注釈付きIDの数が多ければ多い。
3) 豊かな屋外シナリオ
4) 解像度の大きな差。
さらに、クロスプラットフォームの視覚アライメント問題から視覚言語モデル(CLIP)による視覚的セマンティックアライメントへと変換し、パラメータ効率のよいビデオセットレベルアダプタモジュールを適用して、画像ベース基盤モデルをビデオReIDタスクに適応させることにより、クロスプラットフォームReIDの新しいベンチマーク手法を提案する。
さらに、プラットフォーム間の大きな不一致をさらに軽減するために、効率的な視覚的特徴調整のためのプラットフォームブリッジプロンプトも考案しました。
提案手法が既存のビデオReIDデータセットおよび提案したG2A-VReIDデータセットに対して優れていることを示す。
関連論文リスト
- VimTS: A Unified Video and Image Text Spotter for Enhancing the Cross-domain Generalization [115.64739269488965]
VimTSは、異なるタスク間のより良い相乗効果を達成することにより、モデルの一般化能力を高める。
本研究では,コンテンツ変形場(CoDeF)アルゴリズムを利用した合成ビデオテキストデータセット(VTD-368k)を提案する。
ICDAR2015ビデオとDSText v2では,ビデオレベルのクロスドメイン適応に対して,従来のエンドツーエンドビデオスポッティング手法を超越している。
論文 参考訳(メタデータ) (2024-04-30T15:49:03Z) - DAM: Dynamic Adapter Merging for Continual Video QA Learning [66.43360542692355]
連続的なビデオ質問応答(VidQA)学習のためのパラメータ効率のよい手法を提案する。
提案手法では,(i)壊滅的忘れを軽減し,(ii)継続的に到着するデータセットへの効率的な適応を可能にし,(iv)類似したデータセットドメイン間の知識共有を可能にする。
我々のDAMモデルは、さまざまなドメインにまたがる6つのVidQAデータセットに対する1.9%の忘れ込みを示しながら、最先端の継続的学習アプローチを9.1%向上させています。
論文 参考訳(メタデータ) (2024-03-13T17:53:47Z) - AG-ReID.v2: Bridging Aerial and Ground Views for Person Re-identification [39.58286453178339]
空中人物再識別(Re-ID)は、コンピュータビジョンにおいて固有の課題を提示する。
AG-ReID.v2は、空中および地上の混合シナリオにおいて、人物Re-ID用に特別に設計されたデータセットである。
このデータセットは、1,615人のユニークな個人の100,502枚の画像で構成され、それぞれに一致するIDと15のソフト属性ラベルが付加されている。
論文 参考訳(メタデータ) (2024-01-05T04:53:33Z) - Video-based Visible-Infrared Person Re-Identification with Auxiliary
Samples [21.781628451676205]
Visible-Infrared person re-identification (VI-ReID) は、可視・赤外線カメラで捉えた人物をマッチングすることを目的としている。
従来は、異なるカメラでモダリティを横断する人物画像から学ぶことに集中していた。
我々はまず,BUPTCampusという大規模なVI-ReIDデータセットをコントリビュートする。
論文 参考訳(メタデータ) (2023-11-27T06:45:22Z) - Ground-to-Aerial Person Search: Benchmark Dataset and Approach [42.54151390290665]
我々はG2APSという,地上から航空への人物探索のための大規模データセットを構築した。
G2APSには、UAVと地上監視カメラの両方に2,644個のアイデンティティを持つ260,559個の注釈付きバウンディングボックスの31,770枚の画像が含まれている。
論文 参考訳(メタデータ) (2023-08-24T11:11:26Z) - TAPIR: Tracking Any Point with per-frame Initialization and temporal
Refinement [64.11385310305612]
本稿では,ビデオシーケンスを通して任意の物理面上の問合せ点を効果的に追跡する,TAP(Tracking Any Point)の新しいモデルを提案する。
提案手法では,(1)他のフレームの問合せ点に対する適切な候補点マッチングを独立に特定するマッチング段階と,(2)局所的相関に基づいてトラジェクトリと問合せの両方を更新する改良段階の2段階を用いる。
結果として得られたモデルは、DAVISにおける平均約20%の絶対平均ジャカード(AJ)改善によって示されるように、TAP-Vidベンチマークにおける大きなマージンで、すべてのベースライン手法を上回ります。
論文 参考訳(メタデータ) (2023-06-14T17:07:51Z) - Video Referring Expression Comprehension via Transformer with
Content-aware Query [60.89442448993627]
ビデオ参照表現(REC)は、自然言語表現によって参照されるビデオフレーム内の対象物をローカライズすることを目的としている。
現在のクエリ設計はサブオプティマであり、2つの欠点に悩まされている。
フレーム全体に一定の数の学習可能なバウンディングボックスを設置し,実りある手がかりを提供するために,アライメントされた領域特徴を用いる。
論文 参考訳(メタデータ) (2022-10-06T14:45:41Z) - Multiview Detection with Feature Perspective Transformation [59.34619548026885]
本稿では,新しいマルチビュー検出システムMVDetを提案する。
我々は,平面上に特徴写像を投影することで,多視点情報を集約するアンカーフリーアプローチを採っている。
私たちのモデル全体がエンドツーエンドで学習可能で、標準のWildtrackデータセットで88.2%のMODAを実現しています。
論文 参考訳(メタデータ) (2020-07-14T17:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。