論文の概要: View-Aware Semantic Alignment for Aerial-Ground Person Re-Identification
- arxiv url: http://arxiv.org/abs/2605.18192v1
- Date: Mon, 18 May 2026 10:32:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.399802
- Title: View-Aware Semantic Alignment for Aerial-Ground Person Re-Identification
- Title(参考訳): 空中人物再同定のためのビューアウェア・セマンティックアライメント
- Authors: Quan Zhang, Zeqiang Cai, Peiming Zhao, Jingze Wu, Cailun Wu, Hongbo Chen, Jianhuang Lai,
- Abstract要約: ViSAは、ビュー間のセマンティック一貫性を実現するビュー対応フレームワークである。
ViSAは、挑戦的なCARGOクロスビュープロトコルにおいて、注目すべき10.06%のmAP改善とともに、一貫して優れたパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 43.69772242567068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aerial-Ground Person Re-Identification (AGPReID) remains highly challenging due to drastic viewpoint variations between drones and fixed cameras. Existing methods typically follow a view-invariant paradigm, aligning shared features across views to achieve robustness. However, view-invariant inherently enforces part-level alignment, which ignores view-specific cues and discriminative identity information. To this end, this work proposes ViSA (View-aware Semantic Alignment), a view-aware framework that achieves cross-view semantic consistency containing an Expert-driven Token Generation Module (ETGM) and a Dual-branch Local Fusion Module (DLFM). Technically, the former constructs a set of view-aware experts to generate adaptive semantic queries that perceive viewpoint-specific patterns, while the latter leverages graph reasoning to extract and align local regions responsive to different experts. Extensive experiments on three AGPReID benchmarks including AG-ReID.v2, CARGO and LAGPeR demonstrate that ViSA consistently achieves superior performance, with a notable 10.06\% mAP improvement on the challenging CARGO cross-view protocol. The code is available at \href{https://github.com/Cat-Zero/ViSA}{https://github.com/Cat-Zero/ViSA}.
- Abstract(参考訳): AGPReID(Aerial-Ground Person Re-Identification, AGPReID)は、ドローンと固定カメラの劇的な視点の違いにより、依然として非常に困難である。
既存のメソッドは通常、ビュー不変のパラダイムに従い、ビュー間で共有された機能を整列して堅牢性を達成する。
しかし、ビュー不変性は本来、ビュー固有の手がかりや識別アイデンティティ情報を無視する部分レベルのアライメントを強制する。
この目的のために、エキスパート駆動のトークン生成モジュール(ETGM)とデュアルブランチローカルフュージョンモジュール(DLFM)を含む、ビュー間のセマンティック一貫性を実現するビューアウェアフレームワークであるViSA(View-aware Semantic Alignment)を提案する。
技術的には、前者はビューアウェアの専門家のセットを構築し、視点固有のパターンを知覚する適応的なセマンティッククエリを生成し、後者はグラフ推論を活用して、異なる専門家に応答するローカルリージョンを抽出し調整する。
AG-ReID.v2, CARGO, LAGPeR を含む3つの AGPReID ベンチマークの大規模な実験は、ViSA が常に優れた性能を発揮することを示した。
コードは \href{https://github.com/Cat-Zero/ViSA}{https://github.com/Cat-Zero/ViSA} で公開されている。
関連論文リスト
- VL-UniTrack: A Unified Framework with Visual-Language Prompts for UAV-Ground Visual Tracking [35.96855931247585]
UAV-ground visual tracking (UGVT) は、UAVと地上の両方から同じ物体を同時に追跡することを目的としている。
既存の2ストリーム手法は、孤立した特徴抽出に悩まされ、暗黙の出現マッチングに大きく依存する。
VL-UniTrackは視覚言語プロンプトによって拡張された完全に統一されたフレームワークである。
論文 参考訳(メタデータ) (2026-05-06T07:23:53Z) - V$^{2}$-SAM: Marrying SAM2 with Multi-Prompt Experts for Cross-View Object Correspondence [90.92892171307055]
V2-SAMは、統合されたクロスビューオブジェクト対応フレームワークである。
SAM2は2つの相補的なプロンプトジェネレータを通して、シングルビューセグメンテーションからクロスビュー対応に適応する。
V2-SAMは、Ego-Exo4D(ego-exoオブジェクト対応)、DAVIS-2017(ビデオオブジェクト追跡)、HANDAL-X(robotic-ready cross-view対応)の新たな最先端性能を実現する
論文 参考訳(メタデータ) (2025-11-25T22:06:30Z) - SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [74.36139886192495]
本稿では,AG-ReID のための SD-ReID という新しい生成フレームワークを提案する。
まず、ViTベースのモデルを用いて人物表現を抽出し、個人性や視認性を含む制御可能な条件を抽出する。
次に、安定拡散(SD)モデルを微調整し、これらの制御可能な条件によって導かれる人物表現を強化する。
論文 参考訳(メタデータ) (2025-04-13T12:44:50Z) - MutualVPR: A Mutual Learning Framework for Resolving Supervision Inconsistencies via Adaptive Clustering [30.68546160250985]
MutualVPRは教師なしビューの自己分類と記述学習を統合している。
MutualVPRは複数のデータセットでSOTA(State-of-the-art)のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-12T11:49:18Z) - DVF: Advancing Robust and Accurate Fine-Grained Image Retrieval with Retrieval Guidelines [67.44394651662738]
細粒度画像検索(FGIR)は、一般化を維持しながら視覚的に類似した物体を識別する視覚表現を学習することである。
既存の方法は識別的特徴を生成することを提案するが、FGIRタスク自体の特異性を考えることは滅多にない。
本稿では, サブカテゴリ固有の不一致を識別し, 効果的なFGIRモデルを設計するための識別的特徴を生成するための実践的ガイドラインを提案する。
論文 参考訳(メタデータ) (2024-04-24T09:45:12Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。