論文の概要: GSAlign: Geometric and Semantic Alignment Network for Aerial-Ground Person Re-Identification
- arxiv url: http://arxiv.org/abs/2510.22268v1
- Date: Sat, 25 Oct 2025 12:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.012037
- Title: GSAlign: Geometric and Semantic Alignment Network for Aerial-Ground Person Re-Identification
- Title(参考訳): GSAlign:空中人物再同定のための幾何学的・意味的アライメントネットワーク
- Authors: Qiao Li, Jie Li, Yukang Zhang, Lei Tan, Jing Chen, Jiayi Ji,
- Abstract要約: Aerial-Ground person re-identification (AG-ReID) は、歩行者のイメージを根本的に異なる視点からマッチングすることを目的とした、新たな課題である。
この課題は、極端に視点のずれ、ワープ、空中画像と地上画像の間の領域ギャップのために重大な課題を生じさせる。
- 参考スコア(独自算出の注目度): 32.31970656501684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aerial-Ground person re-identification (AG-ReID) is an emerging yet challenging task that aims to match pedestrian images captured from drastically different viewpoints, typically from unmanned aerial vehicles (UAVs) and ground-based surveillance cameras. The task poses significant challenges due to extreme viewpoint discrepancies, occlusions, and domain gaps between aerial and ground imagery. While prior works have made progress by learning cross-view representations, they remain limited in handling severe pose variations and spatial misalignment. To address these issues, we propose a Geometric and Semantic Alignment Network (GSAlign) tailored for AG-ReID. GSAlign introduces two key components to jointly tackle geometric distortion and semantic misalignment in aerial-ground matching: a Learnable Thin Plate Spline (LTPS) Module and a Dynamic Alignment Module (DAM). The LTPS module adaptively warps pedestrian features based on a set of learned keypoints, effectively compensating for geometric variations caused by extreme viewpoint changes. In parallel, the DAM estimates visibility-aware representation masks that highlight visible body regions at the semantic level, thereby alleviating the negative impact of occlusions and partial observations in cross-view correspondence. A comprehensive evaluation on CARGO with four matching protocols demonstrates the effectiveness of GSAlign, achieving significant improvements of +18.8\% in mAP and +16.8\% in Rank-1 accuracy over previous state-of-the-art methods on the aerial-ground setting. The code is available at: \textcolor{magenta}{https://github.com/stone96123/GSAlign}.
- Abstract(参考訳): Aerial-Ground person re-identification (AG-ReID) は、無人航空機(UAV)や地上監視カメラなど、非常に異なる視点から捉えた歩行者画像のマッチングを目的とした、新しくて困難なタスクである。
この課題は、航空画像と地上画像の間の極端な視点の相違、閉塞、領域のギャップによって、重大な課題を生んでいる。
それまでの作品は、クロスビュー表現を学習することで進歩してきたが、厳しいポーズのバリエーションや空間的ミスアライメントを扱うことには限界がある。
これらの課題に対処するために,AG-ReIDに適した幾何学的・意味的アライメントネットワーク(GSAlign)を提案する。
GSAlignは、地上マッチングにおける幾何学的歪みと意味的ミスアライメント(semantic misalignment, 意味的ミスアライメント)に共同で取り組むための2つの重要なコンポーネント、LTPSモジュールと動的アライメントモジュール(Dynamic Alignment Module, DAM)を導入した。
LTPSモジュールは学習キーポイントのセットに基づいて歩行者の特徴を適応的にワープし、極端な視点変化による幾何学的変動を効果的に補償する。
並行して、DAMは、目に見える身体領域をセマンティックレベルで強調する可視性対応の表現マスクを推定し、オークルージョンのネガティブな影響と、クロスビュー対応における部分的な観察を緩和する。
4つのマッチングプロトコルによるCARGOの総合評価では、GSAlignの有効性が示され、mAPでは+18.8\%、地上では+16.8\%の精度で+16.8\%の精度が向上した。
コードは以下の通り。 \textcolor{magenta}{https://github.com/stone96123/GSAlign}。
関連論文リスト
- Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - Leveraging Geometric Priors for Unaligned Scene Change Detection [53.523333385654546]
Unaligned Scene Change Detectionは、視点アライメントを仮定することなく、異なるタイミングでキャプチャされた画像ペア間のシーン変化を検出することを目的としている。
非整合SCDの中核的課題に対処するために、初めて幾何学的事前を導入する。
視覚基盤モデルの強力な表現とそれらを統合した学習自由フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-14T14:31:08Z) - DVP-MVS++: Synergize Depth-Normal-Edge and Harmonized Visibility Prior for Multi-View Stereo [7.544716770845737]
そこで我々は,DVP-MVS++を提案する。DVP-MVS++は,高度で可視性の高いパッチ変形に対して,奥行き正規のエッジアライメントと調和されたクロスビューの両方を相乗化する革新的な手法である。
ETH3D, Tanks & TemplesおよびStrechaデータセットの評価結果は,提案手法の最先端性能と堅牢な一般化能力を示す。
論文 参考訳(メタデータ) (2025-06-16T08:15:22Z) - A Transformer-Based Adaptive Semantic Aggregation Method for UAV Visual
Geo-Localization [2.1462492411694756]
本稿では,無人航空機(UAV)の視覚的ジオローカライゼーションの課題について述べる。
部分レベルの表現は、画像の詳細をキャプチャし、シーンの意味情報を理解するのに役立つため、UAVの視覚的ジオローカライゼーションには、パートマッチングが不可欠である。
画像中の最も代表的な意味論として部品を考慮に入れた変換器に基づく適応的意味的アグリゲーション手法を提案する。
論文 参考訳(メタデータ) (2024-01-03T06:58:52Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Deep Semantic Matching with Foreground Detection and Cycle-Consistency [103.22976097225457]
深層ネットワークに基づく弱い教師付きセマンティックマッチングに対処する。
本研究では,背景乱れの影響を抑えるために,前景領域を明示的に推定する。
複数の画像にまたがって予測変換を強制し、幾何的に可視かつ一貫したサイクル一貫性の損失を発生させる。
論文 参考訳(メタデータ) (2020-03-31T22:38:09Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。