論文の概要: Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification
- arxiv url: http://arxiv.org/abs/2601.21405v1
- Date: Thu, 29 Jan 2026 08:41:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.674341
- Title: Rectifying Geometry-Induced Similarity Distortions for Real-World Aerial-Ground Person Re-Identification
- Title(参考訳): 実世界空中人物再同定のための幾何誘起類似性歪みの定式化
- Authors: Kailash A. Hambarde, Hugo Proença,
- Abstract要約: 航空地上人物再識別(AG-ReID)は、極端な視点と距離の相違により根本的な課題である。
既存の手法は幾何学的特徴学習や外観条件付きプロンプトに依存している。
Geometry-induced Query-Key Transformation (GIQT) は、カメラ幾何学におけるクエリキーの相互作用を条件に、類似性空間を補正する軽量な低ランクモジュールである。
- 参考スコア(独自算出の注目度): 4.039576422478934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aerial-ground person re-identification (AG-ReID) is fundamentally challenged by extreme viewpoint and distance discrepancies between aerial and ground cameras, which induce severe geometric distortions and invalidate the assumption of a shared similarity space across views. Existing methods primarily rely on geometry-aware feature learning or appearance-conditioned prompting, while implicitly assuming that the geometry-invariant dot-product similarity used in attention mechanisms remains reliable under large viewpoint and scale variations. We argue that this assumption does not hold. Extreme camera geometry systematically distorts the query-key similarity space and degrades attention-based matching, even when feature representations are partially aligned. To address this issue, we introduce Geometry-Induced Query-Key Transformation (GIQT), a lightweight low-rank module that explicitly rectifies the similarity space by conditioning query-key interactions on camera geometry. Rather than modifying feature representations or the attention formulation itself, GIQT adapts the similarity computation to compensate for dominant geometry-induced anisotropic distortions. Building on this local similarity rectification, we further incorporate a geometry-conditioned prompt generation mechanism that provides global, view-adaptive representation priors derived directly from camera geometry. Experiments on four aerial-ground person re-identification benchmarks demonstrate that the proposed framework consistently improves robustness under extreme and previously unseen geometric conditions, while introducing minimal computational overhead compared to state-of-the-art methods.
- Abstract(参考訳): 航空地上の人物再識別(AG-ReID)は、高度な幾何学的歪みを誘発し、視界をまたいだ共有類似性空間の仮定を無効にする、空と地上のカメラ間の極端な視点と距離の差によって、根本的な課題である。
既存の手法は主に幾何学的特徴学習や外観条件付きプロンプトに依存しているが、注意機構で使用される幾何学的不変のドット積類似性は、大きな視点とスケールの変動の下で信頼性が保たれていることを暗黙的に仮定している。
この仮定は成り立たないと我々は主張する。
極端カメラ幾何学は、クエリキーの類似性空間を体系的に歪め、特徴表現が部分的に整列している場合でも注意ベースのマッチングを低下させる。
この問題に対処するため,Geometry-induced Query-Key Transformation (GIQT)を導入した。
特徴表現やアテンションの定式化そのものを変更するのではなく、GIQTは類似性計算に適応して、支配的な幾何学的に誘導される異方性歪みを補償する。
この局所的な類似性補正に基づいて、カメラ幾何学から直接導出されるグローバルなビュー適応表現前処理を提供する幾何学条件付きプロンプト生成機構をさらに組み込む。
4つの地上人物再識別ベンチマークの実験により、提案手法は極端かつ以前は見えなかった幾何学的条件下で、常に頑健性を向上させる一方で、最先端の手法と比較して計算オーバーヘッドを最小限に抑えることを示した。
関連論文リスト
- HyperAlign: Hyperbolic Entailment Cones for Adaptive Text-to-Image Alignment Assessment [84.65251073657883]
双曲的エンターメント幾何に基づく適応型テキスト・画像アライメントアライメントアセスメントフレームワークHyperAlignを提案する。
まず、CLIPを用いてユークリッド特徴を抽出し、双曲空間にマッピングする。
第二に、離散エンターメント論理を連続的な幾何学的構造管理に変換する動的スーパービジョンエンターメントモデリング機構を設計する。
第3に,双曲幾何学的特徴を利用してサンプルレベルの変調パラメータを生成する適応変調回帰器を提案する。
論文 参考訳(メタデータ) (2026-01-08T05:41:06Z) - ARGUS: Adaptive Rotation-Invariant Geometric Unsupervised System [0.0]
本稿では,データ多様体の固定空間分割上での局所統計追跡としてドリフト検出を再現するフレームワークであるArgusを紹介する。
正準正則フレーム上のボロノイテッセルレーションは変換に不変なドリフト計量をもたらす。
孤立摂動からコヒーレントな分布シフトを区別するドリフト伝播のグラフ理論的特徴付けを開発した。
論文 参考訳(メタデータ) (2026-01-03T22:39:20Z) - Seamlessly Natural: Image Stitching with Natural Appearance Preservation [0.6089774484591287]
SENAは、パララックスと深度変化を特徴とする現実世界の挑戦的なシーンにおける構造的忠実度を優先する。
SENAは3つの重要なコントリビューションを通じて基本的な制限に対処する。
挑戦的なデータセットで行われた実験は、SENAが主要なホモグラフィーベースの手法に匹敵するアライメント精度を達成することを示した。
論文 参考訳(メタデータ) (2026-01-03T18:40:35Z) - Dense Semantic Matching with VGGT Prior [49.42199006453071]
本稿では,VGGTの本質的な強みを,初期の特徴段階を再利用し,後続の特徴段階を微調整し,双方向対応のための意味的頭部を追加することによって維持するアプローチを提案する。
提案手法は, 従来のベースラインよりも優れた幾何認識, 整合性, および多様体保存を実現する。
論文 参考訳(メタデータ) (2025-09-25T14:56:11Z) - CP$^2$: Leveraging Geometry for Conformal Prediction via Canonicalization [51.716834831684004]
幾何データシフトにおける共形予測(CP)の問題について検討する。
本稿では,幾何的ポーズなどの幾何学的情報を統合することを提案する。
論文 参考訳(メタデータ) (2025-06-19T10:12:02Z) - Geometry-Editable and Appearance-Preserving Object Compositon [67.98806888489385]
汎用オブジェクト合成(GOC)は、対象オブジェクトを望まれる幾何学的性質を持つ背景シーンにシームレスに統合することを目的としている。
近年のアプローチは意味的埋め込みを導出し、それらを高度な拡散モデルに統合し、幾何学的に編集可能な生成を可能にする。
本稿では,まずセマンティックな埋め込みを活用して,所望の幾何学的変換を暗黙的にキャプチャするDistangled Geometry-editable and Outearance-Preserving Diffusionモデルを提案する。
論文 参考訳(メタデータ) (2025-05-27T09:05:28Z) - Adaptive Surface Normal Constraint for Geometric Estimation from Monocular Images [56.86175251327466]
本稿では,幾何学的文脈を取り入れつつ,画像から深度や表面正規度などの測地を学習するための新しい手法を提案する。
提案手法は,入力画像に存在する幾何学的変動を符号化した幾何学的文脈を抽出し,幾何的制約と深度推定を相関付ける。
本手法は,画像から高品質な3次元形状を生成可能な密着型フレームワーク内での深度と表面の正規分布推定を統一する。
論文 参考訳(メタデータ) (2024-02-08T17:57:59Z) - GeoDeformer: Geometric Deformable Transformer for Action Recognition [22.536307401874105]
視覚トランスフォーマーは、近年、行動認識のための畳み込みネットワークの効果的な代替品として登場した。
本稿では,幾何学的理解を直接ViTアーキテクチャに組み込むことで,アクションビデオに固有の変動を捉えるための新しいアプローチであるGeoDeformerを提案する。
論文 参考訳(メタデータ) (2023-11-29T16:55:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。