論文の概要: SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification
- arxiv url: http://arxiv.org/abs/2504.09549v1
- Date: Sun, 13 Apr 2025 12:44:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:52:01.076661
- Title: SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification
- Title(参考訳): SD-ReID:空中人物再同定のための視認性安定拡散
- Authors: Xiang Hu, Pingping Zhang, Yuhao Wang, Bin Yan, Huchuan Lu,
- Abstract要約: 本稿では,AG-ReIDのためのSD-ReIDという2段階特徴学習フレームワークを提案する。
第1段階では、粗粒度表現と制御可能な条件を抽出するために、簡単なViTベースモデルを訓練する。
第2段階では、制御可能な条件で導かれる補完表現を学習するためにSDモデルを微調整する。
- 参考スコア(独自算出の注目度): 61.753607285860944
- License:
- Abstract: Aerial-Ground Person Re-IDentification (AG-ReID) aims to retrieve specific persons across cameras with different viewpoints. Previous works focus on designing discriminative ReID models to maintain identity consistency despite drastic changes in camera viewpoints. The core idea behind these methods is quite natural, but designing a view-robust network is a very challenging task. Moreover, they overlook the contribution of view-specific features in enhancing the model's capability to represent persons. To address these issues, we propose a novel two-stage feature learning framework named SD-ReID for AG-ReID, which takes advantage of the powerful understanding capacity of generative models, e.g., Stable Diffusion (SD), to generate view-specific features between different viewpoints. In the first stage, we train a simple ViT-based model to extract coarse-grained representations and controllable conditions. Then, in the second stage, we fine-tune the SD model to learn complementary representations guided by the controllable conditions. Furthermore, we propose the View-Refine Decoder (VRD) to obtain additional controllable conditions to generate missing cross-view features. Finally, we use the coarse-grained representations and all-view features generated by SD to retrieve target persons. Extensive experiments on the AG-ReID benchmarks demonstrate the effectiveness of our proposed SD-ReID. The source code will be available upon acceptance.
- Abstract(参考訳): Aerial-Ground Person Re-IDentification (AG-ReID)は、異なる視点でカメラを通して特定の人物を検索することを目的としている。
カメラの視点が大きく変化しても、アイデンティティの整合性を維持するために差別的なReIDモデルの設計に重点を置いている。
これらのメソッドの背後にある中核的なアイデアは、非常に自然なものですが、ビューロバストネットワークを設計するのは非常に難しい作業です。
さらに、モデルが人を表現する能力を高める上で、ビュー特有の特徴の貢献を見落としている。
これらの課題に対処するため,AG-ReID 用の新たな2段階特徴学習フレームワーク SD-ReID を提案する。
第1段階では、粗粒度表現と制御可能な条件を抽出するために、簡単なViTベースモデルを訓練する。
そして、第2段階でSDモデルを微調整し、制御可能な条件で導かれる相補表現を学習する。
さらに,ビュー・リファイン・デコーダ (VRD) を提案する。
最後に、SDによって生成された粗粒度表現と全ビュー特徴を用いて、対象者を検索する。
AG-ReIDベンチマークの大規模な実験により,提案したSD-ReIDの有効性が示された。
ソースコードは受理時に利用可能になる。
関連論文リスト
- Exploring Stronger Transformer Representation Learning for Occluded Person Re-Identification [2.552131151698595]
我々はトランスフォーマーに基づく人物識別フレームワークであるSSSC-TransReIDを組み合わせた新しい自己監督・監督手法を提案した。
我々は、ネガティブなサンプルや追加の事前学習なしに、人物の再識別のための特徴表現を強化することができる自己教師付きコントラスト学習ブランチを設計した。
提案モデルでは, 平均平均精度(mAP) とランク1の精度において, 最先端のReID手法よりも優れたRe-ID性能が得られ, 高いマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-10-21T03:17:25Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Freeview Sketching: View-Aware Fine-Grained Sketch-Based Image Retrieval [85.73149096516543]
微細スケッチベース画像検索(FG-SBIR)におけるスケッチ作成時の視点選択について検討する。
パイロットスタディでは、クエリスケッチがターゲットインスタンスと異なる場合、システムの苦労を強調している。
これを解決するために、ビューに依存しないタスクとビュー固有のタスクの両方をシームレスに収容するビューアウェアシステムを提案する。
論文 参考訳(メタデータ) (2024-07-01T21:20:44Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Learning Invariance from Generated Variance for Unsupervised Person
Re-identification [15.096776375794356]
従来のデータ拡張をGAN(Generative Adversarial Network)に置き換えることを提案する。
3次元メッシュガイド型人物画像生成器は、人物画像をID関連およびID非関連の特徴に分解するために提案される。
生成モジュールとコントラストモジュールを共同でトレーニングすることにより、主流の大規模ベンチマーク上で、最先端の非教師なしのReID性能を実現する。
論文 参考訳(メタデータ) (2023-01-02T15:40:14Z) - Camera-Conditioned Stable Feature Generation for Isolated Camera
Supervised Person Re-IDentification [24.63519986072777]
クロスカメラ画像は、ISolated Camera Supervised 設定下では利用できない可能性がある。
新しいパイプラインは、モデルトレーニングのためにフィーチャースペース内のクロスカメラサンプルを合成することによって導入される。
2つのISCS人物Re-IDデータセットの実験は、競合相手に対するCCSFGの優位性を実証している。
論文 参考訳(メタデータ) (2022-03-29T03:10:24Z) - Fine-Grained Re-Identification [1.8275108630751844]
本稿では,画像とビデオのReIDを統一する最初のモデルのひとつとして,計算効率のよいReIDモデルFGReIDを提案する。
FGReIDは、ビデオベースの事前学習と空間的特徴の注意を生かして、ビデオと画像の両方のReIDタスクのパフォーマンスを改善する。
論文 参考訳(メタデータ) (2020-11-26T21:04:17Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。