論文の概要: PAT++: a cautionary tale about generative visual augmentation for Object Re-identification
- arxiv url: http://arxiv.org/abs/2507.15888v1
- Date: Sat, 19 Jul 2025 15:01:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.790337
- Title: PAT++: a cautionary tale about generative visual augmentation for Object Re-identification
- Title(参考訳): PAT++:オブジェクト再識別のための生成的視覚増強に関する注意深い物語
- Authors: Leonardo Santiago Benitez Pereira, Arathy Jeevan,
- Abstract要約: オブジェクト再識別のためのアイデンティティ保存画像生成の有効性を評価する。
その結果、ドメインシフトやアイデンティティ定義機能の維持に失敗するなど、一貫したパフォーマンス劣化が見られた。
これらの知見は、生成モデルの微粒化認識タスクへの転送可能性に関する仮定に挑戦する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative data augmentation has demonstrated gains in several vision tasks, but its impact on object re-identification - where preserving fine-grained visual details is essential - remains largely unexplored. In this work, we assess the effectiveness of identity-preserving image generation for object re-identification. Our novel pipeline, named PAT++, incorporates Diffusion Self-Distillation into the well-established Part-Aware Transformer. Using the Urban Elements ReID Challenge dataset, we conduct extensive experiments with generated images used for both model training and query expansion. Our results show consistent performance degradation, driven by domain shifts and failure to retain identity-defining features. These findings challenge assumptions about the transferability of generative models to fine-grained recognition tasks and expose key limitations in current approaches to visual augmentation for identity-preserving applications.
- Abstract(参考訳): 生成的データ拡張は、いくつかの視覚タスクにおいて効果を示しているが、オブジェクトの再識別(きめ細かな視覚的詳細を保存することが不可欠である)への影響は、まだ明らかにされていない。
本研究では,物体の再識別におけるアイデンティティ保存画像生成の有効性を評価する。
私たちの新しいパイプラインはPAT++と呼ばれ、Diffusion Self-Distillationをよく確立されたPart-Aware Transformerに組み込んでいます。
Urban Elements ReID Challengeデータセットを用いて、モデルトレーニングとクエリ拡張の両方に使用される生成された画像を用いて広範な実験を行う。
その結果、ドメインシフトやアイデンティティ定義機能の維持に失敗するなど、一貫したパフォーマンス劣化が見られた。
これらの知見は、生成モデルの微粒化認識タスクへの転送可能性に関する仮定に挑戦し、アイデンティティ保護アプリケーションに対する視覚的拡張に対する現在のアプローチにおける重要な制限を明らかにする。
関連論文リスト
- Attribute Guidance With Inherent Pseudo-label For Occluded Person Re-identification [16.586742421279137]
Attribute-Guide ReID(AG-ReID)は、追加のデータやアノテーションなしで詳細なセマンティック属性を抽出する新しいフレームワークである。
まず、微妙な視覚的特徴を捉えた属性の擬似ラベルを生成し、次に二重誘導機構を導入する。
大規模な実験により、AG-ReIDは複数の広く使用されているRe-IDデータセットで最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2025-08-07T03:13:24Z) - SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [61.753607285860944]
本稿では,AG-ReIDのためのSD-ReIDという2段階特徴学習フレームワークを提案する。
第1段階では、粗粒度表現と制御可能な条件を抽出するために、簡単なViTベースモデルを訓練する。
第2段階では、制御可能な条件で導かれる補完表現を学習するためにSDモデルを微調整する。
論文 参考訳(メタデータ) (2025-04-13T12:44:50Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Generative Unlearning for Any Identity [6.872154067622779]
プライバシー問題に関連する特定の領域では、高度な生成モデルと強力な反転法が潜在的な誤用につながる可能性がある。
生成的アイデンティティアンラーニング(generative identity unlearning)という,特定のアイデンティティのイメージを生成しないモデルを提案する。
本稿では,1つの画像のみを用いて生成元をアンラーニングすることで,特定のアイデンティティの再構築を防止する新しいフレームワーク,GUIDE(Generative Unlearning for Any Identity)を提案する。
論文 参考訳(メタデータ) (2024-05-16T08:00:55Z) - ID-Aligner: Enhancing Identity-Preserving Text-to-Image Generation with Reward Feedback Learning [57.91881829308395]
AIポートレートや広告といった幅広いアプリケーションシナリオのために、ID-T2I(ID-preserving text-to-image generation)が注目されている。
我々は,ID-T2I性能を向上させるための一般的なフィードバック学習フレームワークである textbfID-Aligner を提案する。
論文 参考訳(メタデータ) (2024-04-23T18:41:56Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - RID-TWIN: An end-to-end pipeline for automatic face de-identification in videos [2.7569134765233536]
RID-Twinは、モーションからアイデンティティを分離して、ビデオの顔の自動識別を実行するパイプラインである。
本稿では,広く利用されているVoxCeleb2データセット上での方法論の性能を評価する。
論文 参考訳(メタデータ) (2024-03-15T06:59:21Z) - Transformer for Object Re-Identification: A Survey [69.61542572894263]
ビジョントランスフォーマーは、TransformerベースのRe-IDをさらに深く研究している。
本稿では、TransformerベースのRe-IDの総合的なレビューと詳細な分析を行う。
本稿では,教師なしRe-IDのトレンドを考えると,最先端性能を実現するための新しいトランスフォーマーベースラインUntransReIDを提案する。
論文 参考訳(メタデータ) (2024-01-13T03:17:57Z) - StyleID: Identity Disentanglement for Anonymizing Faces [4.048444203617942]
この論文の主な貢献は、フィーチャ保存の匿名化フレームワークであるStyleIDの設計である。
コントリビューションの一環として,新しいアンタングル化指標,補足的アンタングル化法,およびアイデンティティ・アンタングル化に関する新たな知見を提示する。
StyleIDはチューナブルなプライバシを提供し、計算の複雑さが低く、現在の最先端ソリューションを上回っている。
論文 参考訳(メタデータ) (2022-12-28T12:04:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。