論文の概要: Pose-dIVE: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2406.16042v2
- Date: Tue, 15 Oct 2024 05:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:05.013789
- Title: Pose-dIVE: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification
- Title(参考訳): Pose-DIVE: 人物再同定のための拡散モデルを用いたPose-Diversified Augmentation
- Authors: Inès Hyeonsu Kim, JoungBin Lee, Woojeong Jin, Soowon Son, Kyusun Cho, Junyoung Seo, Min-Seop Kwak, Seokju Cho, JeongYeol Baek, Byeongwon Lee, Seungryong Kim,
- Abstract要約: Pose-dIVEは、スパースで表現不足な人間のポーズとカメラ視点の例をトレーニングデータに組み込んだ、新しいデータ拡張アプローチである。
我々の目標は、トレーニングデータセットを拡張して、既存のRe-IDモデルで人間のポーズやカメラ視点の変化に偏らない特徴を学習できるようにすることである。
- 参考スコア(独自算出の注目度): 28.794827024749658
- License:
- Abstract: Person re-identification (Re-ID) often faces challenges due to variations in human poses and camera viewpoints, which significantly affect the appearance of individuals across images. Existing datasets frequently lack diversity and scalability in these aspects, hindering the generalization of Re-ID models to new camera systems. We propose Pose-dIVE, a novel data augmentation approach that incorporates sparse and underrepresented human pose and camera viewpoint examples into the training data, addressing the limited diversity in the original training data distribution. Our objective is to augment the training dataset to enable existing Re-ID models to learn features unbiased by human pose and camera viewpoint variations. To achieve this, we leverage the knowledge of pre-trained large-scale diffusion models. By conditioning the diffusion model on both the human pose and camera viewpoint concurrently through the SMPL model, we generate training data with diverse human poses and camera viewpoints. Experimental results demonstrate the effectiveness of our method in addressing human pose bias and enhancing the generalizability of Re-ID models compared to other data augmentation-based Re-ID approaches.
- Abstract(参考訳): 人物の再識別(Re-ID)は、人間のポーズやカメラ視点の変化によってしばしば困難に直面する。
既存のデータセットはこれらの点において多様性とスケーラビリティを欠くことが多く、新しいカメラシステムへのRe-IDモデルの一般化を妨げる。
トレーニングデータにスパース・アンダー表現された人間のポーズとカメラ視点の例を組み込んだ新しいデータ拡張手法であるPose-dIVEを提案する。
我々の目標は、トレーニングデータセットを拡張して、既存のRe-IDモデルで人間のポーズやカメラ視点の変化に偏らない特徴を学習できるようにすることである。
そこで我々は,事前学習した大規模拡散モデルの知識を活用する。
SMPLモデルにより、人間のポーズとカメラの視点の両方に拡散モデルを同時に設定することにより、多様なポーズとカメラの視点でトレーニングデータを生成する。
実験により,人間のポーズバイアスに対処し,Re-IDモデルの一般化性を高める手法の有効性を,他のデータ拡張に基づくRe-ID手法と比較した。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z) - Pose Invariant Person Re-Identification using Robust Pose-transformation
GAN [11.338815177557645]
人物再識別(re-ID)は、興味ある人物の単一の事例から、画像ギャラリーから人物の画像を検索することを目的としている。
いくつかの進歩にもかかわらず、ロバストな人物再同定のための識別的アイデンティティ感と視点不変特徴の学習は、人間のポーズの変化が大きいため、大きな課題である。
本稿では,ポーズ回帰と特徴融合を組み合わせた生成逆数ネットワークの画像生成機能を利用して,ポーズ不変な特徴学習を実現するre-IDパイプラインを提案する。
論文 参考訳(メタデータ) (2021-04-11T15:47:03Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - MirrorNet: A Deep Bayesian Approach to Reflective 2D Pose Estimation
from Human Images [42.27703025887059]
標準的な教師ありアプローチの大きな問題は、しばしば解剖学的に不可解なポーズをもたらすことである。
ポーズアノテーションを使わずに画像を効果的に活用できる半教師付き手法を提案する。
実験の結果,提案した反射型アーキテクチャが解剖学的に妥当なポーズを推定できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:02:48Z) - Cross-Resolution Adversarial Dual Network for Person Re-Identification
and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。
カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。
本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T07:21:38Z) - A Robust Pose Transformational GAN for Pose Guided Person Image
Synthesis [9.570395744724461]
任意のポーズで与えられた人物画像を生成するために,付加的な特徴学習を伴わない残差学習手法を用いて,シンプルで効果的なポーズ変換GANを提案する。
効率的なデータ拡張技術と巧妙にモデルをチューニングすることで、照明、閉塞、歪み、スケールの点で堅牢性を実現する。
本稿では,2つの大規模データセット上での既存手法よりもモデルの方が優れていることを示すために,定性的かつ定量的に詳細な研究を行う。
論文 参考訳(メタデータ) (2020-01-05T15:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。