論文の概要: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2406.16042v1
- Date: Sun, 23 Jun 2024 07:48:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-25 19:13:57.684795
- Title: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification
- Title(参考訳): 人物再同定のための拡散モデルによる多角的拡張
- Authors: Inès Hyeonsu Kim, JoungBin Lee, Soowon Son, Woojeong Jin, Kyusun Cho, Junyoung Seo, Min-Seop Kwak, Seokju Cho, JeongYeol Baek, Byeongwon Lee, Seungryong Kim,
- Abstract要約: 人物の再識別(Re-ID)は、人間のポーズやカメラの視点の変化によってしばしば困難に直面する。
従来の手法は、データ拡張を通じてこれらの問題に対処しようと試みてきた。
Diff-IDは、疎外で表現不足な人間のポーズとカメラ視点の例を取り入れた、新しいデータ拡張手法である。
- 参考スコア(独自算出の注目度): 28.794827024749658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Person re-identification (Re-ID) often faces challenges due to variations in human poses and camera viewpoints, which significantly affect the appearance of individuals across images. Existing datasets frequently lack diversity and scalability in these aspects, hindering the generalization of Re-ID models to new camera systems. Previous methods have attempted to address these issues through data augmentation; however, they rely on human poses already present in the training dataset, failing to effectively reduce the human pose bias in the dataset. We propose Diff-ID, a novel data augmentation approach that incorporates sparse and underrepresented human pose and camera viewpoint examples into the training data, addressing the limited diversity in the original training data distribution. Our objective is to augment a training dataset that enables existing Re-ID models to learn features unbiased by human pose and camera viewpoint variations. To achieve this, we leverage the knowledge of pre-trained large-scale diffusion models. Using the SMPL model, we simultaneously capture both the desired human poses and camera viewpoints, enabling realistic human rendering. The depth information provided by the SMPL model indirectly conveys the camera viewpoints. By conditioning the diffusion model on both the human pose and camera viewpoint concurrently through the SMPL model, we generate realistic images with diverse human poses and camera viewpoints. Qualitative results demonstrate the effectiveness of our method in addressing human pose bias and enhancing the generalizability of Re-ID models compared to other data augmentation-based Re-ID approaches. The performance gains achieved by training Re-ID models on our offline augmented dataset highlight the potential of our proposed framework in improving the scalability and generalizability of person Re-ID models.
- Abstract(参考訳): 人物の再識別(Re-ID)は、人間のポーズやカメラ視点の変化によってしばしば困難に直面する。
既存のデータセットはこれらの点において多様性とスケーラビリティを欠くことが多く、新しいカメラシステムへのRe-IDモデルの一般化を妨げる。
しかし、トレーニングデータセットにすでに存在する人間のポーズに依存しており、データセットの人間のポーズバイアスを効果的に低減できない。
Diff-IDは、疎密で表現不足な人間のポーズとカメラ視点の例をトレーニングデータに組み込んだ、新しいデータ拡張手法である。
我々の目標は、既存のRe-IDモデルで人間のポーズやカメラの視点の違いに左右されない特徴を学習できるトレーニングデータセットを強化することである。
そこで我々は,事前学習した大規模拡散モデルの知識を活用する。
SMPLモデルを用いて、所望の人間のポーズとカメラ視点の両方を同時にキャプチャし、リアルな人間のレンダリングを可能にする。
SMPLモデルが提供する奥行き情報は、カメラ視点を間接的に伝達する。
SMPLモデルにより、人間のポーズとカメラの視点の両方に拡散モデルを同時に設定することにより、多様なポーズとカメラの視点でリアルな画像を生成する。
定性的な結果は、人間のポーズバイアスに対処し、Re-IDモデルの一般化性を高める方法の有効性を、他のデータ拡張ベースのRe-IDアプローチと比較して示している。
オフラインの拡張現実データセット上でRe-IDモデルをトレーニングすることで達成されるパフォーマンス向上は、個人Re-IDモデルのスケーラビリティと一般化性を改善する上で、提案するフレームワークの可能性を浮き彫りにしている。
関連論文リスト
- Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルで効果的なアプローチであるDEEMを提案する。
DEEMは、訓練可能なパラメータを少なくし、事前訓練データが少なく、ベースモデルのサイズを小さくし、幻覚を緩和するための強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Diffusion Models Trained with Large Data Are Transferable Visual Models [49.84679952948808]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Pose Invariant Person Re-Identification using Robust Pose-transformation
GAN [11.338815177557645]
人物再識別(re-ID)は、興味ある人物の単一の事例から、画像ギャラリーから人物の画像を検索することを目的としている。
いくつかの進歩にもかかわらず、ロバストな人物再同定のための識別的アイデンティティ感と視点不変特徴の学習は、人間のポーズの変化が大きいため、大きな課題である。
本稿では,ポーズ回帰と特徴融合を組み合わせた生成逆数ネットワークの画像生成機能を利用して,ポーズ不変な特徴学習を実現するre-IDパイプラインを提案する。
論文 参考訳(メタデータ) (2021-04-11T15:47:03Z) - Unsupervised Pre-training for Person Re-identification [90.98552221699508]
大規模無ラベル人物再識別(Re-ID)データセットLUPersonを提案する。
学習者のRe-ID特徴表現の一般化能力を向上させるために,教師なし事前学習を初めて行おうとする。
論文 参考訳(メタデータ) (2020-12-07T14:48:26Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - MirrorNet: A Deep Bayesian Approach to Reflective 2D Pose Estimation
from Human Images [42.27703025887059]
標準的な教師ありアプローチの大きな問題は、しばしば解剖学的に不可解なポーズをもたらすことである。
ポーズアノテーションを使わずに画像を効果的に活用できる半教師付き手法を提案する。
実験の結果,提案した反射型アーキテクチャが解剖学的に妥当なポーズを推定できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:02:48Z) - A Robust Pose Transformational GAN for Pose Guided Person Image
Synthesis [9.570395744724461]
任意のポーズで与えられた人物画像を生成するために,付加的な特徴学習を伴わない残差学習手法を用いて,シンプルで効果的なポーズ変換GANを提案する。
効率的なデータ拡張技術と巧妙にモデルをチューニングすることで、照明、閉塞、歪み、スケールの点で堅牢性を実現する。
本稿では,2つの大規模データセット上での既存手法よりもモデルの方が優れていることを示すために,定性的かつ定量的に詳細な研究を行う。
論文 参考訳(メタデータ) (2020-01-05T15:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。