論文の概要: Pose-dIVE: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification
- arxiv url: http://arxiv.org/abs/2406.16042v2
- Date: Tue, 15 Oct 2024 05:41:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 13:58:05.013789
- Title: Pose-dIVE: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification
- Title(参考訳): Pose-DIVE: 人物再同定のための拡散モデルを用いたPose-Diversified Augmentation
- Authors: Inès Hyeonsu Kim, JoungBin Lee, Woojeong Jin, Soowon Son, Kyusun Cho, Junyoung Seo, Min-Seop Kwak, Seokju Cho, JeongYeol Baek, Byeongwon Lee, Seungryong Kim,
- Abstract要約: Pose-dIVEは、スパースで表現不足な人間のポーズとカメラ視点の例をトレーニングデータに組み込んだ、新しいデータ拡張アプローチである。
我々の目標は、トレーニングデータセットを拡張して、既存のRe-IDモデルで人間のポーズやカメラ視点の変化に偏らない特徴を学習できるようにすることである。
- 参考スコア(独自算出の注目度): 28.794827024749658
- License:
- Abstract: Person re-identification (Re-ID) often faces challenges due to variations in human poses and camera viewpoints, which significantly affect the appearance of individuals across images. Existing datasets frequently lack diversity and scalability in these aspects, hindering the generalization of Re-ID models to new camera systems. We propose Pose-dIVE, a novel data augmentation approach that incorporates sparse and underrepresented human pose and camera viewpoint examples into the training data, addressing the limited diversity in the original training data distribution. Our objective is to augment the training dataset to enable existing Re-ID models to learn features unbiased by human pose and camera viewpoint variations. To achieve this, we leverage the knowledge of pre-trained large-scale diffusion models. By conditioning the diffusion model on both the human pose and camera viewpoint concurrently through the SMPL model, we generate training data with diverse human poses and camera viewpoints. Experimental results demonstrate the effectiveness of our method in addressing human pose bias and enhancing the generalizability of Re-ID models compared to other data augmentation-based Re-ID approaches.
- Abstract(参考訳): 人物の再識別(Re-ID)は、人間のポーズやカメラ視点の変化によってしばしば困難に直面する。
既存のデータセットはこれらの点において多様性とスケーラビリティを欠くことが多く、新しいカメラシステムへのRe-IDモデルの一般化を妨げる。
トレーニングデータにスパース・アンダー表現された人間のポーズとカメラ視点の例を組み込んだ新しいデータ拡張手法であるPose-dIVEを提案する。
我々の目標は、トレーニングデータセットを拡張して、既存のRe-IDモデルで人間のポーズやカメラ視点の変化に偏らない特徴を学習できるようにすることである。
そこで我々は,事前学習した大規模拡散モデルの知識を活用する。
SMPLモデルにより、人間のポーズとカメラの視点の両方に拡散モデルを同時に設定することにより、多様なポーズとカメラの視点でトレーニングデータを生成する。
実験により,人間のポーズバイアスに対処し,Re-IDモデルの一般化性を高める手法の有効性を,他のデータ拡張に基づくRe-ID手法と比較した。
関連論文リスト
- Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - DEEM: Diffusion Models Serve as the Eyes of Large Language Models for Image Perception [66.88792390480343]
本稿では,拡散モデルの生成的フィードバックを利用して画像エンコーダのセマンティックな分布を整合させる,シンプルで効果的なアプローチであるDEEMを提案する。
DEEMは、訓練可能なパラメータを少なくし、事前訓練データが少なく、ベースモデルのサイズを小さくし、幻覚を緩和するための強化された堅牢性と優れた能力を示す。
論文 参考訳(メタデータ) (2024-05-24T05:46:04Z) - Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文 参考訳(メタデータ) (2024-03-13T16:05:18Z) - Diffusion Models Trained with Large Data Are Transferable Visual Models [49.84679952948808]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Pose Invariant Person Re-Identification using Robust Pose-transformation
GAN [11.338815177557645]
人物再識別(re-ID)は、興味ある人物の単一の事例から、画像ギャラリーから人物の画像を検索することを目的としている。
いくつかの進歩にもかかわらず、ロバストな人物再同定のための識別的アイデンティティ感と視点不変特徴の学習は、人間のポーズの変化が大きいため、大きな課題である。
本稿では,ポーズ回帰と特徴融合を組み合わせた生成逆数ネットワークの画像生成機能を利用して,ポーズ不変な特徴学習を実現するre-IDパイプラインを提案する。
論文 参考訳(メタデータ) (2021-04-11T15:47:03Z) - Unsupervised Pre-training for Person Re-identification [90.98552221699508]
大規模無ラベル人物再識別(Re-ID)データセットLUPersonを提案する。
学習者のRe-ID特徴表現の一般化能力を向上させるために,教師なし事前学習を初めて行おうとする。
論文 参考訳(メタデータ) (2020-12-07T14:48:26Z) - Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image
Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。
3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文 参考訳(メタデータ) (2020-04-09T07:55:01Z) - MirrorNet: A Deep Bayesian Approach to Reflective 2D Pose Estimation
from Human Images [42.27703025887059]
標準的な教師ありアプローチの大きな問題は、しばしば解剖学的に不可解なポーズをもたらすことである。
ポーズアノテーションを使わずに画像を効果的に活用できる半教師付き手法を提案する。
実験の結果,提案した反射型アーキテクチャが解剖学的に妥当なポーズを推定できることが示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:02:48Z) - A Robust Pose Transformational GAN for Pose Guided Person Image
Synthesis [9.570395744724461]
任意のポーズで与えられた人物画像を生成するために,付加的な特徴学習を伴わない残差学習手法を用いて,シンプルで効果的なポーズ変換GANを提案する。
効率的なデータ拡張技術と巧妙にモデルをチューニングすることで、照明、閉塞、歪み、スケールの点で堅牢性を実現する。
本稿では,2つの大規模データセット上での既存手法よりもモデルの方が優れていることを示すために,定性的かつ定量的に詳細な研究を行う。
論文 参考訳(メタデータ) (2020-01-05T15:32:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。