Fugu-MT 論文翻訳(概要): Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification

論文の概要: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification

arxiv url: http://arxiv.org/abs/2406.16042v1
Date: Sun, 23 Jun 2024 07:48:21 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-25 19:13:57.684795
Title: Pose-Diversified Augmentation with Diffusion Model for Person Re-Identification
Title（参考訳）: 人物再同定のための拡散モデルによる多角的拡張
Authors: Inès Hyeonsu Kim, JoungBin Lee, Soowon Son, Woojeong Jin, Kyusun Cho, Junyoung Seo, Min-Seop Kwak, Seokju Cho, JeongYeol Baek, Byeongwon Lee, Seungryong Kim,
Abstract要約: 人物の再識別(Re-ID)は、人間のポーズやカメラの視点の変化によってしばしば困難に直面する。従来の手法は、データ拡張を通じてこれらの問題に対処しようと試みてきた。 Diff-IDは、疎外で表現不足な人間のポーズとカメラ視点の例を取り入れた、新しいデータ拡張手法である。
参考スコア（独自算出の注目度）: 28.794827024749658
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Person re-identification (Re-ID) often faces challenges due to variations in human poses and camera viewpoints, which significantly affect the appearance of individuals across images. Existing datasets frequently lack diversity and scalability in these aspects, hindering the generalization of Re-ID models to new camera systems. Previous methods have attempted to address these issues through data augmentation; however, they rely on human poses already present in the training dataset, failing to effectively reduce the human pose bias in the dataset. We propose Diff-ID, a novel data augmentation approach that incorporates sparse and underrepresented human pose and camera viewpoint examples into the training data, addressing the limited diversity in the original training data distribution. Our objective is to augment a training dataset that enables existing Re-ID models to learn features unbiased by human pose and camera viewpoint variations. To achieve this, we leverage the knowledge of pre-trained large-scale diffusion models. Using the SMPL model, we simultaneously capture both the desired human poses and camera viewpoints, enabling realistic human rendering. The depth information provided by the SMPL model indirectly conveys the camera viewpoints. By conditioning the diffusion model on both the human pose and camera viewpoint concurrently through the SMPL model, we generate realistic images with diverse human poses and camera viewpoints. Qualitative results demonstrate the effectiveness of our method in addressing human pose bias and enhancing the generalizability of Re-ID models compared to other data augmentation-based Re-ID approaches. The performance gains achieved by training Re-ID models on our offline augmented dataset highlight the potential of our proposed framework in improving the scalability and generalizability of person Re-ID models.
Abstract（参考訳）: 人物の再識別(Re-ID)は、人間のポーズやカメラ視点の変化によってしばしば困難に直面する。既存のデータセットはこれらの点において多様性とスケーラビリティを欠くことが多く、新しいカメラシステムへのRe-IDモデルの一般化を妨げる。しかし、トレーニングデータセットにすでに存在する人間のポーズに依存しており、データセットの人間のポーズバイアスを効果的に低減できない。 Diff-IDは、疎密で表現不足な人間のポーズとカメラ視点の例をトレーニングデータに組み込んだ、新しいデータ拡張手法である。我々の目標は、既存のRe-IDモデルで人間のポーズやカメラの視点の違いに左右されない特徴を学習できるトレーニングデータセットを強化することである。そこで我々は,事前学習した大規模拡散モデルの知識を活用する。 SMPLモデルを用いて、所望の人間のポーズとカメラ視点の両方を同時にキャプチャし、リアルな人間のレンダリングを可能にする。 SMPLモデルが提供する奥行き情報は、カメラ視点を間接的に伝達する。 SMPLモデルにより、人間のポーズとカメラの視点の両方に拡散モデルを同時に設定することにより、多様なポーズとカメラの視点でリアルな画像を生成する。定性的な結果は、人間のポーズバイアスに対処し、Re-IDモデルの一般化性を高める方法の有効性を、他のデータ拡張ベースのRe-IDアプローチと比較して示している。オフラインの拡張現実データセット上でRe-IDモデルをトレーニングすることで達成されるパフォーマンス向上は、個人Re-IDモデルのスケーラビリティと一般化性を改善する上で、提案するフレームワークの可能性を浮き彫りにしている。

関連論文リスト

DPoser-X: Diffusion Model as Robust 3D Whole-body Human Pose Prior [82.9526308672547]
DPoser-Xは3次元人体写真の拡散に基づく先行モデルである。提案手法は,様々なポーズ中心タスクを逆問題として統一し,変分拡散サンプリングにより解決する。我々のモデルは、常に最先端の代替品よりも優れており、人体全体のポーズを事前モデリングするための新しいベンチマークを確立している。
論文参考訳（メタデータ） (2025-08-01T12:56:39Z)
Test-Time Augmentation for Pose-invariant Face Recognition [14.515296731166721]
Pose-TTAは、追加のトレーニングなしで顔を推論時に整列させる新しいアプローチである。これを実現するために、画像のイメージを駆動画像のポーズに転送するポートレートアニメーターを用いる。合成データから生じる歪みやバイアスに対処するための重み付き特徴集約戦略を提案する。
論文参考訳（メタデータ） (2025-05-14T10:11:35Z)
SD-ReID: View-aware Stable Diffusion for Aerial-Ground Person Re-Identification [74.36139886192495]
本稿では,AG-ReID のための SD-ReID という新しい生成フレームワークを提案する。まず、ViTベースのモデルを用いて人物表現を抽出し、個人性や視認性を含む制御可能な条件を抽出する。次に、安定拡散(SD)モデルを微調整し、これらの制御可能な条件によって導かれる人物表現を強化する。
論文参考訳（メタデータ） (2025-04-13T12:44:50Z)
SapiensID: Foundation for Human Recognition [15.65725865703615]
SapiensIDは顔と体の分析の統一モデルであり、多様な設定で堅牢なパフォーマンスを実現する。トレーニングを容易にするために,多彩なポーズとスケールのバリエーションを抽出した大規模データセットであるWebBody4Mを紹介した。実験により、SapiensIDは様々なボディReIDベンチマークで最先端の結果を達成し、短期シナリオと長期シナリオの両方で特別なモデルよりも優れていることが示された。
論文参考訳（メタデータ） (2025-04-07T03:38:07Z)
Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文参考訳（メタデータ） (2024-10-26T12:00:33Z)
Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文参考訳（メタデータ） (2024-06-10T06:26:03Z)
Data Augmentation in Human-Centric Vision [54.97327269866757]
本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
論文参考訳（メタデータ） (2024-03-13T16:05:18Z)
Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文参考訳（メタデータ） (2023-01-30T18:53:09Z)
Pose Invariant Person Re-Identification using Robust Pose-transformation GAN [11.338815177557645]
人物再識別(re-ID)は、興味ある人物の単一の事例から、画像ギャラリーから人物の画像を検索することを目的としている。いくつかの進歩にもかかわらず、ロバストな人物再同定のための識別的アイデンティティ感と視点不変特徴の学習は、人間のポーズの変化が大きいため、大きな課題である。本稿では,ポーズ回帰と特徴融合を組み合わせた生成逆数ネットワークの画像生成機能を利用して,ポーズ不変な特徴学習を実現するre-IDパイプラインを提案する。
論文参考訳（メタデータ） (2021-04-11T15:47:03Z)
Self-Supervised 3D Human Pose Estimation via Part Guided Novel Image Synthesis [72.34794624243281]
ラベルのないビデオフレームからバリエーションを分離する自己教師付き学習フレームワークを提案する。 3Dポーズと空間部分マップの表現ギャップを埋める、微分可能な形式化により、多様なカメラの動きを持つビデオで操作できる。
論文参考訳（メタデータ） (2020-04-09T07:55:01Z)
MirrorNet: A Deep Bayesian Approach to Reflective 2D Pose Estimation from Human Images [42.27703025887059]
標準的な教師ありアプローチの大きな問題は、しばしば解剖学的に不可解なポーズをもたらすことである。ポーズアノテーションを使わずに画像を効果的に活用できる半教師付き手法を提案する。実験の結果,提案した反射型アーキテクチャが解剖学的に妥当なポーズを推定できることが示唆された。
論文参考訳（メタデータ） (2020-04-08T05:02:48Z)
Cross-Resolution Adversarial Dual Network for Person Re-Identification and Beyond [59.149653740463435]
人物再識別(re-ID)は、同一人物の画像をカメラビューでマッチングすることを目的としている。カメラと関心のある人の距離が異なるため、解像度ミスマッチが期待できる。本稿では,クロスレゾリューションな人物のリIDに対処する新たな生成的対向ネットワークを提案する。
論文参考訳（メタデータ） (2020-02-19T07:21:38Z)
A Robust Pose Transformational GAN for Pose Guided Person Image Synthesis [9.570395744724461]
任意のポーズで与えられた人物画像を生成するために,付加的な特徴学習を伴わない残差学習手法を用いて,シンプルで効果的なポーズ変換GANを提案する。効率的なデータ拡張技術と巧妙にモデルをチューニングすることで、照明、閉塞、歪み、スケールの点で堅牢性を実現する。本稿では,2つの大規模データセット上での既存手法よりもモデルの方が優れていることを示すために,定性的かつ定量的に詳細な研究を行う。
論文参考訳（メタデータ） (2020-01-05T15:32:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。