論文の概要: Enhancing Zero-Shot Pedestrian Attribute Recognition with Synthetic Data Generation: A Comparative Study with Image-To-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2509.02161v1
- Date: Tue, 02 Sep 2025 10:12:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.991999
- Title: Enhancing Zero-Shot Pedestrian Attribute Recognition with Synthetic Data Generation: A Comparative Study with Image-To-Image Diffusion Models
- Title(参考訳): 合成データ生成によるゼロショット歩行者属性認識の強化:画像間拡散モデルとの比較検討
- Authors: Pablo Ayuso-Albizu, Juan C. SanMiguel, Pablo Carballeira,
- Abstract要約: Pedestrian Attribute Recognition (PAR)は、画像からさまざまな人間の属性を識別し、インテリジェントな監視システムに応用する。
拡散モデルの最近の進歩は、多様なリアルな合成画像を生成することを約束している。
本稿では、PARタスクに適した合成歩行者画像の生成における拡散モデルの有効性について検討する。
- 参考スコア(独自算出の注目度): 4.151161561832882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Pedestrian Attribute Recognition (PAR) involves identifying various human attributes from images with applications in intelligent monitoring systems. The scarcity of large-scale annotated datasets hinders the generalization of PAR models, specially in complex scenarios involving occlusions, varying poses, and diverse environments. Recent advances in diffusion models have shown promise for generating diverse and realistic synthetic images, allowing to expand the size and variability of training data. However, the potential of diffusion-based data expansion for generating PAR-like images remains underexplored. Such expansion may enhance the robustness and adaptability of PAR models in real-world scenarios. This paper investigates the effectiveness of diffusion models in generating synthetic pedestrian images tailored to PAR tasks. We identify key parameters of img2img diffusion-based data expansion; including text prompts, image properties, and the latest enhancements in diffusion-based data augmentation, and examine their impact on the quality of generated images for PAR. Furthermore, we employ the best-performing expansion approach to generate synthetic images for training PAR models, by enriching the zero-shot datasets. Experimental results show that prompt alignment and image properties are critical factors in image generation, with optimal selection leading to a 4.5% improvement in PAR recognition performance.
- Abstract(参考訳): Pedestrian Attribute Recognition (PAR)は、画像からさまざまな人間の属性を識別し、インテリジェントな監視システムに応用する。
大規模な注釈付きデータセットの不足はPARモデルの一般化を妨げる。
拡散モデルの最近の進歩は、多様なリアルな合成画像を生成することを約束しており、トレーニングデータのサイズと変動性を拡張することができる。
しかし、PARライクな画像を生成するための拡散ベースのデータ拡張の可能性はいまだ解明されていない。
このような拡張は、現実世界のシナリオにおけるPARモデルの堅牢性と適応性を高める可能性がある。
本稿では、PARタスクに適した合成歩行者画像の生成における拡散モデルの有効性について検討する。
img2img拡散型データ拡張の重要なパラメータを同定し、テキストプロンプト、画像特性、拡散型データ拡張の最新の拡張を含む、PARのための生成画像の品質への影響について検討する。
さらに、ゼロショットデータセットを豊かにすることにより、PARモデルをトレーニングするための合成画像を生成するために、最高のパフォーマンス拡張アプローチを採用する。
実験結果から, 画像のアライメントと画像特性は画像生成において重要な要因であり, 最適な選択によりPAR認識性能は4.5%向上した。
関連論文リスト
- Enhancing Diffusion-based Dataset Distillation via Adversary-Guided Curriculum Sampling [22.21686398518648]
Adversary-Guided Curriculum Smpling (ACS) は、蒸留データセットを複数のキュリキュラに分割する。
ACSは、逆損失による拡散サンプリングプロセスをガイドし、サンプル画像に基づいて訓練された判別器に挑戦する。
ACSはImagewoofで4.1%、ImageNet-1kで2.1%の大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-08-02T08:48:32Z) - Enhancing Diffusion Models for High-Quality Image Generation [0.0]
本稿では,拡散確率モデル(DDPM)と拡散確率モデル(DDIM)の総合的な実装,評価,最適化について述べる。
推論中、これらのモデルはランダムノイズを入力とし、高画質な画像を出力として繰り返し生成する。
この研究の背景にあるのは、さまざまなデータセットをまたいだリアルなイメージを生成可能な、効率的でスケーラブルな生成AIモデルの需要が高まっていることだ。
論文 参考訳(メタデータ) (2024-12-19T00:23:15Z) - Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-11T14:36:24Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - DetDiffusion: Synergizing Generative and Perceptive Models for Enhanced Data Generation and Perception [78.26734070960886]
現在の知覚モデルは、リソース集約的なデータセットに大きく依存している。
セグメンテーションを通じて知覚認識損失(P.A.損失)を導入し、品質と制御性の両方を改善した。
本手法は,世代間における知覚認識属性(P.A. Attr)の抽出と利用により,データ拡張をカスタマイズする。
論文 参考訳(メタデータ) (2024-03-20T04:58:03Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。