論文の概要: Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection
- arxiv url: http://arxiv.org/abs/2405.15939v2
- Date: Thu, 12 Jun 2025 20:13:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.399371
- Title: Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection
- Title(参考訳): 航空ビュー人間検出のための合成データにおける人文の多様性
- Authors: Yi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra S. Bhattacharyya,
- Abstract要約: SynPoseDivは、既存の合成データセット内で人間のポーズを多様化する新しいフレームワークである。
拡散ベースのポーズジェネレータを使用して、リアルで多様な3Dポーズを生成する。
ソース・ツー・ターゲット・イメージ・トランスレータを通じて、新しいポーズで仮想文字の画像を生成する。
実験により、SynPoseDivは複数の航空ビュー人間検出ベンチマークにおける検出精度を大幅に向上することが示された。
- 参考スコア(独自算出の注目度): 16.42439177494448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data generation has emerged as a promising solution to the data scarcity issue in aerial-view human detection. However, creating datasets that accurately reflect varying real-world human appearances, particularly diverse poses, remains challenging and labor-intensive. To address this, we propose SynPoseDiv, a novel framework that diversifies human poses within existing synthetic datasets. SynPoseDiv tackles two key challenges: generating realistic, diverse 3D human poses using a diffusion-based pose generator, and producing images of virtual characters in novel poses through a source-to-target image translator. The framework incrementally transitions characters into new poses using optimized pose sequences identified via Dijkstra's algorithm. Experiments demonstrate that SynPoseDiv significantly improves detection accuracy across multiple aerial-view human detection benchmarks, especially in low-shot scenarios, and remains effective regardless of the training approach or dataset size.
- Abstract(参考訳): 合成データ生成は、航空ビューによる人間の検出におけるデータ不足問題に対する有望な解決策として浮上している。
しかし、実際の人間の外見、特に多様なポーズを正確に反映したデータセットを作成することは、依然として困難であり、労働集約的である。
これを解決するために,既存の合成データセット内で人間のポーズを多様化する新しいフレームワークであるSynPoseDivを提案する。
SynPoseDivは、拡散ベースのポーズジェネレータを使用してリアルで多様な3Dポーズを生成し、ソースからターゲットへのイメージトランスレータを通じて、新しいポーズにおける仮想文字の画像を生成する。
このフレームワークは、Dijkstraのアルゴリズムで特定された最適化されたポーズシーケンスを使用して、文字を新しいポーズに漸進的に変換する。
実験により、SynPoseDivは、特にローショットシナリオにおいて、複数の航空ビュー人間の検出ベンチマークにおける検出精度を著しく改善し、トレーニングアプローチやデータセットサイズに関わらず有効であることが示された。
関連論文リスト
- Controllable Human Image Generation with Personalized Multi-Garments [46.042383679103125]
BootCompは、テキストから画像への拡散モデルに基づく新しいフレームワークである。
本研究では,ヒトとマルチガーメントのペアからなる大規模な合成データセットを構築するためのデータ生成パイプラインを提案する。
ファッションドメインにおいて、異なるタイプの参照ベース生成に適応することで、フレームワークの幅広い適用性を示す。
論文 参考訳(メタデータ) (2024-11-25T12:37:13Z) - GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.971188335727074]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を探索するフレームワークを提案する。
提案モデルでは,最新のベンチマークモデルと比較して,ポーズ平均精度が9.98%向上した。
論文 参考訳(メタデータ) (2024-08-29T13:58:34Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose
Estimation [55.94900327396771]
合成データから6次元オブジェクトポーズ推定のためのニューラルネットワークによるテクスチャ学習を提案する。
実画像からオブジェクトの現実的なテクスチャを予測することを学ぶ。
画素完全合成データからポーズ推定を学習する。
論文 参考訳(メタデータ) (2022-12-25T13:36:32Z) - TIPS: Text-Induced Pose Synthesis [24.317541784957285]
コンピュータビジョンにおいて、人間のポーズ合成と伝達は、以前は目に見えないポーズで人の確率的画像生成を扱う。
まず,現在のポーズ転送アルゴリズムの欠点を提示し,それらの問題に対処するための新しいテキストベースのポーズ転送手法を提案する。
提案手法は,実験において有意な質的,定量的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-24T11:14:46Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。
ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。
衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文 参考訳(メタデータ) (2021-03-06T04:32:06Z) - Pose-Guided Human Animation from a Single Image in the Wild [83.86903892201656]
身体ポーズのシーケンスによって制御される人の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提案する。
既存のポーズ転送手法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示す。
我々は,シルエット,衣料ラベル,テクスチャを予測する合成ニューラルネットワークを設計した。
我々は、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。
論文 参考訳(メタデータ) (2020-12-07T15:38:29Z) - Adversarial Synthesis of Human Pose from Text [18.02001711736337]
この研究は、人間レベルのテキスト記述から人間のポーズを合成することに焦点を当てている。
本稿では,条件付き生成逆数ネットワークに基づくモデルを提案する。
定性的かつ定量的な結果から、与えられたテキストと一致する可視的なポーズを合成できることを示す。
論文 参考訳(メタデータ) (2020-05-01T12:32:04Z) - Pose Manipulation with Identity Preservation [0.0]
本稿では,文字適応性正規化GAN(CainGAN)を提案する。
CainGANは特定の個人から顔の数字を受け取り、その人物の身元を保存しながら新しい顔を生成する。
実験の結果, 生成画像の品質は, 推論時に使用する入力セットのサイズと一致していることがわかった。
論文 参考訳(メタデータ) (2020-04-20T09:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。