論文の概要: Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection
- arxiv url: http://arxiv.org/abs/2405.15939v1
- Date: Fri, 24 May 2024 21:08:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 01:58:51.344595
- Title: Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection
- Title(参考訳): 航空ビュー人間検出のための合成データにおける人文の多様性
- Authors: Yi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra S. Bhattacharyya,
- Abstract要約: 本研究では,空中視による人間検出のための合成データセットにおいて,人間のポーズを多様化するための枠組みを提案する。
提案手法では,ポーズ生成器を用いて新規ポーズのセットを構築し,既存の合成データセットの画像を変更して,新規ポーズを仮定する。
実験では、合成データがトレーニングにどのように使用されるか、あるいはデータサイズに関わらず、トレーニングでポーズの異なるデータセットを活用することにより、はるかに精度が向上することを示した。
- 参考スコア(独自算出の注目度): 16.42439177494448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for diversifying human poses in a synthetic dataset for aerial-view human detection. Our method firstly constructs a set of novel poses using a pose generator and then alters images in the existing synthetic dataset to assume the novel poses while maintaining the original style using an image translator. Since images corresponding to the novel poses are not available in training, the image translator is trained to be applicable only when the input and target poses are similar, thus training does not require the novel poses and their corresponding images. Next, we select a sequence of target novel poses from the novel pose set, using Dijkstra's algorithm to ensure that poses closer to each other are located adjacently in the sequence. Finally, we repeatedly apply the image translator to each target pose in sequence to produce a group of novel pose images representing a variety of different limited body movements from the source pose. Experiments demonstrate that, regardless of how the synthetic data is used for training or the data size, leveraging the pose-diversified synthetic dataset in training generally presents remarkably better accuracy than using the original synthetic dataset on three aerial-view human detection benchmarks (VisDrone, Okutama-Action, and ICG) in the few-shot regime.
- Abstract(参考訳): 本研究では,空中視による人間検出のための合成データセットにおいて,人間のポーズを多様化するための枠組みを提案する。
提案手法は,まずポーズ生成器を用いて新規ポーズのセットを構築し,次に既存の合成データセットの画像を変更して,画像トランスレータを用いてオリジナルスタイルを維持しながら新規ポーズを仮定する。
新規ポーズに対応する画像はトレーニングでは利用できないため、入力とターゲットポーズが類似している場合にのみ、画像翻訳者が適用するように訓練されるので、新規ポーズとその対応する画像を必要としない。
次に、ダイクストラのアルゴリズムを用いて、新しいポーズセットから標的となる新規ポーズのシーケンスを選択し、そのシーケンス内に互いに近いポーズが配置されていることを確かめる。
最後に,画像トランスレータを各ターゲットポーズに連続して適用し,ソースポーズから様々な制限された身体の動きを表す新しいポーズ画像群を生成する。
実験により, 合成データがトレーニングにどのように使用されるか, あるいはデータサイズによらず, ポーズの異なる合成データセットをトレーニングに利用する場合, 従来の合成データセットを, 3つの航空ビュー人間検出ベンチマーク(VisDrone, Okutama-Action, ICG)で使用した場合よりも, 極めて精度が高いことが示された。
関連論文リスト
- Controllable Human Image Generation with Personalized Multi-Garments [46.042383679103125]
BootCompは、テキストから画像への拡散モデルに基づく新しいフレームワークである。
本研究では,ヒトとマルチガーメントのペアからなる大規模な合成データセットを構築するためのデータ生成パイプラインを提案する。
ファッションドメインにおいて、異なるタイプの参照ベース生成に適応することで、フレームワークの幅広い適用性を示す。
論文 参考訳(メタデータ) (2024-11-25T12:37:13Z) - GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.971188335727074]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を探索するフレームワークを提案する。
提案モデルでは,最新のベンチマークモデルと比較して,ポーズ平均精度が9.98%向上した。
論文 参考訳(メタデータ) (2024-08-29T13:58:34Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose
Estimation [55.94900327396771]
合成データから6次元オブジェクトポーズ推定のためのニューラルネットワークによるテクスチャ学習を提案する。
実画像からオブジェクトの現実的なテクスチャを予測することを学ぶ。
画素完全合成データからポーズ推定を学習する。
論文 参考訳(メタデータ) (2022-12-25T13:36:32Z) - TIPS: Text-Induced Pose Synthesis [24.317541784957285]
コンピュータビジョンにおいて、人間のポーズ合成と伝達は、以前は目に見えないポーズで人の確率的画像生成を扱う。
まず,現在のポーズ転送アルゴリズムの欠点を提示し,それらの問題に対処するための新しいテキストベースのポーズ転送手法を提案する。
提案手法は,実験において有意な質的,定量的な結果が得られることを示す。
論文 参考訳(メタデータ) (2022-07-24T11:14:46Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。
この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文 参考訳(メタデータ) (2021-04-29T17:59:42Z) - PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。
ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。
衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文 参考訳(メタデータ) (2021-03-06T04:32:06Z) - Pose-Guided Human Animation from a Single Image in the Wild [83.86903892201656]
身体ポーズのシーケンスによって制御される人の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提案する。
既存のポーズ転送手法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示す。
我々は,シルエット,衣料ラベル,テクスチャを予測する合成ニューラルネットワークを設計した。
我々は、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。
論文 参考訳(メタデータ) (2020-12-07T15:38:29Z) - Adversarial Synthesis of Human Pose from Text [18.02001711736337]
この研究は、人間レベルのテキスト記述から人間のポーズを合成することに焦点を当てている。
本稿では,条件付き生成逆数ネットワークに基づくモデルを提案する。
定性的かつ定量的な結果から、与えられたテキストと一致する可視的なポーズを合成できることを示す。
論文 参考訳(メタデータ) (2020-05-01T12:32:04Z) - Pose Manipulation with Identity Preservation [0.0]
本稿では,文字適応性正規化GAN(CainGAN)を提案する。
CainGANは特定の個人から顔の数字を受け取り、その人物の身元を保存しながら新しい顔を生成する。
実験の結果, 生成画像の品質は, 推論時に使用する入力セットのサイズと一致していることがわかった。
論文 参考訳(メタデータ) (2020-04-20T09:51:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。