Fugu-MT 論文翻訳(概要): Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection

論文の概要: Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection

arxiv url: http://arxiv.org/abs/2405.15939v1
Date: Fri, 24 May 2024 21:08:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-29 01:58:51.344595
Title: Diversifying Human Pose in Synthetic Data for Aerial-view Human Detection
Title（参考訳）: 航空ビュー人間検出のための合成データにおける人文の多様性
Authors: Yi-Ting Shen, Hyungtae Lee, Heesung Kwon, Shuvra S. Bhattacharyya,
Abstract要約: 本研究では,空中視による人間検出のための合成データセットにおいて,人間のポーズを多様化するための枠組みを提案する。提案手法では,ポーズ生成器を用いて新規ポーズのセットを構築し,既存の合成データセットの画像を変更して,新規ポーズを仮定する。実験では、合成データがトレーニングにどのように使用されるか、あるいはデータサイズに関わらず、トレーニングでポーズの異なるデータセットを活用することにより、はるかに精度が向上することを示した。
参考スコア（独自算出の注目度）: 16.42439177494448
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present a framework for diversifying human poses in a synthetic dataset for aerial-view human detection. Our method firstly constructs a set of novel poses using a pose generator and then alters images in the existing synthetic dataset to assume the novel poses while maintaining the original style using an image translator. Since images corresponding to the novel poses are not available in training, the image translator is trained to be applicable only when the input and target poses are similar, thus training does not require the novel poses and their corresponding images. Next, we select a sequence of target novel poses from the novel pose set, using Dijkstra's algorithm to ensure that poses closer to each other are located adjacently in the sequence. Finally, we repeatedly apply the image translator to each target pose in sequence to produce a group of novel pose images representing a variety of different limited body movements from the source pose. Experiments demonstrate that, regardless of how the synthetic data is used for training or the data size, leveraging the pose-diversified synthetic dataset in training generally presents remarkably better accuracy than using the original synthetic dataset on three aerial-view human detection benchmarks (VisDrone, Okutama-Action, and ICG) in the few-shot regime.
Abstract（参考訳）: 本研究では,空中視による人間検出のための合成データセットにおいて,人間のポーズを多様化するための枠組みを提案する。提案手法は,まずポーズ生成器を用いて新規ポーズのセットを構築し,次に既存の合成データセットの画像を変更して,画像トランスレータを用いてオリジナルスタイルを維持しながら新規ポーズを仮定する。新規ポーズに対応する画像はトレーニングでは利用できないため、入力とターゲットポーズが類似している場合にのみ、画像翻訳者が適用するように訓練されるので、新規ポーズとその対応する画像を必要としない。次に、ダイクストラのアルゴリズムを用いて、新しいポーズセットから標的となる新規ポーズのシーケンスを選択し、そのシーケンス内に互いに近いポーズが配置されていることを確かめる。最後に,画像トランスレータを各ターゲットポーズに連続して適用し,ソースポーズから様々な制限された身体の動きを表す新しいポーズ画像群を生成する。実験により, 合成データがトレーニングにどのように使用されるか, あるいはデータサイズによらず, ポーズの異なる合成データセットをトレーニングに利用する場合, 従来の合成データセットを, 3つの航空ビュー人間検出ベンチマーク(VisDrone, Okutama-Action, ICG)で使用した場合よりも, 極めて精度が高いことが示された。

関連論文リスト

SIGMAN:Scaling 3D Human Gaussian Generation with Millions of Assets [72.26350984924129]
本稿では,3次元デジタル化のための潜在空間生成パラダイムを提案する。我々は,不適切な低次元から高次元のマッピング問題を学習可能な分布シフトに変換する。我々は、HGS-1Mデータセットを構築するために、合成データと組み合わせた多視点最適化アプローチを採用する。
論文参考訳（メタデータ） (2025-04-09T15:38:18Z)
PoseSyn: Synthesizing Diverse 3D Pose Data from In-the-Wild 2D Data [1.264462543503282]
PoseSynは、野生の2Dポーズデータセットから多様な3Dポーズイメージペアに変換する、新しいデータ合成フレームワークである。挑戦的なポーズと外観に合わせた人間のアニメーションモデルを通じて現実的な3Dトレーニングデータを生成することで、PoseSynはさまざまな3Dポーズ推定器の精度を最大14%向上させる。
論文参考訳（メタデータ） (2025-03-17T10:28:35Z)
Controllable Human Image Generation with Personalized Multi-Garments [46.042383679103125]
BootCompは、テキストから画像への拡散モデルに基づく新しいフレームワークである。本研究では,ヒトとマルチガーメントのペアからなる大規模な合成データセットを構築するためのデータ生成パイプラインを提案する。ファッションドメインにおいて、異なるタイプの参照ベース生成に適応することで、フレームワークの幅広い適用性を示す。
論文参考訳（メタデータ） (2024-11-25T12:37:13Z)
DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文参考訳（メタデータ） (2024-11-16T03:52:23Z)
GRPose: Learning Graph Relations for Human Image Generation with Pose Priors [21.971188335727074]
人間の画像生成のための制御情報を提供するために,ポーズ前のグラフ関係を探索するフレームワークを提案する。提案モデルでは,最新のベンチマークモデルと比較して,ポーズ平均精度が9.98%向上した。
論文参考訳（メタデータ） (2024-08-29T13:58:34Z)
StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文参考訳（メタデータ） (2024-07-30T04:57:21Z)
Hybrid 3D Human Pose Estimation with Monocular Video and Sparse IMUs [15.017274891943162]
モノクロビデオからの時間的3Dポーズ推定は、人間中心のコンピュータビジョンにおいて難しい課題である。情報ソースを補完するために慣性センサが導入された。物理的に合理的な3Dポーズを生成するために、異種センサデータを統合することは依然として困難である。
論文参考訳（メタデータ） (2024-04-27T09:02:42Z)
Dynamic Inertial Poser (DynaIP): Part-Based Motion Dynamics Learning for Enhanced Human Pose Estimation with Sparse Inertial Sensors [17.3834029178939]
本稿では,スパース慣性センサを用いた人間のポーズ推定手法を提案する。さまざまなスケルトンフォーマットからの多様な実慣性モーションキャプチャデータを活用して、動作の多様性とモデル一般化を改善する。このアプローチは、5つのパブリックデータセットにわたる最先端モデルよりも優れたパフォーマンスを示し、特にDIP-IMUデータセットのポーズエラーを19%削減する。
論文参考訳（メタデータ） (2023-12-02T13:17:10Z)
SynBody: Synthetic Dataset with Layered Human Models for 3D Human Perception and Modeling [93.60731530276911]
我々は3つの魅力的な特徴を持つ新しい合成データセット、SynBodyを紹介した。データセットは、正確な3Dアノテーションを備えた1.2Mイメージで構成され、1万の人体モデル、1,187のアクション、さまざまな視点をカバーしている。
論文参考訳（メタデータ） (2023-03-30T13:30:12Z)
Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文参考訳（メタデータ） (2023-03-28T10:48:33Z)
TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose Estimation [55.94900327396771]
合成データから6次元オブジェクトポーズ推定のためのニューラルネットワークによるテクスチャ学習を提案する。実画像からオブジェクトの現実的なテクスチャを予測することを学ぶ。画素完全合成データからポーズ推定を学習する。
論文参考訳（メタデータ） (2022-12-25T13:36:32Z)
Progressive Multi-view Human Mesh Recovery with Self-Supervision [68.60019434498703]
既存のソリューションは通常、新しい設定への一般化性能の低下に悩まされる。マルチビューヒューマンメッシュリカバリのためのシミュレーションに基づく新しいトレーニングパイプラインを提案する。
論文参考訳（メタデータ） (2022-12-10T06:28:29Z)
TIPS: Text-Induced Pose Synthesis [24.317541784957285]
コンピュータビジョンにおいて、人間のポーズ合成と伝達は、以前は目に見えないポーズで人の確率的画像生成を扱う。まず,現在のポーズ転送アルゴリズムの欠点を提示し,それらの問題に対処するための新しいテキストベースのポーズ転送手法を提案する。提案手法は,実験において有意な質的,定量的な結果が得られることを示す。
論文参考訳（メタデータ） (2022-07-24T11:14:46Z)
Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文参考訳（メタデータ） (2022-04-04T03:09:20Z)
Learned Spatial Representations for Few-shot Talking-Head Synthesis [68.3787368024951]
複数発話頭合成のための新しいアプローチを提案する。この異方性表現は,従来の手法よりも大幅に改善されることを示す。
論文参考訳（メタデータ） (2021-04-29T17:59:42Z)
PISE: Person Image Synthesis and Editing with Decoupled GAN [64.70360318367943]
人像合成と編集のための新しい二段階生成モデルであるPISEを提案する。ヒトのポーズ伝達では,まず対象のポーズに合わせた人間のパーシングマップを合成し,衣服の形状を表現する。衣服の形状とスタイルを分離するため,地域ごとの符号化と正規化を共同で提案する。
論文参考訳（メタデータ） (2021-03-06T04:32:06Z)
Pose-Guided Human Animation from a Single Image in the Wild [83.86903892201656]
身体ポーズのシーケンスによって制御される人の単一の画像から人間のアニメーションを合成するための新しいポーズ転送方法を提案する。既存のポーズ転送手法は、新しいシーンに適用する際に重要な視覚的アーティファクトを示す。我々は,シルエット,衣料ラベル,テクスチャを予測する合成ニューラルネットワークを設計した。我々は、テスト現場でネットワークを微調整することなく、時間的に一貫した方法で人物のアイデンティティと外観を保存できる人間のアニメーションを合成することができる。
論文参考訳（メタデータ） (2020-12-07T15:38:29Z)
Methodology for Building Synthetic Datasets with Virtual Humans [1.5556923898855324]
大規模なデータセットは、ディープニューラルネットワークの改善、ターゲットトレーニングに使用することができる。特に,100の合成IDからなるデータセットにまたがる複数の2次元画像のレンダリングに3次元形態素顔モデルを用いる。
論文参考訳（メタデータ） (2020-06-21T10:29:36Z)
Cascaded deep monocular 3D human pose estimation with evolutionary training data [76.3478675752847]
深層表現学習は単眼の3次元ポーズ推定において顕著な精度を達成した。本稿では,大量のトレーニングデータに対してスケーラブルな新しいデータ拡張手法を提案する。本手法は,先行知識に触発された階層的人体表現と合成に基づいて,未知の3次元人体骨格を合成する。
論文参考訳（メタデータ） (2020-06-14T03:09:52Z)
Adversarial Synthesis of Human Pose from Text [18.02001711736337]
この研究は、人間レベルのテキスト記述から人間のポーズを合成することに焦点を当てている。本稿では,条件付き生成逆数ネットワークに基づくモデルを提案する。定性的かつ定量的な結果から、与えられたテキストと一致する可視的なポーズを合成できることを示す。
論文参考訳（メタデータ） (2020-05-01T12:32:04Z)
Pose Manipulation with Identity Preservation [0.0]
本稿では,文字適応性正規化GAN(CainGAN)を提案する。 CainGANは特定の個人から顔の数字を受け取り、その人物の身元を保存しながら新しい顔を生成する。実験の結果, 生成画像の品質は, 推論時に使用する入力セットのサイズと一致していることがわかった。
論文参考訳（メタデータ） (2020-04-20T09:51:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。