論文の概要: Data Augmentation in Human-Centric Vision
- arxiv url: http://arxiv.org/abs/2403.08650v1
- Date: Wed, 13 Mar 2024 16:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-14 13:38:25.556903
- Title: Data Augmentation in Human-Centric Vision
- Title(参考訳): 人中心視におけるデータ拡張
- Authors: Wentao Jiang, Yige Zhang, Shaozhong Zheng, Si Liu, Shuicheng Yan
- Abstract要約: 本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析を行う。
それは、人物のReID、人間のパーシング、人間のポーズ推定、歩行者検出など、幅広い研究領域に展開している。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
- 参考スコア(独自算出の注目度): 54.97327269866757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This survey presents a comprehensive analysis of data augmentation techniques
in human-centric vision tasks, a first of its kind in the field. It delves into
a wide range of research areas including person ReID, human parsing, human pose
estimation, and pedestrian detection, addressing the significant challenges
posed by overfitting and limited training data in these domains. Our work
categorizes data augmentation methods into two main types: data generation and
data perturbation. Data generation covers techniques like graphic engine-based
generation, generative model-based generation, and data recombination, while
data perturbation is divided into image-level and human-level perturbations.
Each method is tailored to the unique requirements of human-centric tasks, with
some applicable across multiple areas. Our contributions include an extensive
literature review, providing deep insights into the influence of these
augmentation techniques in human-centric vision and highlighting the nuances of
each method. We also discuss open issues and future directions, such as the
integration of advanced generative models like Latent Diffusion Models, for
creating more realistic and diverse training data. This survey not only
encapsulates the current state of data augmentation in human-centric vision but
also charts a course for future research, aiming to develop more robust,
accurate, and efficient human-centric vision systems.
- Abstract(参考訳): 本研究では,人間中心型視覚タスクにおけるデータ拡張手法の包括的分析について述べる。
個人ReID、人間のパーシング、人間のポーズ推定、歩行者検出など幅広い研究分野に進出し、これらの領域における過度なトレーニングデータと限られたトレーニングデータによって引き起こされる重大な課題に対処する。
我々の研究は、データ拡張手法をデータ生成とデータ摂動の2つの主なタイプに分類する。
データ生成は、グラフィックエンジンベースの生成、生成モデルベースの生成、データ再結合のようなテクニックをカバーし、データ摂動は、画像レベルと人間レベルの摂動に分割される。
それぞれの方法は、複数の領域にまたがって適用可能な、人間中心のタスクのユニークな要件に合わせて調整される。
私たちのコントリビューションには、広範囲にわたる文献レビュー、人中心の視覚におけるこれらの拡張技術の影響に関する深い洞察、各手法のニュアンスを強調することが含まれる。
また、より現実的で多様なトレーニングデータを作成するために、潜在拡散モデルのような先進的な生成モデルの統合など、オープンな問題や今後の方向性についても論じる。
この調査は、人間中心のビジョンにおけるデータ拡張の現状をカプセル化しているだけでなく、より堅牢で正確で効率的な人中心のビジョンシステムを開発することを目的とした将来の研究のコースもグラフ化している。
関連論文リスト
- A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Deepfake Generation and Detection: A Benchmark and Survey [134.19054491600832]
Deepfakeは、特定の条件下で非常にリアルな顔画像やビデオを作成するための技術だ。
この調査は、ディープフェイクの発生と検出の最新の展開を包括的にレビューする。
本研究では, 顔交換, 顔再現, 話し顔生成, 顔属性編集の4つの代表的なディープフェイク分野の研究に焦点をあてる。
論文 参考訳(メタデータ) (2024-03-26T17:12:34Z) - A Survey on Data Augmentation in Large Model Era [16.05117556207015]
大きな言語と拡散モデルを含む大きなモデルは、人間レベルの知能を近似する上で非常に有望である。
これらのモデルへの継続的な更新により、既存の高品質なデータの貯水池はすぐに枯渇する可能性がある。
本稿では,大規模モデル駆動型データ拡張手法について概観する。
論文 参考訳(メタデータ) (2024-01-27T14:19:33Z) - Comprehensive Exploration of Synthetic Data Generation: A Survey [4.485401662312072]
この研究は、過去10年間で417のSynthetic Data Generationモデルを調査します。
その結果、ニューラルネットワークベースのアプローチが普及し、モデルのパフォーマンスと複雑性が向上したことが明らかになった。
コンピュータビジョンが支配的であり、GANが主要な生成モデルであり、拡散モデル、トランスフォーマー、RNNが競合する。
論文 参考訳(メタデータ) (2024-01-04T20:23:51Z) - A Survey on Computer Vision based Human Analysis in the COVID-19 Era [58.79053747159797]
新型コロナウイルスの出現は、社会全体だけでなく、個人の生活にも大きく影響している。
マスクやソーシャルディスタンシングの義務、公共空間での定期消毒、スクリーニングアプリケーションの使用など、さまざまな予防策が世界中で導入されている。
これらの発展は、(i)視覚データの自動解析による予防対策の支援、(ii)生体認証などの既存の視覚ベースのサービスの正常な操作を容易にする、新しいコンピュータビジョン技術の必要性を喚起した。
論文 参考訳(メタデータ) (2022-11-07T17:20:39Z) - Synthetic Data in Human Analysis: A Survey [16.562921709882865]
調査は、人間分析の分野の研究者や実践者を対象としている。
我々は,現在最先端の手法と合成データの利用の主な利点を要約した調査を行う。
また、利用可能な合成データセットと生成モデルの概要も提供する。
論文 参考訳(メタデータ) (2022-08-19T07:32:34Z) - StyleGAN-Human: A Data-Centric Odyssey of Human Generation [96.7080874757475]
この研究は、データ中心の観点から、"データエンジニアリング"における複数の重要な側面を調査します。
さまざまなポーズやテクスチャを抽出した230万以上のサンプルで、大規模な人間の画像データセットを収集し、注釈付けします。
本稿では,データサイズ,データ分布,データアライメントといった,スタイルGANに基づく人為的生成のためのデータ工学における3つの重要な要素について精査する。
論文 参考訳(メタデータ) (2022-04-25T17:55:08Z) - Unsupervised Human Pose Estimation through Transforming Shape Templates [2.729524133721473]
本研究では,成人および乳幼児のポーズ推定を教師なしで学習するための新しい手法を提案する。
成人と幼児を含む2つの異なるデータセットに対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2021-05-10T07:15:56Z) - Deep Learning-Based Human Pose Estimation: A Survey [66.01917727294163]
人間のポーズ推定は、過去10年間に注目を集めてきた。
ヒューマン・コンピュータ・インタラクション、モーション・アナリティクス、拡張現実、バーチャル・リアリティーなど幅広い用途で利用されている。
最近のディープラーニングベースのソリューションは、人間のポーズ推定において高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2020-12-24T18:49:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。