論文の概要: Toward Human Understanding with Controllable Synthesis
- arxiv url: http://arxiv.org/abs/2411.08663v1
- Date: Wed, 13 Nov 2024 14:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 16:11:05.405679
- Title: Toward Human Understanding with Controllable Synthesis
- Title(参考訳): 制御可能な合成による人間の理解に向けて
- Authors: Hanz Cuevas-Velasquez, Priyanka Patel, Haiwen Feng, Michael Black,
- Abstract要約: 頑健な3次元人間のポーズと形状推定を行うための訓練方法は、正確な基底真理を持つ多様な訓練画像を必要とする。
BEDLAMはそのようなデータを生成する従来の手続き型グラフィックスの可能性を示しているが、トレーニング画像は明らかに合成されている。
対照的に、生成的画像モデルは非常に現実的な画像を生成するが、真実は得られない。
- 参考スコア(独自算出の注目度): 3.6579002555961915
- License:
- Abstract: Training methods to perform robust 3D human pose and shape (HPS) estimation requires diverse training images with accurate ground truth. While BEDLAM demonstrates the potential of traditional procedural graphics to generate such data, the training images are clearly synthetic. In contrast, generative image models produce highly realistic images but without ground truth. Putting these methods together seems straightforward: use a generative model with the body ground truth as controlling signal. However, we find that, the more realistic the generated images, the more they deviate from the ground truth, making them inappropriate for training and evaluation. Enhancements of realistic details, such as clothing and facial expressions, can lead to subtle yet significant deviations from the ground truth, potentially misleading training models. We empirically verify that this misalignment causes the accuracy of HPS networks to decline when trained with generated images. To address this, we design a controllable synthesis method that effectively balances image realism with precise ground truth. We use this to create the Generative BEDLAM (Gen-B) dataset, which improves the realism of the existing synthetic BEDLAM dataset while preserving ground truth accuracy. We perform extensive experiments, with various noise-conditioning strategies, to evaluate the tradeoff between visual realism and HPS accuracy. We show, for the first time, that generative image models can be controlled by traditional graphics methods to produce training data that increases the accuracy of HPS methods.
- Abstract(参考訳): 頑健な3次元人間のポーズと形状(HPS)推定を行うための訓練方法は、正確な基底真理を持つ多様な訓練画像を必要とする。
BEDLAMはそのようなデータを生成する従来の手続き型グラフィックスの可能性を示しているが、トレーニング画像は明らかに合成されている。
対照的に、生成的画像モデルは非常に現実的な画像を生成するが、真実は得られない。
ボディグラウンドの真実を制御信号として生成モデルを使用すること。
しかし、生成した画像がよりリアルになればなるほど、それらは基礎的な真実から逸脱し、訓練や評価に不適当になる。
衣服や表情などの現実的な詳細の強化は、基礎的な真実から微妙ながら重要な逸脱を招き、トレーニングモデルが誤解を招く可能性がある。
我々は,この誤りがHPSネットワークの精度低下を引き起こすことを実証的に検証した。
そこで本研究では,画像リアリズムと正確な地上真実のバランスを効果的に整える制御可能な合成法の設計を行う。
我々はこの手法を用いて生成BEDLAM(Gen-B)データセットを作成する。
我々は、視覚リアリズムとHPS精度のトレードオフを評価するために、様々なノイズ調和戦略による広範な実験を行う。
我々は,HPS手法の精度を高めるトレーニングデータを生成するために,生成画像モデルを従来のグラフィックス手法で制御できることを初めて示す。
関連論文リスト
- Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - VR-based generation of photorealistic synthetic data for training
hand-object tracking models [0.0]
ブレンダー・ホアシンス (blender-hoisynth) は、ブレンダーソフトウェアに基づくインタラクティブな合成データ生成装置である。
ユーザーは標準のバーチャルリアリティハードウェアを使用して、仮想手でオブジェクトと対話することができる。
私たちは、よく知られたDexYCBデータセットのトレーニングデータの大部分をホアシンスデータに置き換え、最先端のHOI再構築モデルをトレーニングします。
論文 参考訳(メタデータ) (2024-01-31T14:32:56Z) - PUG: Photorealistic and Semantically Controllable Synthetic Data for
Representation Learning [31.81199165450692]
制御性とリアリズムを両立する表現学習研究のための対話型環境を新たに提案する。
エンターテイメント業界で有名な強力なゲームエンジンであるUnreal Engineを使用して、表現学習のためのPUG環境とデータセットを生成します。
論文 参考訳(メタデータ) (2023-08-08T01:33:13Z) - BEDLAM: A Synthetic Dataset of Bodies Exhibiting Detailed Lifelike
Animated Motion [52.11972919802401]
合成データのみに基づいてトレーニングされたニューラルネットワークは、実際の画像から3次元人間のポーズと形状推定の問題に対して最先端の精度が得られることを示す。
以前の合成データセットは小さく、非現実的で、現実的な衣服が欠けていた。
論文 参考訳(メタデータ) (2023-06-29T13:35:16Z) - TexPose: Neural Texture Learning for Self-Supervised 6D Object Pose
Estimation [55.94900327396771]
合成データから6次元オブジェクトポーズ推定のためのニューラルネットワークによるテクスチャ学習を提案する。
実画像からオブジェクトの現実的なテクスチャを予測することを学ぶ。
画素完全合成データからポーズ推定を学習する。
論文 参考訳(メタデータ) (2022-12-25T13:36:32Z) - Synthetic Image Data for Deep Learning [0.294944680995069]
3次元モデルからレンダリングされたリアルな合成画像データを使用して、画像集合を拡大し、画像分類セグメンテーションモデルを訓練することができる。
実車の生産3次元CADモデルに基づく大規模合成データセットを,高品質な物理ベースレンダリングとドメインランダム化により効率的に作成できることを示す。
論文 参考訳(メタデータ) (2022-12-12T20:28:13Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - High Resolution Zero-Shot Domain Adaptation of Synthetically Rendered
Face Images [10.03187850132035]
本稿では,非フォトリアリスティックな合成画像と事前学習したStyleGAN2モデルの潜在ベクトルとをマッチングするアルゴリズムを提案する。
これまでのほとんどの研究とは対照的に、私たちは合成トレーニングデータを必要としない。
このアルゴリズムは、1Kの解像度で作業する最初のアルゴリズムであり、視覚リアリズムにおける大きな飛躍を表している。
論文 参考訳(メタデータ) (2020-06-26T15:00:04Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。