論文の概要: Exploring the Role of Synthetic Data Augmentation in Controllable Human-Centric Video Generation
- arxiv url: http://arxiv.org/abs/2604.21291v1
- Date: Thu, 23 Apr 2026 05:10:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.317803
- Title: Exploring the Role of Synthetic Data Augmentation in Controllable Human-Centric Video Generation
- Title(参考訳): 制御可能な人中心映像生成における合成データ拡張の役割を探る
- Authors: Yuanchen Fei, Yude Zou, Zejian Kang, Ming Li, Jiaying Zhou, Xiangru Huang,
- Abstract要約: コントロール可能な人間のビデオ生成は、明確に誘導された動きと外観を持つ人間のリアルなビデオを作成することを目的としている。
合成データはスケーラブルで制御可能な代替手段を提供する。
本研究では,ヒト中心のビデオ合成における合成データの役割を包括的に調査する。
- 参考スコア(独自算出の注目度): 9.875136212706165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Controllable human video generation aims to produce realistic videos of humans with explicitly guided motions and appearances,serving as a foundation for digital humans, animation, and embodied AI.However, the scarcity of largescale, diverse, and privacy safe human video datasets poses a major bottleneck, especially for rare identities and complex actions.Synthetic data provides a scalable and controllable alternative,yet its actual contribution to generative modeling remains underexplored due to the persistent Sim2Real gap.In this work,we systematically investigate the impact of synthetic data on controllable human video generation. We propose a diffusion-based framework that enables fine-grained control over appearance and motion while providing a unfied testbed to analyze how synthetic data interacts with real world data during training. Through extensive experiments, we reveal the complementary roles of synthetic and real data and demonstrate possible methods for efficiently selecting synthetic samples to enhance motion realism,temporal consistency,and identity preservation.Our study offers the first comprehensive exploration of synthetic data's role in human-centric video synthesis and provides practical insights for building data-efficient and generalizable generative models.
- Abstract(参考訳): 制御可能な人的ビデオ生成は、デジタル人間、アニメーション、エンボディドAIの基礎として、明確に誘導された動きと外観を持つ人間の現実的なビデオを作成することを目的としている。しかしながら、大規模で多様な、プライバシーの安全な人的ビデオデータセットの不足は、特に稀なアイデンティティと複雑なアクションのために、大きなボトルネックとなる。合成データは、スケーラブルで制御可能な代替手段を提供するが、その生成モデルへの実際の貢献は、永続的なSim2Realギャップにより未解明のままである。この研究は、制御可能な人的ビデオ生成に対する合成データの影響を体系的に調査する。
本研究では,学習中に合成データが実世界のデータとどのように相互作用するかを解析する未完成なテストベッドを提供しながら,外観や動きのきめ細かい制御を可能にする拡散型フレームワークを提案する。
広範にわたる実験により, 合成データと実データの相補的役割を明らかにし, 動きリアリズム, 時間的整合性, アイデンティティの保存性を高めるために, 効率的な合成サンプルの選択方法を示すとともに, 人間の中心的なビデオ合成における合成データの役割を包括的に探求し, データ効率と一般化可能な生成モデルを構築するための実践的な洞察を提供する。
関連論文リスト
- Prompt-to-Gesture: Measuring the Capabilities of Image-to-Video Deictic Gesture Generation [8.9657942429828]
近年の映像と映像の基盤モデルの発展により、自然言語でガイドされた写真リアリスティックで意味的にリッチなビデオの生成が可能になった。
これらの能力は、労力のない合成データを作成する新しい可能性を開く。
本稿では,現実的なディスティック・ジェスチャ・データセットを構築するために,プロンプトベースの映像生成を導入・解析する。
論文 参考訳(メタデータ) (2026-04-16T12:52:12Z) - AnchorDream: Repurposing Video Diffusion for Embodiment-Aware Robot Data Synthesis [33.90053396451562]
AnchorDreamは、ロボットデータ合成のための事前学習されたビデオ拡散モデルを再利用した、エンボディメントを意識した世界モデルである。
本手法は,環境モデリングを必要とせず,大規模で多様な高品質なデータセットにスケールする。
実験の結果、生成されたデータは下流の政策学習において一貫した改善をもたらし、シミュレータのベンチマークでは36.4%、現実世界の研究ではほぼ2倍の性能を示した。
論文 参考訳(メタデータ) (2025-12-12T18:59:45Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。
合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。
その結果, 提案手法の有効性と合成データの有効性が検証された。
論文 参考訳(メタデータ) (2024-10-13T14:58:21Z) - Scaling Up Dynamic Human-Scene Interaction Modeling [58.032368564071895]
TRUMANSは、現在利用可能な最も包括的なモーションキャプチャーHSIデータセットである。
人体全体の動きや部分レベルの物体の動きを複雑に捉えます。
本研究では,任意の長さのHSI配列を効率的に生成する拡散型自己回帰モデルを提案する。
論文 参考訳(メタデータ) (2024-03-13T15:45:04Z) - Training Robust Deep Physiological Measurement Models with Synthetic
Video-based Data [11.31971398273479]
合成生理的信号とそれに対応する顔画像に現実の雑音を加える方法を提案する。
その結果,MAEの平均値は6.9から2.0に減少した。
論文 参考訳(メタデータ) (2023-11-09T13:55:45Z) - Synthetic-to-Real Domain Adaptation for Action Recognition: A Dataset and Baseline Performances [76.34037366117234]
ロボット制御ジェスチャー(RoCoG-v2)と呼ばれる新しいデータセットを導入する。
データセットは7つのジェスチャークラスの実ビデオと合成ビデオの両方で構成されている。
我々は,最先端の行動認識とドメイン適応アルゴリズムを用いて結果を示す。
論文 参考訳(メタデータ) (2023-03-17T23:23:55Z) - Procedural Humans for Computer Vision [1.9550079119934403]
顔と身体のパラメトリックなモデルを構築し,このモデルに基づいて人間の現実的な画像を生成する。
本研究は,Wood et al. のパイプライン上に構築し,人体全体の合成画像を生成することにより,全体を含むように拡張可能であることを示す。
論文 参考訳(メタデータ) (2023-01-03T15:44:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。