論文の概要: Enhancing Domain Generalization in 3D Human Pose Estimation through Controllable Generative Augmentation
- arxiv url: http://arxiv.org/abs/2605.12198v1
- Date: Tue, 12 May 2026 14:37:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 21:48:56.930882
- Title: Enhancing Domain Generalization in 3D Human Pose Estimation through Controllable Generative Augmentation
- Title(参考訳): 制御可能な生成拡張による3次元人物位置推定における領域一般化の促進
- Authors: Xinhao Hu, Yiyi Zhang, Liqing Zhang, Jianfu Zhang,
- Abstract要約: 本研究は、さまざまなポーズ、背景、カメラ視点によって多様な映像データを合成する、制御可能なヒューマンポーズ生成フレームワークを提案する。
屋内/現実世界と屋外/仮想両方のデータセットを活用することで、クロスドメインデータ融合と制御可能なビデオ生成を行い、リッチなトレーニングデータを構築する。
実験によると、拡張データセットは、目に見えないシナリオやデータセットのモデルパフォーマンスを著しく改善する。
- 参考スコア(独自算出の注目度): 13.829719029607459
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Pedestrian motion, due to its causal nature, is strongly influenced by domain gaps arising from discrepancies between training and testing data distributions. Focusing on 3D human pose estimation, this work presents a controllable human pose generation framework that synthesizes diverse video data by systematically varying poses, backgrounds, and camera viewpoints. This generative augmentation enriches training datasets, enhances model generalization, and alleviates the limitations of existing methods in handling domain discrepancies. By leveraging both indoor/real-world and outdoor/virtual datasets, we perform cross-domain data fusion and controllable video generation to construct enriched training data, tailored to realistic deployment settings. Extensive experiments show that the augmented datasets significantly improve model performance on unseen scenarios and datasets, validating the effectiveness of the proposed approach.
- Abstract(参考訳): 歩行者の動きは、その因果性から、データ分布のトレーニングとテストの相違から生じる領域ギャップに強く影響されている。
本研究は,3次元人間のポーズ推定に着目し,さまざまなポーズ,背景,カメラの視点を体系的に変化させることで,多様な映像データを合成する制御可能なヒューマンポーズ生成フレームワークを提案する。
この生成拡張は、トレーニングデータセットを強化し、モデルの一般化を強化し、ドメインの不一致を扱う既存のメソッドの制限を軽減する。
屋内/現実世界と屋外/仮想両方のデータセットを活用することで、クロスドメインデータフュージョンと制御可能なビデオ生成を実行し、リッチなトレーニングデータを構築し、現実的なデプロイメント設定に合わせて調整します。
大規模な実験により、拡張データセットは未確認シナリオやデータセットのモデル性能を大幅に改善し、提案手法の有効性を検証した。
関連論文リスト
- R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation [54.09384502044162]
大規模な3D HOIベンチマークであるInterActを導入する。
まず、さまざまなソースから21.81時間のHOIデータを統合し、標準化し、詳細なテキストアノテーションで強化する。
第2に、アーティファクトの削減と手の動きの修正によりデータ品質を向上させる統一的な最適化フレームワークを提案する。
第3に,6つのベンチマークタスクを定義し,HOI生成モデリングの視点を統一し,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-09-11T15:43:54Z) - Self-Supervised Pre-training with Combined Datasets for 3D Perception in Autonomous Driving [46.24100810736637]
我々は、ラベルのないデータから効果的な3D表現をスクラッチから学習する自己教師付き事前学習フレームワークを導入する。
このアプローチは、3Dオブジェクト検出、BEVセグメンテーション、3Dオブジェクトトラッキング、占有率予測などの下流タスクにおけるモデルパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2025-04-17T07:26:11Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Enhancing Generalizability of Representation Learning for Data-Efficient 3D Scene Understanding [50.448520056844885]
本研究では,実世界のパターンを持つ多様な合成シーンを生成可能なベイズネットワークを提案する。
一連の実験は、既存の最先端の事前学習手法に比べて、我々の手法が一貫した優位性を示す。
論文 参考訳(メタデータ) (2024-06-17T07:43:53Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Domain-Adaptive Full-Face Gaze Estimation via Novel-View-Synthesis and Feature Disentanglement [12.857137513211866]
本稿では、教師なしドメイン適応のためのトレーニングデータ合成と視線推定モデルからなる効果的なモデルトレーニングパイプラインを提案する。
提案したデータ合成は、単一画像の3D再構成を利用して、3次元の顔形状データセットを必要とせずに、ソース領域から頭部ポーズの範囲を広げる。
本稿では、視線関連特徴を分離し、背景アグリゲーション整合性損失を導入し、合成音源領域の特性を生かしたディエンタングリングオートエンコーダネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:15:03Z) - Phased Data Augmentation for Training a Likelihood-Based Generative Model with Limited Data [0.0]
生成モデルは現実的なイメージの作成に優れていますが、トレーニングのための広範なデータセットに依存しているため、大きな課題があります。
現在のデータ効率の手法はGANアーキテクチャに重点を置いており、他の生成モデルの訓練にギャップを残している。
位相データ拡張(phased data augmentation)は、このギャップに対処する新しい手法であり、データ分散に固有の変更を加えることなく、限られたデータシナリオでのトレーニングを最適化する。
論文 参考訳(メタデータ) (2023-05-22T03:38:59Z) - Synthetic-to-Real Domain Generalized Semantic Segmentation for 3D Indoor
Point Clouds [69.64240235315864]
本稿では,本課題に対して,合成-実領域一般化設定を提案する。
合成と実世界のポイントクラウドデータのドメインギャップは、主に異なるレイアウトとポイントパターンにあります。
CINMixとMulti-prototypeの両方が分配ギャップを狭めることを示した。
論文 参考訳(メタデータ) (2022-12-09T05:07:43Z) - Domain Adaptive 3D Pose Augmentation for In-the-wild Human Mesh Recovery [32.73513554145019]
Domain Adaptive 3D Pose Augmentation (DAPA)は、Wildのシナリオにおけるモデルの一般化能力を向上するデータ拡張手法である。
DAPAによる微調整が3DPWとAGORAのベンチマークの結果を効果的に改善できることを定量的に示す。
論文 参考訳(メタデータ) (2022-06-21T15:02:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。