論文の概要: Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation
- arxiv url: http://arxiv.org/abs/2603.02598v1
- Date: Tue, 03 Mar 2026 04:50:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.640386
- Title: Synthetic-Child: An AIGC-Based Synthetic Data Pipeline for Privacy-Preserving Child Posture Estimation
- Title(参考訳): Synthetic-Child:プライバシ保護型児童姿勢推定のためのAIGCベースの合成データパイプライン
- Authors: Taowen Zeng,
- Abstract要約: Synthetic-Child(シンセティック・チルド)は、児童姿勢訓練用の画像を生成する合成データパイプラインである。
本システムでは,テスト対象のカテゴリの認識率を大幅に向上し,平均1.8倍の速度で応答する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate child posture estimation is critical for AI-powered study companion devices, yet collecting large-scale annotated datasets of children is both expensive and ethically prohibitive due to privacy concerns. We present Synthetic-Child, an AIGC-based synthetic data pipeline that produces photorealistic child posture training images with ground-truth-projected keypoint annotations, requiring zero real child photographs. The pipeline comprises four stages: (1) a programmable 3D child body model (SMPL-X) in Blender generates diverse desk-study poses with IK-constrained anatomical plausibility and automatic COCO-format ground-truth export; (2) a custom PoseInjectorNode feeds 3D-derived skeletons into a dual ControlNet (pose + depth) conditioned on FLUX-1 Dev, synthesizing 12,000 photorealistic images across 10 posture categories with low annotation drift; (3) ViTPose-based confidence filtering and targeted augmentation remove generation failures and improve robustness; (4) RTMPose-M (13.6M params) is fine-tuned on the synthetic data and paired with geometric feature engineering and a lightweight MLP for posture classification, then quantized to INT8 for real-time edge deployment. On a real-child test set (n~300), the FP16 model achieves 71.2 AP -- a +12.5 AP improvement over the COCO-pretrained adult-data baseline at identical model capacity. After INT8 quantization the model retains 70.4 AP while running at 22 FPS on a 0.8-TOPS Rockchip RK3568 NPU. In a single-subject controlled comparison with a commercial posture corrector, our system achieves substantially higher recognition rates across most tested categories and responds ~1.8x faster on average. These results demonstrate that carefully designed AIGC pipelines can substantially reduce dependence on real child imagery while achieving deployment-ready accuracy, with potential applications to other privacy-sensitive domains.
- Abstract(参考訳): 子どもの正確な姿勢推定はAIによる学習補助装置にとって重要であるが、子どもの大規模な注釈付きデータセットの収集は、プライバシー上の懸念から高価で倫理的に禁じられている。
本稿では,AIGCをベースとした合成データパイプラインであるSynthetic-Childについて述べる。
パイプラインは、(1)Blenderのプログラム可能な3D子体モデル(SMPL-X)は、IK制約された解剖学的可塑性と自動COCOフォーマットの地層構造による多様なデスクスタディのポーズを生成する(2)FLUX-1 Devで条件付けられた2重制御ネットに3D由来の骨格を供給し、低アノテーションドリフトで10の姿勢カテゴリにわたって12,000枚の光現実像を合成し、(3)ViTPoseベースの信頼度フィルタリングとターゲット増強による生成障害の除去と堅牢性の改善、(4)RTMPose-M (13.6M params)は、合成データに基づいて微調整され、幾何学的手法と組み合わせて、MLP8の量子化のための軽量な機能と、リアルタイムデプロイメントのための定量化のために、M8.8.8のエッジデプロイメントのための定量化のために、MLP8の量子化のための量子化のために、MLPとM8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8 .8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8 .8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8 .8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8.8 .8.8.8.8.8.8.8.
実子テストセット(n~300)では、FP16モデルが71.2 AP -- COCOが推奨するアダルトデータベースラインを同じモデルキャパシティで+12.5 AP改善 -- を達成した。
INT8量子化後、モデルは、0.8TPSのRockchip RK3568 NPU上で22FPSで動作する間、70.4APを保持する。
市販の姿勢補正器と比較した単目的制御比較では,テスト対象のほとんどのカテゴリーで認識率が大幅に向上し,平均で約1.8倍高速に応答する。
これらの結果は、慎重に設計されたAIGCパイプラインが、デプロイ可能な精度を達成しつつ、実際の子供のイメージへの依存を大幅に低減し、他のプライバシに敏感なドメインへの潜在的な適用を可能にすることを示している。
関連論文リスト
- Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - UniSH: Unifying Scene and Human Reconstruction in a Feed-Forward Pass [83.7071371474926]
UniSHは、統合されたフィードフォワードフレームワークで、共同でメートルスケールの3Dシーンと人間の再構築を行う。
我々のフレームワークは、シーン再構築とHMRとの違いを強く橋渡しします。
本モデルは,人間中心のシーン再構築における最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-01-03T16:06:27Z) - High-Quality Proposal Encoding and Cascade Denoising for Imaginary Supervised Object Detection [20.075203668387136]
既存の物体検出手法は、単純なプロンプト、画質の低下、監督の弱さに悩まされている。
これらの制約に対処するためにカスケードHQP-DETRを提案する。
まず,LLaMA-3, Flux, Grounding DINO を用いた高品質なデータパイプラインを導入し,FluxVOC と FluxCOCO のデータセットを生成する。
第二に、私たちのHigh-Quality Proposalは、SAM生成された提案から、画像固有のプリミティブを持つオブジェクトクエリを符号化するクエリをガイドします。
第三に、我々のカスケード復調アルゴリズムは、デコーダ層をまたいだIoU閾値を徐々に増加させ、トレーニングウェイトを動的に調整する。
論文 参考訳(メタデータ) (2025-11-11T09:19:56Z) - BlendCLIP: Bridging Synthetic and Real Domains for Zero-Shot 3D Object Classification with Multimodal Pretraining [2.400704807305413]
ゼロショットの3Dオブジェクト分類は、自動運転のような現実世界のアプリケーションには不可欠だ。
トレーニングに使用される合成データと、現実世界で遭遇するノイズの多いLiDARスキャンとの間の大きな領域ギャップによって、しばしば妨げられる。
BlendCLIPは、両ドメインの強みを戦略的に組み合わせることで、この合成と現実のギャップを橋渡しするマルチモーダル事前学習フレームワークである。
論文 参考訳(メタデータ) (2025-10-21T03:08:27Z) - Beyond 'Templates': Category-Agnostic Object Pose, Size, and Shape Estimation from a Single View [69.6117755984012]
物体の6Dポーズ、サイズ、形状を視覚入力から推定することは、コンピュータビジョンの基本的な問題である。
一つのRGB-D画像から6次元のポーズ,サイズ,密な形状を同時に予測する統合されたカテゴリ非依存フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T17:49:15Z) - Zero-shot Inexact CAD Model Alignment from a Single Image [53.37898107159792]
1つの画像から3Dシーン構造を推測する実践的なアプローチは、データベースから密に一致する3Dモデルを検索し、画像内のオブジェクトと整列させることである。
既存のメソッドは、イメージによる教師付きトレーニングとアノテーションのポーズに依存しており、オブジェクトカテゴリの狭いセットに制限されている。
ポーズアノテーションを必要とせず、未知のカテゴリに一般化する不正確な3次元モデルの弱い教師付き9-DoFアライメント法を提案する。
論文 参考訳(メタデータ) (2025-07-04T04:46:59Z) - CO-SPY: Combining Semantic and Pixel Features to Detect Synthetic Images by AI [58.35348718345307]
実際の画像とAI生成画像を区別する現在の取り組みには、一般化が欠如している可能性がある。
既存のセマンティック機能を強化した新しいフレームワークCo-Spyを提案する。
また、5つの実画像データセットと22の最先端生成モデルからなる包括的データセットであるCo-Spy-Benchを作成します。
論文 参考訳(メタデータ) (2025-03-24T01:59:29Z) - Multimodal Feature-Driven Deep Learning for the Prediction of Duck Body Dimensions and Weight [12.125067563652257]
本研究では、異なるビュー、深度画像、および3D点雲からのマルチモーダルデータ2D RGB画像を活用する革新的な深層学習モデルを提案する。
姿勢や条件の異なる5,000以上のサンプルからなる1,023羽のLinwuアヒルのデータセットを収集し、モデルトレーニングを支援した。
このモデルは平均絶対パーセンテージ誤差(MAPE)が6.33%、R2が0.953で8つの形態パラメータで達成され、強い予測能力を示した。
論文 参考訳(メタデータ) (2025-03-18T08:09:19Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Unsupervised Domain Adaptation Learning for Hierarchical Infant Pose
Recognition with Synthetic Data [28.729049747477085]
幼児の画像を入力とし、粗いポーズラベルと細かなポーズラベルを予測するCNNベースのモデルを提案する。
実験の結果,提案手法は,合成および実世界のデータセットの分布を著しく整合させることができることがわかった。
論文 参考訳(メタデータ) (2022-05-04T04:59:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。