論文の概要: A Real-Calibrated Synthetic-First Data Engine
- arxiv url: http://arxiv.org/abs/2605.09699v1
- Date: Sun, 10 May 2026 18:34:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.378893
- Title: A Real-Calibrated Synthetic-First Data Engine
- Title(参考訳): 実キャリブレーション型合成第一データエンジン
- Authors: Yukang Shen,
- Abstract要約: Real-Calibrated Synthetic-First Data Engineは、コントロール可能な拡散生成と、統一パイプライン内でのマルチステージキュレーション/フィルタリングを組み合わせた、モジュラーデータエンジニアリングフレームワークである。
合成データを用いて, 実際のアンカーに付随して, ほぼゼロの人為的アノテーションによる拡張を行うと, 実際のデータベースラインが向上する一方で, 合成専用トレーニングは実データのみの性能よりもかなり低いままであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern computer vision systems increasingly encounter performance limitations in data-scarce domains, where collecting large-scale, high-quality labeled data is costly or impractical. While controllable diffusion models enable scalable synthetic image generation, directly applying synthetic augmentation often leads to unstable performance gains due to dataset-level quality issues and insufficient feedback mechanisms. In this work, we present a Real-Calibrated Synthetic-First Data Engine, a modular data engineering framework that combines controllable diffusion generation and multi-stage curation/filtering within a unified pipeline, with optional support for uncertainty-driven selection and human verification. Instead of introducing new generative algorithms, our approach focuses on systematic dataset construction for improving the practical reliability of synthetic augmentation in low-data regimes. The framework is implemented as a modular CLI-based pipeline, where generation, filtering, selection, and validation components can be independently configured and replaced. This design emphasizes reproducibility, flexibility, and practical deployment in real-world data workflows. Through empirical evaluation centered on human pose estimation, we show that synthetic data improves a real-data baseline when used as near-zero-human-annotation-cost augmentation alongside real anchors, while synthetic-only training remains substantially below real-only performance. Supplementary segmentation diagnostics show the same domain-gap pattern. These results highlight the practical value of data-centric orchestration for low-data augmentation.
- Abstract(参考訳): 現代のコンピュータビジョンシステムは、大規模で高品質なラベル付きデータの収集がコストがかかるか実用的でないような、データスカース領域のパフォーマンス制限に直面している。
制御可能な拡散モデルはスケーラブルな合成画像生成を可能にするが、データセットレベルの品質問題と不十分なフィードバック機構により、直接合成拡張を適用すると、しばしば不安定なパフォーマンス向上につながる。
本研究では、制御可能な拡散生成と統合パイプライン内の多段階キュレーション/フィルタリングを組み合わせたモジュラーデータエンジニアリングフレームワークであるReal-Calibrated Synthetic-First Data Engineについて、不確実性駆動の選択と人間の検証をオプションでサポートする。
提案手法は、新しい生成アルゴリズムを導入する代わりに、低データ体制における合成強化の実用的信頼性を向上させるための体系的なデータセット構築に焦点を当てる。
フレームワークはモジュール型のCLIベースのパイプラインとして実装されており、生成、フィルタリング、選択、バリデーションコンポーネントを独立して設定し、置き換えることができる。
この設計は、実世界のデータワークフローにおける再現性、柔軟性、実践的なデプロイメントを強調している。
人間のポーズ推定を中心とした経験的評価を通じて、合成データは実際のアンカーと並んで、ほぼゼロに近い人的アノテーションコストの増大として使用される場合、実際のデータベースラインを改善する一方で、合成のみのトレーニングは、実際にのみのパフォーマンスよりもかなり低いままであることを示す。
補助的セグメンテーション診断は、同じドメインギャップパターンを示す。
これらの結果は、低データ拡張のためのデータ中心オーケストレーションの実践的価値を強調している。
関連論文リスト
- A Style-Based Profiling Framework for Quantifying the Synthetic-to-Real Gap in Autonomous Driving Datasets [9.788200709163064]
本稿では,合成データセットと実画像データセットの両方に基づくスタイルプロファイルを特徴付けるためのプロファイル抽出と発見フレームワークを提案する。
本フレームワークは,グラム行列に基づくスタイル抽出と,クラス内コンパクト性とクラス間分離に最適化されたメトリック学習を組み合わせて,スタイル埋め込みを抽出する。
論文 参考訳(メタデータ) (2025-10-11T13:09:41Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。
合成データがモデル一般化をどのように改善するかを批判的に検討する。
本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文 参考訳(メタデータ) (2025-09-07T19:28:52Z) - Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。
我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。
以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2025-05-06T07:57:16Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。