論文の概要: Understanding Trade offs When Conditioning Synthetic Data
- arxiv url: http://arxiv.org/abs/2507.02217v1
- Date: Thu, 03 Jul 2025 00:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:15.381882
- Title: Understanding Trade offs When Conditioning Synthetic Data
- Title(参考訳): 合成データの条件付けにおけるトレードオフの理解
- Authors: Brandon Trabucco, Qasim Wani, Benjamin Pikus, Vasu Sharma,
- Abstract要約: 少数の画像から頑丈な物体検出器を学習することは、産業用視覚システムにおいて重要な課題である。
現在のパイプラインはBlenderやUnrealといった3Dエンジンに依存している。
拡散モデルは、数分で高品質な画像を生成することができるため、ステップ変更を約束するが、特に低データでは、正確な制御は難しいままである。
- 参考スコア(独自算出の注目度): 4.263496638681421
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning robust object detectors from only a handful of images is a critical challenge in industrial vision systems, where collecting high quality training data can take months. Synthetic data has emerged as a key solution for data efficient visual inspection and pick and place robotics. Current pipelines rely on 3D engines such as Blender or Unreal, which offer fine control but still require weeks to render a small dataset, and the resulting images often suffer from a large gap between simulation and reality. Diffusion models promise a step change because they can generate high quality images in minutes, yet precise control, especially in low data regimes, remains difficult. Although many adapters now extend diffusion beyond plain text prompts, the effect of different conditioning schemes on synthetic data quality is poorly understood. We study eighty diverse visual concepts drawn from four standard object detection benchmarks and compare two conditioning strategies: prompt based and layout based. When the set of conditioning cues is narrow, prompt conditioning yields higher quality synthetic data; as diversity grows, layout conditioning becomes superior. When layout cues match the full training distribution, synthetic data raises mean average precision by an average of thirty four percent and by as much as one hundred seventy seven percent compared with using real data alone.
- Abstract(参考訳): 少数の画像から頑丈な物体検出器を学習することは、工業用視覚システムにおいて重要な課題であり、高品質なトレーニングデータを収集するのには何ヶ月もかかる。
合成データは、データ効率のよい視覚検査とピック・アンド・プレイス・ロボティクスのための重要なソリューションとして登場した。
現在のパイプラインはBlenderやUnrealといった3Dエンジンに依存しており、細かいコントロールを提供するが、小さなデータセットのレンダリングには数週間を要する。
拡散モデルは、数分で高品質な画像を生成することができるため、ステップ変更を約束します。
現在、多くのアダプタは、平易なテキストプロンプトを超えて拡散を広げているが、異なる条件付けスキームが合成データ品質に与える影響は理解されていない。
4つの標準オブジェクト検出ベンチマークから抽出された80種類の視覚的概念について検討し、プロンプトベースとレイアウトベースという2つの条件付け戦略を比較した。
コンディショニングキューの集合が狭くなると、プロンプトコンディショニングにより高品質な合成データが得られ、多様性が増大するにつれてレイアウトコンディショニングが優れている。
レイアウトキューが完全なトレーニング分布にマッチすると、合成データの平均的な精度は平均で34%、実際のデータだけで比較すると最大で17%向上する。
関連論文リスト
- Bounding Box-Guided Diffusion for Synthesizing Industrial Images and Segmentation Map [50.21082069320818]
最小限の監督で高忠実度産業データセットを生成するための拡散型パイプラインを提案する。
提案手法では, 拡張有界箱表現の拡散モデルを用いて, 正確なセグメンテーションマスクを生成する。
その結果、拡散に基づく合成は、人工的な産業データと実世界の産業データとのギャップを埋めることを示した。
論文 参考訳(メタデータ) (2025-05-06T15:21:36Z) - Synthetic Prior for Few-Shot Drivable Head Avatar Inversion [61.51887011274453]
そこで本研究では,合成前駆体に基づく乾燥可能な頭部アバターの少数ショット逆転法であるSynShotを提案する。
合成データのみに基づいて訓練された機械学習モデルに着想を得て,合成頭部の大きなデータセットから先行モデルを学習する手法を提案する。
論文 参考訳(メタデータ) (2025-01-12T19:01:05Z) - Image change detection with only a few samples [7.5780621370948635]
画像変化検出タスクの最大の障害は、さまざまな場面をカバーする大きな注釈付きデータセットの欠如である。
本稿では,合成データを生成するための単純な画像処理手法を提案する。
次に、対象検出に基づく初期の融合ネットワークを設計し、シアムニューラルネットを上回ります。
論文 参考訳(メタデータ) (2023-11-07T07:01:35Z) - A New Benchmark: On the Utility of Synthetic Data with Blender for Bare
Supervised Learning and Downstream Domain Adaptation [42.2398858786125]
コンピュータビジョンにおけるディープラーニングは、大規模ラベル付きトレーニングデータの価格で大きな成功を収めた。
制御不能なデータ収集プロセスは、望ましくない重複が存在する可能性のある非IIDトレーニングおよびテストデータを生成する。
これを回避するために、ドメインランダム化による3Dレンダリングによる合成データを生成する方法がある。
論文 参考訳(メタデータ) (2023-03-16T09:03:52Z) - Synthetic Data for Object Classification in Industrial Applications [53.180678723280145]
オブジェクト分類では、オブジェクトごとに、異なる条件下で、多数の画像を取得することは必ずしも不可能である。
本研究は,学習データセット内の限られたデータに対処するゲームエンジンを用いた人工画像の作成について検討する。
論文 参考訳(メタデータ) (2022-12-09T11:43:04Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real
Data [58.50411487497146]
ラベルのない実データと協調する新しい画像デハージングフレームワークを提案する。
まず,特徴表現を3つの成分マップに切り離す不整合画像デハージングネットワーク(DID-Net)を開発する。
そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。
論文 参考訳(メタデータ) (2021-08-06T04:00:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。