論文の概要: R&D: Balancing Reliability and Diversity in Synthetic Data Augmentation for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2603.18427v1
- Date: Thu, 19 Mar 2026 02:40:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:05.92502
- Title: R&D: Balancing Reliability and Diversity in Synthetic Data Augmentation for Semantic Segmentation
- Title(参考訳): R&D:セマンティックセグメンテーションのための合成データ拡張における信頼性と多様性のバランス
- Authors: Huy Che, Dinh-Duy Phan, Duc-Khai Lam,
- Abstract要約: 制御可能な拡散モデルを統合する新しい合成データ拡張パイプラインを提案する。
我々のアプローチは多様性と信頼性のバランスをとり、合成データと実データとのギャップを効果的に埋める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Collecting and annotating datasets for pixel-level semantic segmentation tasks are highly labor-intensive. Data augmentation provides a viable solution by enhancing model generalization without additional real-world data collection. Traditional augmentation techniques, such as translation, scaling, and color transformations, create geometric variations but fail to generate new structures. While generative models have been employed to extend semantic information of datasets, they often struggle to maintain consistency between the original and generated images, particularly for pixel-level tasks. In this work, we propose a novel synthetic data augmentation pipeline that integrates controllable diffusion models. Our approach balances diversity and reliability data, effectively bridging the gap between synthetic and real data. We utilize class-aware prompting and visual prior blending to improve image quality further, ensuring precise alignment with segmentation labels. By evaluating benchmark datasets such as PASCAL VOC and BDD100K, we demonstrate that our method significantly enhances semantic segmentation performance, especially in data-scarce scenarios, while improving model robustness in real-world applications. Our code is available at \href{https://github.com/chequanghuy/Enhanced-Generative-Data-Augmentation-for-Semantic-Segmentation-via-S tronger-Guidance}{https://github.com/chequanghuy/Enhanced-Generative-Data-Augmentation-for-Semantic-Segmentation-via-S tronger-Guidance}.
- Abstract(参考訳): ピクセルレベルのセマンティックセグメンテーションタスクのためのデータセットの収集とアノテーションは、非常に労働集約的である。
データ拡張は、実世界のデータ収集を伴わずにモデル一般化を強化することで実行可能なソリューションを提供する。
翻訳、スケーリング、色変換といった伝統的な拡張技術は、幾何学的なバリエーションを生み出すが、新しい構造を生成するのに失敗する。
生成モデルはデータセットの意味情報を拡張するために使われてきたが、元の画像と生成された画像、特にピクセルレベルのタスクの間の一貫性を維持するのに苦労することが多い。
本研究では,制御可能な拡散モデルを統合する合成データ拡張パイプラインを提案する。
我々のアプローチは多様性と信頼性のバランスをとり、合成データと実データとのギャップを効果的に埋める。
クラス認識のプロンプトと視覚的事前ブレンディングを利用して、画像品質をさらに向上し、セグメンテーションラベルとの正確なアライメントを確保する。
PASCAL VOC や BDD100K などのベンチマークデータセットを評価することで,実世界のアプリケーションにおけるモデルロバスト性を向上しつつ,特にデータスカースシナリオにおいてセマンティックセグメンテーション性能を大幅に向上することを示す。
我々のコードは \href{https://github.com/chequanghuy/Enhanced-Generative-Data-Augmentation-for-Semantic-Segmentation-via-S tronger-Guidance}{https://github.com/chequanghuy/Enhanced-Generative-Data-Augmentation-for-Semantic-Segmentation-via-S tronger-Guidance} で利用可能です。
関連論文リスト
- Generative Data Transformation: From Mixed to Unified Data [57.84692191369066]
textscTaesarはtextbftarget-textbfal textbfregenerationのためのEmphdata中心のフレームワークである。
ドメイン間のコンテキストを対象のシーケンスにエンコードすることで、複雑な融合アーキテクチャを使わずに、標準的なモデルで複雑な依存関係を学習することができる。
論文 参考訳(メタデータ) (2026-02-26T08:30:09Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - DreamMask: Boosting Open-vocabulary Panoptic Segmentation with Synthetic Data [61.62554324594797]
オープンな語彙設定でトレーニングデータを生成する方法と、実データと合成データの両方でモデルをトレーニングする方法を探索するDreamMaskを提案する。
一般的に、DreamMaskは大規模なトレーニングデータの収集を著しく単純化し、既存のメソッドのプラグイン・アンド・プレイ・エンハンスメントとして機能する。
例えば、COCOで訓練しADE20Kで試験すると、ドリームマスクを装備したモデルは以前の最先端の2.1% mIoUよりも優れていた。
論文 参考訳(メタデータ) (2025-01-03T19:00:00Z) - Enhanced Generative Data Augmentation for Semantic Segmentation via Stronger Guidance [2.1204495827342438]
制御可能拡散モデルを用いたセマンティックセグメンテーションのための効果的なデータ拡張パイプラインを提案する。
提案手法は,クラス・プロンプト・アペンディングとビジュアル・プライオリティ・ブレンディングを用いた効率的なプロンプト生成を含む。
このパイプラインは,セマンティックセグメンテーションのための高品質な合成画像を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2024-09-09T19:01:14Z) - A Simple Background Augmentation Method for Object Detection with Diffusion Model [53.32935683257045]
コンピュータビジョンでは、データの多様性の欠如がモデル性能を損なうことはよく知られている。
本稿では, 生成モデルの進歩を生かして, 単純かつ効果的なデータ拡張手法を提案する。
背景強化は、特にモデルの堅牢性と一般化能力を大幅に改善する。
論文 参考訳(メタデータ) (2024-08-01T07:40:00Z) - Distribution-Aware Data Expansion with Diffusion Models [55.979857976023695]
本研究では,分散型拡散モデルに基づくトレーニングフリーなデータ拡張フレームワークであるDistDiffを提案する。
DistDiffは、オリジナルデータのみにトレーニングされたモデルと比較して、さまざまなデータセットの精度を一貫して向上させる。
論文 参考訳(メタデータ) (2024-03-11T14:07:53Z) - ScribbleGen: Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation [10.225021032417589]
本稿では,スクリブル教師付きセマンティックセグメンテーションのための生成データ拡張手法であるScribbleGenを提案する。
セマンティックスクリブルに条件付き制御ネット拡散モデルを用いて,高品質なトレーニングデータを生成する。
我々のフレームワークは、完全に教師されたセグメンテーションを超越しても、小さなデータセットでのセグメンテーション性能を著しく改善することを示す。
論文 参考訳(メタデータ) (2023-11-28T13:44:33Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。