論文の概要: A Framework for Low-Effort Training Data Generation for Urban Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2510.11567v1
- Date: Mon, 13 Oct 2025 16:12:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.449345
- Title: A Framework for Low-Effort Training Data Generation for Urban Semantic Segmentation
- Title(参考訳): 都市セマンティックセグメンテーションのための低作業訓練データ生成フレームワーク
- Authors: Denis Zavadski, Damjan Kalšan, Tim Küchler, Haebom Lee, Stefan Roth, Carsten Rother,
- Abstract要約: 合成データセットは都市景観認識モデルの訓練に広く利用されているが、リアルなレンダリングでさえ、実際の画像に顕著なギャップがあることを示している。
本稿では,不完全な擬似ラベルのみを用いて,既成拡散モデルを対象ドメインに適応させる新しいフレームワークを提案する。
合成データセットのセマンティックマップから高忠実で目標に沿った画像を生成する。
- 参考スコア(独自算出の注目度): 15.541453405140485
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic datasets are widely used for training urban scene recognition models, but even highly realistic renderings show a noticeable gap to real imagery. This gap is particularly pronounced when adapting to a specific target domain, such as Cityscapes, where differences in architecture, vegetation, object appearance, and camera characteristics limit downstream performance. Closing this gap with more detailed 3D modelling would require expensive asset and scene design, defeating the purpose of low-cost labelled data. To address this, we present a new framework that adapts an off-the-shelf diffusion model to a target domain using only imperfect pseudo-labels. Once trained, it generates high-fidelity, target-aligned images from semantic maps of any synthetic dataset, including low-effort sources created in hours rather than months. The method filters suboptimal generations, rectifies image-label misalignments, and standardises semantics across datasets, transforming weak synthetic data into competitive real-domain training sets. Experiments on five synthetic datasets and two real target datasets show segmentation gains of up to +8.0%pt. mIoU over state-of-the-art translation methods, making rapidly constructed synthetic datasets as effective as high-effort, time-intensive synthetic datasets requiring extensive manual design. This work highlights a valuable collaborative paradigm where fast semantic prototyping, combined with generative models, enables scalable, high-quality training data creation for urban scene understanding.
- Abstract(参考訳): 合成データセットは都市景観認識モデルの訓練に広く利用されているが、リアルなレンダリングでさえ、実際の画像に顕著なギャップがあることを示している。
このギャップは特に、アーキテクチャ、植生、オブジェクトの外観、カメラ特性の違いが下流のパフォーマンスを制限するCityscapesのような特定のターゲットドメインに適応する場合に顕著である。
より詳細な3Dモデリングでこのギャップを埋めるには、高価なアセットとシーンデザインが必要で、ローコストなラベル付きデータの目的を損なうことになる。
そこで本研究では,不完全な擬似ラベルのみを用いて,既製の拡散モデルを対象ドメインに適応させる新しいフレームワークを提案する。
トレーニングが完了すると、数ヶ月ではなく数時間で作成された低効率ソースを含む、任意の合成データセットのセマンティックマップから、高忠実で目標に沿った画像を生成する。
この方法は、最適な世代をフィルタリングし、イメージラベルのミスアライメントを修正し、データセット間のセマンティクスを標準化し、弱い合成データを競合する実ドメイントレーニングセットに変換する。
5つの合成データセットと2つの実際のターゲットデータセットの実験では、セグメンテーションのゲインは+8.0%である。
mIoUは最先端の翻訳手法を超越し、高速に構築された合成データセットを、広範囲な手動設計を必要とする高効率で時間集約的な合成データセットと同じくらい効果的にする。
この研究は、高速セマンティックプロトタイピングと生成モデルを組み合わせることで、都市景観理解のためのスケーラブルで高品質なトレーニングデータ作成を可能にする、貴重な協調パラダイムを強調している。
関連論文リスト
- Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Synthetic Data Matters: Re-training with Geo-typical Synthetic Labels for Building Detection [13.550020274133866]
対象地域の都市配置に合わせた合成データを用いて,テスト時に再学習モデルを提案する。
対象地域の都市構造を忠実に再現する地球型合成データを生成する。
実験では、ドメインギャップに応じて、パフォーマンスが大幅に向上し、中央値の12%が改善された。
論文 参考訳(メタデータ) (2025-07-22T14:53:13Z) - Dataset Distillation with Probabilistic Latent Features [9.318549327568695]
合成データのコンパクトなセットは、下流の分類タスクにおける元のデータセットを効果的に置き換えることができる。
本稿では,潜在特徴の共分散をモデル化する新しい手法を提案する。
提案手法は,バックボーンアーキテクチャにまたがる最先端のクロスアーキテクチャ性能を実現する。
論文 参考訳(メタデータ) (2025-05-10T13:53:49Z) - Towards Generating Realistic 3D Semantic Training Data for Autonomous Driving [27.088907562842902]
自律運転では、3Dセマンティックセグメンテーションが安全なナビゲーションを可能にする重要な役割を果たす。
3Dデータの収集と注釈付けの複雑さは、この開発のボトルネックである。
本稿では,3次元のセマンティック・シーン・スケールのデータを投影モデルやデカップリングモデルに頼らずに生成する手法を提案する。
論文 参考訳(メタデータ) (2025-03-27T12:41:42Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Learning from Synthetic Data for Visual Grounding [55.21937116752679]
そこで本研究では,SynGroundが市販のビジョン・アンド・ランゲージモデルのローカライズ能力を向上できることを示す。
SynGroundで生成されたデータは、事前訓練されたALBEFモデルとBLIPモデルのポインティングゲーム精度をそれぞれ4.81%、絶対パーセンテージポイント17.11%向上させる。
論文 参考訳(メタデータ) (2024-03-20T17:59:43Z) - DatasetDM: Synthesizing Data with Perception Annotations Using Diffusion
Models [61.906934570771256]
多様な合成画像や知覚アノテーションを生成できる汎用データセット生成モデルを提案する。
本手法は,事前学習した拡散モデルに基づいて,テキスト誘導画像合成を知覚データ生成に拡張する。
拡散モデルのリッチ潜時コードはデコーダモジュールを用いて正確な認識アノテーションとして効果的に復号できることを示す。
論文 参考訳(メタデータ) (2023-08-11T14:38:11Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Semi-synthesis: A fast way to produce effective datasets for stereo
matching [16.602343511350252]
現実に近いテクスチャレンダリングは、ステレオマッチングのパフォーマンスを高める重要な要素です。
実物に近いテクスチャーで大量のデータを合成する効果的かつ高速な方法である半合成法を提案します。
実際のデータセットのさらなる微調整により、MiddleburyのSOTAパフォーマンスとKITTIおよびETH3Dデータセットの競争結果も達成します。
論文 参考訳(メタデータ) (2021-01-26T14:34:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。