論文の概要: WeatherDG: LLM-assisted Procedural Weather Generation for Domain-Generalized Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2410.12075v1
- Date: Tue, 15 Oct 2024 21:29:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-17 13:44:01.495573
- Title: WeatherDG: LLM-assisted Procedural Weather Generation for Domain-Generalized Semantic Segmentation
- Title(参考訳): WeatherDG:LLMによるドメイン一般化セマンティックセマンティックセグメンテーションのための手続き型気象生成
- Authors: Chenghao Qian, Yuhu Guo, Yuhong Mo, Wenjing Li,
- Abstract要約: 本研究では,現実的な,天気の多様性,運転画面の画像を生成するための新しいアプローチであるWeatherDGを提案する。
まず、ソースデータでSDを微調整し、生成されたサンプルの内容とレイアウトを現実世界の運転シナリオに合わせる。
我々は,様々な気象条件下で,SDが高度に調整されたクラスのオブジェクトを生成することを奨励するバランスのとれた生成戦略を導入する。
- 参考スコア(独自算出の注目度): 4.141230571282547
- License:
- Abstract: In this work, we propose a novel approach, namely WeatherDG, that can generate realistic, weather-diverse, and driving-screen images based on the cooperation of two foundation models, i.e, Stable Diffusion (SD) and Large Language Model (LLM). Specifically, we first fine-tune the SD with source data, aligning the content and layout of generated samples with real-world driving scenarios. Then, we propose a procedural prompt generation method based on LLM, which can enrich scenario descriptions and help SD automatically generate more diverse, detailed images. In addition, we introduce a balanced generation strategy, which encourages the SD to generate high-quality objects of tailed classes under various weather conditions, such as riders and motorcycles. This segmentation-model-agnostic method can improve the generalization ability of existing models by additionally adapting them with the generated synthetic data. Experiments on three challenging datasets show that our method can significantly improve the segmentation performance of different state-of-the-art models on target domains. Notably, in the setting of ''Cityscapes to ACDC'', our method improves the baseline HRDA by 13.9% in mIoU.
- Abstract(参考訳): 本研究では,2つの基礎モデル,すなわち安定拡散(SD)と大規模言語モデル(LLM)の協調に基づいて,現実的,気象多様性,運転画面の画像を生成するための新しいアプローチであるWeatherDGを提案する。
具体的には、まずソースデータでSDを微調整し、生成されたサンプルの内容とレイアウトを実際の運転シナリオに合わせる。
次に,LSMに基づく手続き的プロンプト生成手法を提案し,シナリオ記述を充実させ,SDがより多様な詳細な画像を自動生成できるようにする。
さらに,ライダーやオートバイなど,様々な気象条件下で,SDが尾翼クラスの高品質なオブジェクトを生成することを奨励するバランスドジェネレーション戦略を導入する。
このセグメンテーション-モデル非依存法は、生成した合成データにそれらを付加することで、既存のモデルの一般化能力を向上させることができる。
3つの挑戦的データセットに対する実験により,本手法は対象領域における異なる最先端モデルのセグメンテーション性能を大幅に向上できることが示された。
特に,「ACDCの街並み」の設定では,mIoUの基準HRDAを13.9%改善する。
関連論文リスト
- OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - SD-MVS: Segmentation-Driven Deformation Multi-View Stereo with Spherical
Refinement and EM optimization [6.886220026399106]
テクスチャレス領域の3次元再構成における課題を解決するために,多視点ステレオ (SD-MVS) を導入する。
私たちは、シーン内のセグメンテーションインスタンスを区別するためにSAM(Segment Anything Model)を採用した最初の人です。
球面座標と正規点の勾配勾配と深度の画素方向探索間隔を組み合わせた独自の精細化戦略を提案する。
論文 参考訳(メタデータ) (2024-01-12T05:25:57Z) - Few-shot Image Generation via Information Transfer from the Built
Geodesic Surface [2.617962830559083]
構築地表面からの情報伝達法(ITBGS)を提案する。
FAGSモジュールでは、トレーニングデータセットからPre-Shape Spaceにイメージ機能を投影することで、擬似ソースドメインが生成される。
提案手法は,多種多様なセマンティックなデータセットにまたがって,最適な,あるいは同等な結果が得られることを実証する。
論文 参考訳(メタデータ) (2024-01-03T13:57:09Z) - DGInStyle: Domain-Generalizable Semantic Segmentation with Image Diffusion Models and Stylized Semantic Control [68.14798033899955]
大規模で事前訓練された潜伏拡散モデル(LDM)は、創造的コンテンツを生成できる異常な能力を示した。
しかし、それらは例えば、セマンティックセグメンテーションのような知覚スタックのタスクを改善するために、大規模なデータジェネレータとして使用できますか?
自律運転の文脈でこの疑問を考察し、「はい」という言い換えで答える。
論文 参考訳(メタデータ) (2023-12-05T18:34:12Z) - Generative Modeling with Phase Stochastic Bridges [49.4474628881673]
拡散モデル(DM)は、連続入力のための最先端の生成モデルを表す。
我々はtextbfphase space dynamics に基づく新しい生成モデリングフレームワークを提案する。
我々のフレームワークは、動的伝播の初期段階において、現実的なデータポイントを生成する能力を示す。
論文 参考訳(メタデータ) (2023-10-11T18:38:28Z) - Don't be so negative! Score-based Generative Modeling with
Oracle-assisted Guidance [12.039478020062608]
我々は新しい拡散確率モデル(DDPM)手法であるGen-neGを開発した。
提案手法は, 生成過程を誘導する拡散モデルにおいて, GAN(Generative Adversarial Network)と差別化誘導に基づいて構築する。
我々は、自動運転シミュレータにおける衝突回避や、安全で保護された人間の動き生成などの応用において、Gen-neGの有用性を実証的に確立する。
論文 参考訳(メタデータ) (2023-07-31T07:52:00Z) - T1: Scaling Diffusion Probabilistic Fields to High-Resolution on Unified
Visual Modalities [69.16656086708291]
拡散確率場(DPF)は、距離空間上で定義された連続関数の分布をモデル化する。
本稿では,局所構造学習に着目したビューワイズサンプリングアルゴリズムによる新しいモデルを提案する。
モデルは、複数のモダリティを統一しながら、高解像度のデータを生成するためにスケールすることができる。
論文 参考訳(メタデータ) (2023-05-24T03:32:03Z) - MV-JAR: Masked Voxel Jigsaw and Reconstruction for LiDAR-Based
Self-Supervised Pre-Training [58.07391711548269]
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
Masked Voxel Jigsaw and Reconstruction (MV-JAR) method for LiDAR-based self-supervised pre-training
論文 参考訳(メタデータ) (2023-03-23T17:59:02Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。