論文の概要: Cityscape-Adverse: Benchmarking Robustness of Semantic Segmentation with Realistic Scene Modifications via Diffusion-Based Image Editing
- arxiv url: http://arxiv.org/abs/2411.00425v1
- Date: Fri, 01 Nov 2024 07:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:19.763570
- Title: Cityscape-Adverse: Benchmarking Robustness of Semantic Segmentation with Realistic Scene Modifications via Diffusion-Based Image Editing
- Title(参考訳): 都市景観逆:拡散画像編集による現実的シーン修正による意味的セグメンテーションのロバスト性の評価
- Authors: Naufal Suryanto, Andro Aprila Adiputra, Ahmada Yusril Kadiptya, Thi-Thu-Huong Le, Derry Pratama, Yongsu Kim, Howon Kim,
- Abstract要約: 拡散に基づく画像編集を利用した8つの悪条件をシミュレートするベンチマークであるCityscape-Adverseを紹介する。
CNNとトランスフォーマーを用いたセマンティックセグメンテーションモデルの性能評価を行った。
我々は、Cityscape-Adverseでトレーニングされたモデルが、目に見えないドメインに適用した場合、大幅にレジリエンスを向上させることを検証した。
- 参考スコア(独自算出の注目度): 1.6316196319061707
- License:
- Abstract: Recent advancements in generative AI, particularly diffusion-based image editing, have enabled the transformation of images into highly realistic scenes using only text instructions. This technology offers significant potential for generating diverse synthetic datasets to evaluate model robustness. In this paper, we introduce Cityscape-Adverse, a benchmark that employs diffusion-based image editing to simulate eight adverse conditions, including variations in weather, lighting, and seasons, while preserving the original semantic labels. We evaluate the reliability of diffusion-based models in generating realistic scene modifications and assess the performance of state-of-the-art CNN and Transformer-based semantic segmentation models under these challenging conditions. Additionally, we analyze which modifications have the greatest impact on model performance and explore how training on synthetic datasets can improve robustness in real-world adverse scenarios. Our results demonstrate that all tested models, particularly CNN-based architectures, experienced significant performance degradation under extreme conditions, while Transformer-based models exhibited greater resilience. We verify that models trained on Cityscape-Adverse show significantly enhanced resilience when applied to unseen domains. Code and datasets will be released at https://github.com/naufalso/cityscape-adverse.
- Abstract(参考訳): 生成型AIの最近の進歩、特に拡散型画像編集は、テキスト命令のみを使用して、画像の非常に現実的なシーンへの変換を可能にしている。
この技術は、モデルロバスト性を評価するために多様な合成データセットを生成する大きな可能性を提供します。
本稿では,拡散に基づく画像編集を用いて,気象,照明,季節の変動を含む8つの悪条件をシミュレートし,元のセマンティックラベルを保存したベンチマークであるCityscape-Adverseを紹介する。
本研究では,現実的なシーン修正生成における拡散型モデルの信頼性を評価し,これらの課題条件下での最先端CNNとトランスフォーマーに基づくセマンティックセマンティックセマンティクスモデルの性能を評価する。
さらに、モデルパフォーマンスに最も大きな影響を与える変更を分析し、合成データセットのトレーニングが現実世界の有害シナリオにおける堅牢性をどのように改善するかを探る。
以上の結果から,全てのテストモデル,特にCNNベースのアーキテクチャでは,極端な条件下での大幅な性能劣化がみられ,Transformerベースのモデルでは高いレジリエンスを示した。
我々は、Cityscape-Adverseでトレーニングされたモデルが、目に見えないドメインに適用した場合、大幅にレジリエンスを向上させることを検証した。
コードとデータセットはhttps://github.com/naufalso/cityscape-adverse.comで公開される。
関連論文リスト
- Digi2Real: Bridging the Realism Gap in Synthetic Data Face Recognition via Foundation Models [4.910937238451485]
本稿では,合成顔画像のリアリズム向上を目的とした,リアリズム伝達のための新しいフレームワークを提案する。
グラフィクスパイプラインの制御可能な側面とリアリズム強化技術を統合することで、我々は大量のリアルなバリエーションを生成する。
論文 参考訳(メタデータ) (2024-11-04T15:42:22Z) - Data Augmentation via Latent Diffusion for Saliency Prediction [67.88936624546076]
残差予測モデルはラベル付きデータの限られた多様性と量によって制約される。
本研究では,実世界のシーンの複雑さと変動性を保ちながら,自然画像の編集を行うディープ・サリエンシ・予測のための新しいデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-09-11T14:36:24Z) - Diffusion Model Driven Test-Time Image Adaptation for Robust Skin Lesion Classification [24.08402880603475]
テストデータ上でのモデルの精度を高めるためのテスト時間画像適応手法を提案する。
拡散モデルを用いて、対象の試験画像をソース領域に投影して修正する。
私たちの手法は、さまざまな汚職、アーキテクチャ、データレシエーションにおいて、堅牢性をより堅牢にします。
論文 参考訳(メタデータ) (2024-05-18T13:28:51Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - ObjectCompose: Evaluating Resilience of Vision-Based Models on Object-to-Background Compositional Changes [64.57705752579207]
本研究では,視覚モデルによる多様な背景背景環境に対するレジリエンスを評価する。
我々は、画像から画像への変換、画像から画像への変換、および画像から画像への変換モデルの生成機能を利用して、オブジェクトから背景への変換を自動的に生成する。
論文 参考訳(メタデータ) (2024-03-07T17:48:48Z) - Scaling Rectified Flow Transformers for High-Resolution Image Synthesis [22.11487736315616]
整流流(rectified flow)は、データとノイズを直線で接続する最近の生成モデルである。
我々は,既存のノイズサンプリング手法を改良し,それらを知覚的に関係のあるスケールに偏りを持たせることにより,整流モデルの訓練を行う。
本稿では,2つのモードの重みを分離したテキスト・画像生成のためのトランスフォーマー・ベースアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-03-05T18:45:39Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Improving the Effectiveness of Deep Generative Data [5.856292656853396]
下流の画像処理タスクのための純粋合成画像のモデルを訓練すると、実際のデータに対するトレーニングに比べ、望ましくない性能低下が生じる。
本稿では,この現象に寄与する要因を記述した新しい分類法を提案し,CIFAR-10データセットを用いて検討する。
本手法は,合成データと合成データの混合による学習と合成データのみの学習において,下流分類タスクのベースラインに優れる。
論文 参考訳(メタデータ) (2023-11-07T12:57:58Z) - Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。
本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。
GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文 参考訳(メタデータ) (2020-06-11T16:19:41Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。