論文の概要: Increasing the Robustness of Semantic Segmentation Models with
Painting-by-Numbers
- arxiv url: http://arxiv.org/abs/2010.05495v1
- Date: Mon, 12 Oct 2020 07:42:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-08 07:17:27.946621
- Title: Increasing the Robustness of Semantic Segmentation Models with
Painting-by-Numbers
- Title(参考訳): 絵画数による意味セグメンテーションモデルのロバスト性の向上
- Authors: Christoph Kamann, Burkhard G\"ussefeld, Robin Hutmacher, Jan Hendrik
Metzen, Carsten Rother
- Abstract要約: 我々は,物体の形状に対するネットワークバイアスを増大させることにより,出力を改善することができる画像分類からの洞察に基づいて構築する。
我々の基本的な考え方は、RGBトレーニング画像の一部を偽画像でアルファブレンドすることであり、各クラスラベルには、固定されたランダムに選択された色が与えられる。
各種ネットワークバックボーン,MobileNet-V2,ResNets,Xceptionを用いたDeepLabv3+のトレーニングスキーマの有効性を実証し,Cityscapesデータセットで評価した。
- 参考スコア(独自算出の注目度): 39.95214171175713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For safety-critical applications such as autonomous driving, CNNs have to be
robust with respect to unavoidable image corruptions, such as image noise.
While previous works addressed the task of robust prediction in the context of
full-image classification, we consider it for dense semantic segmentation. We
build upon an insight from image classification that output robustness can be
improved by increasing the network-bias towards object shapes. We present a new
training schema that increases this shape bias. Our basic idea is to
alpha-blend a portion of the RGB training images with faked images, where each
class-label is given a fixed, randomly chosen color that is not likely to
appear in real imagery. This forces the network to rely more strongly on shape
cues. We call this data augmentation technique ``Painting-by-Numbers''. We
demonstrate the effectiveness of our training schema for DeepLabv3+ with
various network backbones, MobileNet-V2, ResNets, and Xception, and evaluate it
on the Cityscapes dataset. With respect to our 16 different types of image
corruptions and 5 different network backbones, we are in 74% better than
training with clean data. For cases where we are worse than a model trained
without our training schema, it is mostly only marginally worse. However, for
some image corruptions such as images with noise, we see a considerable
performance gain of up to 25%.
- Abstract(参考訳): 自動運転のような安全クリティカルなアプリケーションでは、CNNは画像ノイズのような避けられない画像の破損に対して堅牢でなければならない。
前回の研究はフルイメージ分類の文脈で頑健な予測の課題を扱ったが, 密集した意味セグメンテーションとして考察した。
我々は,ネットワークバイアスを物体形状へと高めることで,出力ロバスト性を向上させるための画像分類からの洞察を構築する。
この形状バイアスを増大させる新しいトレーニングスキーマを提案する。
我々の基本的な考え方は、RGBのトレーニング画像の一部を偽画像でアルファブレンドすることであり、そこでは各クラスラベルには、実際の画像に現れない、固定されたランダムな色が与えられる。
これにより、ネットワークは形状の手がかりに強く依存せざるを得なくなる。
これを `Painting-by-Numbers'' と呼ぶ。
各種ネットワークバックボーン,MobileNet-V2,ResNets,Xceptionを用いたDeepLabv3+のトレーニングスキーマの有効性を実証し,Cityscapesデータセットで評価した。
16種類の画像破損と5つの異なるネットワークバックボーンに関しては、クリーンなデータによるトレーニングよりも74%良いです。
トレーニングスキーマなしでトレーニングされたモデルよりも悪い場合、ほとんどがわずかに悪いだけです。
しかし、ノイズのある画像のような画像の破損によっては、パフォーマンスが25%向上する。
関連論文リスト
- Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
本稿では,高能率画像の同定を効果的に行う新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Background Invariant Classification on Infrared Imagery by Data
Efficient Training and Reducing Bias in CNNs [1.2891210250935146]
畳み込みニューラルネットワークは 画像中の物体を 正確に分類できます
ネットワークの注意が常にシーンのセマンティックな重要な領域にあるとは限らないことはよく知られている。
我々は、赤外線画像とRGBデータの両方におけるCNNのバイアスを低減するために、textitsplit trainingと呼ばれる2段階のトレーニング手順を提案する。
論文 参考訳(メタデータ) (2022-01-22T23:29:42Z) - Enhanced Performance of Pre-Trained Networks by Matched Augmentation
Distributions [10.74023489125222]
列車-テストの分散シフトに対処するための簡単な解を提案する。
テスト画像に対して、複数のランダムな作物に対して結果を合成する。
これは列車の時間拡張と一致するだけでなく、入力画像の完全なカバレッジも提供する。
論文 参考訳(メタデータ) (2022-01-19T22:33:00Z) - Automated Cleanup of the ImageNet Dataset by Model Consensus,
Explainability and Confident Learning [0.0]
ImageNetは、ILSVRC12Netでトレーニングされた様々な畳み込みニューラルネットワーク(CNN)のバックボーンである。
本稿では,モデルのコンセンサス,説明可能性,自信のある学習に基づく自動アプリケーションについて述べる。
ImageNet-CleanはSqueezeNetおよびEfficientNet-B0モデルのモデルパフォーマンスを2-2.4%向上させる。
論文 参考訳(メタデータ) (2021-03-30T13:16:35Z) - Image Restoration by Deep Projected GSURE [115.57142046076164]
Ill-posed inverse problem は、デブロアリングや超解像など、多くの画像処理アプリケーションに現れる。
本稿では,一般化されたSteinUnbiased Risk Estimator(GSURE)の「投影変換」とCNNによる潜在画像のパラメータ化を含む損失関数の最小化に基づく,新たな画像復元フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-04T08:52:46Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z) - An Empirical Study of the Collapsing Problem in Semi-Supervised 2D Human
Pose Estimation [80.02124918255059]
半教師付き学習は、ラベルなし画像の探索によってモデルの精度を高めることを目的としている。
私たちは相互に教え合うために2つのネットワークを学びます。
各ネットワーク内の容易なイメージに関するより信頼性の高い予測は、他のネットワークに対応するハードイメージについて学ぶように教えるために使用される。
論文 参考訳(メタデータ) (2020-11-25T03:29:52Z) - Shape-Texture Debiased Neural Network Training [50.6178024087048]
畳み込みニューラルネットワークは、トレーニングデータセットによって、テクスチャまたは形状にバイアスされることが多い。
形状・テクスチャ・デバイアスド学習のためのアルゴリズムを開発した。
実験により,本手法は複数の画像認識ベンチマークにおけるモデル性能の向上に成功していることが示された。
論文 参考訳(メタデータ) (2020-10-12T19:16:12Z) - FU-net: Multi-class Image Segmentation Using Feedback Weighted U-net [5.193724835939252]
マルチクラス画像分割のための汎用ディープ畳み込みニューラルネットワーク(DCNN)を提案する。
U-netとして知られる、よく確立された教師付きエンドツーエンドDCNNモデルに基づいている。
論文 参考訳(メタデータ) (2020-04-28T13:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。