論文の概要: Exploring the Robustness of Human Parsers Towards Common Corruptions
- arxiv url: http://arxiv.org/abs/2309.00938v2
- Date: Thu, 7 Sep 2023 02:30:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 15:58:28.098200
- Title: Exploring the Robustness of Human Parsers Towards Common Corruptions
- Title(参考訳): 共通汚職に対するヒューマンパーサーのロバスト性の検討
- Authors: Sanyi Zhang, Xiaochun Cao, Rui Wang, Guo-Jun Qi, Jie Zhou
- Abstract要約: 我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
- 参考スコア(独自算出の注目度): 99.89886010550836
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human parsing aims to segment each pixel of the human image with fine-grained
semantic categories. However, current human parsers trained with clean data are
easily confused by numerous image corruptions such as blur and noise. To
improve the robustness of human parsers, in this paper, we construct three
corruption robustness benchmarks, termed LIP-C, ATR-C, and
Pascal-Person-Part-C, to assist us in evaluating the risk tolerance of human
parsing models. Inspired by the data augmentation strategy, we propose a novel
heterogeneous augmentation-enhanced mechanism to bolster robustness under
commonly corrupted conditions. Specifically, two types of data augmentations
from different views, i.e., image-aware augmentation and model-aware
image-to-image transformation, are integrated in a sequential manner for
adapting to unforeseen image corruptions. The image-aware augmentation can
enrich the high diversity of training images with the help of common image
operations. The model-aware augmentation strategy that improves the diversity
of input data by considering the model's randomness. The proposed method is
model-agnostic, and it can plug and play into arbitrary state-of-the-art human
parsing frameworks. The experimental results show that the proposed method
demonstrates good universality which can improve the robustness of the human
parsing models and even the semantic segmentation models when facing various
image common corruptions. Meanwhile, it can still obtain approximate
performance on clean data.
- Abstract(参考訳): human parseは、人間の画像の各ピクセルを、きめ細かなセマンティックカテゴリで分割することを目的としている。
しかし、クリーンなデータで訓練された現在の人間のパーサーは、ぼやけやノイズといった多くの画像の破損によって容易に混乱する。
本稿では,人間のパーサーのロバスト性を改善するために,llip-c,atr-c,pascal-person-part-cと呼ばれる3つの腐敗ロバスト性ベンチマークを構築し,人間の解析モデルのリスク許容性を評価する。
本研究では,データ拡張戦略に触発されて,不均質な拡張強化機構を提案する。
具体的には、異なるビューからの2種類のデータ拡張、すなわち、画像認識拡張とモデル認識画像から画像への変換を連続的に統合して、予期せぬ画像破損に対応させる。
画像認識拡張は、一般的な画像操作の助けを借りて、トレーニング画像の多様性を高めることができる。
モデルのランダム性を考慮して入力データの多様性を向上させるモデル認識強化戦略。
提案されたメソッドはモデルに依存しず、任意の最先端のヒューマンパースフレームワークにプラグアンドプレイすることができる。
実験の結果,提案手法は画像共通汚損に直面した場合に,人間のパースモデルや意味的セグメンテーションモデルの堅牢性を向上できる優れた普遍性を示すことが示された。
一方で、クリーンデータに対する近似的なパフォーマンスも得ることができる。
関連論文リスト
- Deceptive-Human: Prompt-to-NeRF 3D Human Generation with 3D-Consistent
Synthetic Images [67.31920821192323]
Deceptive-Humanは、最先端の制御拡散モデル(ControlNetなど)を利用して高品質な制御可能な3D NeRFを生成する新しいフレームワークである。
提案手法は,テキストプロンプトや3Dメッシュ,ポーズ,シード画像などの付加データを含む,汎用的で容易に収容できる。
結果として得られる3D人間のNeRFモデルは、360度の視点から高光写実性ビューの合成を促進する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - Diversity is Definitely Needed: Improving Model-Agnostic Zero-shot
Classification via Stable Diffusion [22.237426507711362]
モデル非依存ゼロショット分類(モデル非依存ゼロショット分類、英: Model-Agnostic Zero-Shot Classification、MA-ZSC)とは、訓練中に実際の画像を使わずに、実際の画像を分類するための非特異な分類アーキテクチャを訓練することである。
近年の研究では、拡散モデルを用いて合成訓練画像を生成することが、MA-ZSCに対処するための潜在的な解決策となることが示されている。
本研究では,事前学習した拡散モデルを用いてテキスト・画像生成プロセスの修正を行い,多様性を高める。
論文 参考訳(メタデータ) (2023-02-07T07:13:53Z) - Traditional Classification Neural Networks are Good Generators: They are
Competitive with DDPMs and GANs [104.72108627191041]
従来のニューラルネットワーク分類器は、最先端の生成モデルに匹敵する高品質な画像を生成することができることを示す。
マスクをベースとした再構成モジュールを提案し, 意味的勾配を意識し, 可視画像の合成を行う。
また,本手法は,画像テキスト基盤モデルに関して,テキスト・画像生成にも適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-27T11:25:35Z) - Person Image Synthesis via Denoising Diffusion Model [116.34633988927429]
本研究では,高忠実度人物画像合成に拡散モデルをいかに応用できるかを示す。
2つの大規模ベンチマークとユーザスタディの結果は、挑戦的なシナリオ下で提案したアプローチのフォトリアリズムを実証している。
論文 参考訳(メタデータ) (2022-11-22T18:59:50Z) - Adaptive Clustering of Robust Semantic Representations for Adversarial
Image Purification [0.9203366434753543]
我々は、モデルに依存しず、目に見えない敵に対して汎用可能な、敵対攻撃に対する堅牢な防御を提案します。
本稿では,各クラスの潜在表現を抽出し,意味的類似性を持つ潜在表現を適応的にクラスタ化する。
我々は、逆空間表現と真のクラスタ分布の間の距離を最小化するために、潜空間表現を制限する新しいモデルを逆向きに訓練する。
論文 参考訳(メタデータ) (2021-04-05T21:07:04Z) - Improving robustness against common corruptions with frequency biased
models [112.65717928060195]
目に見えない画像の腐敗は 驚くほど大きなパフォーマンス低下を引き起こします
画像の破損タイプは周波数スペクトルで異なる特性を持ち、ターゲットタイプのデータ拡張の恩恵を受けます。
畳み込み特徴マップの総変動(TV)を最小限に抑え、高周波堅牢性を高める新しい正規化方式を提案する。
論文 参考訳(メタデータ) (2021-03-30T10:44:50Z) - Uncertainty-aware Generalized Adaptive CycleGAN [44.34422859532988]
unpaired image-to-image translationは、教師なしの方法で画像ドメイン間のマッピングを学ぶことを指す。
既存の手法はしばしば、外れ値への堅牢性や予測不確実性を明示的にモデル化せずに決定論的マッピングを学習する。
Uncertainty-aware Generalized Adaptive Cycle Consistency (UGAC) という新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2021-02-23T15:22:35Z) - Contextual Fusion For Adversarial Robustness [0.0]
ディープニューラルネットワークは、通常、1つの特定の情報ストリームを処理し、様々な種類の敵の摂動に影響を受けやすいように設計されている。
そこで我々はPlaces-CNNとImagenet-CNNから並列に抽出した背景特徴と前景特徴を組み合わせた融合モデルを開発した。
グラデーションをベースとした攻撃では,フュージョンは乱れのないデータの性能を低下させることなく,分類の大幅な改善を可能にする。
論文 参考訳(メタデータ) (2020-11-18T20:13:23Z) - Adversarial Semantic Data Augmentation for Human Pose Estimation [96.75411357541438]
本研究では,セマンティックデータ拡張法 (SDA) を提案する。
また,適応的セマンティックデータ拡張 (ASDA) を提案する。
最先端の結果は、挑戦的なベンチマークで得られます。
論文 参考訳(メタデータ) (2020-08-03T07:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。