論文の概要: A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation
- arxiv url: http://arxiv.org/abs/2112.04603v1
- Date: Wed, 8 Dec 2021 22:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-10 15:04:25.739757
- Title: A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation
- Title(参考訳): 表現操作のための意味セグメンテーションと階層的生成逆ネットワークの統一アーキテクチャ
- Authors: Rumeysa Bodur, Binod Bhattarai, Tae-Kyun Kim
- Abstract要約: セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
- 参考スコア(独自算出の注目度): 52.911307452212256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Editing facial expressions by only changing what we want is a long-standing
research problem in Generative Adversarial Networks (GANs) for image
manipulation. Most of the existing methods that rely only on a global generator
usually suffer from changing unwanted attributes along with the target
attributes. Recently, hierarchical networks that consist of both a global
network dealing with the whole image and multiple local networks focusing on
local parts are showing success. However, these methods extract local regions
by bounding boxes centred around the sparse facial key points which are
non-differentiable, inaccurate and unrealistic. Hence, the solution becomes
sub-optimal, introduces unwanted artefacts degrading the overall quality of the
synthetic images. Moreover, a recent study has shown strong correlation between
facial attributes and local semantic regions. To exploit this relationship, we
designed a unified architecture of semantic segmentation and hierarchical GANs.
A unique advantage of our framework is that on forward pass the semantic
segmentation network conditions the generative model, and on backward pass
gradients from hierarchical GANs are propagated to the semantic segmentation
network, which makes our framework an end-to-end differentiable architecture.
This allows both architectures to benefit from each other. To demonstrate its
advantages, we evaluate our method on two challenging facial expression
translation benchmarks, AffectNet and RaFD, and a semantic segmentation
benchmark, CelebAMask-HQ across two popular architectures, BiSeNet and UNet.
Our extensive quantitative and qualitative evaluations on both face semantic
segmentation and face expression manipulation tasks validate the effectiveness
of our work over existing state-of-the-art methods.
- Abstract(参考訳): 私たちが望むものだけを変えて表情を編集することは、画像操作のためのGAN(Generative Adversarial Networks)における長年の研究課題である。
グローバルジェネレータのみに依存する既存のメソッドのほとんどは、通常、望ましくない属性とターゲット属性の変更に苦しむ。
近年、画像全体を扱うグローバルネットワークと、局所的な部分に焦点を当てた複数のローカルネットワークの両方からなる階層ネットワークが成功している。
しかし,これらの手法は,非微分的,不正確な,非現実的な顔キーポイントを中心とした境界ボックスによって局所領域を抽出する。
したがって、溶液は準最適となり、合成画像の全体的な品質を劣化させる望ましくないアーティファクトを導入する。
さらに、最近の研究では、顔の特徴と局所的な意味領域との間に強い相関が示されている。
この関係を利用するために,意味的セグメンテーションと階層的GANの統一アーキテクチャを設計した。
我々のフレームワークの独特な利点は、前もってセマンティックセグメンテーションネットワーク条件を生成モデルにパスし、後向きの階層的なGANからの勾配をセマンティックセグメンテーションネットワークに伝播させることで、フレームワークをエンドツーエンドの差別化可能なアーキテクチャにすることである。
これにより、両方のアーキテクチャが互いに利益を享受できる。
その利点を示すために,AffectNet と RaFD の2つの難解な表情翻訳ベンチマーク,およびセマンティックセグメンテーションベンチマークである CelebAMask-HQ を,BiSeNet と UNet の2つのアーキテクチャで比較検討した。
顔意味セグメンテーションと表情操作タスクの両方に関する広範囲な定量的・質的評価は,既存の最先端手法に対する作業の有効性を検証する。
関連論文リスト
- Generalize or Detect? Towards Robust Semantic Segmentation Under Multiple Distribution Shifts [56.57141696245328]
斬新なクラスとドメインの両方が存在するようなオープンワールドシナリオでは、理想的なセグメンテーションモデルは安全のために異常なクラスを検出する必要がある。
既存の方法はドメインレベルとセマンティックレベルの分散シフトを区別するのに苦労することが多い。
論文 参考訳(メタデータ) (2024-11-06T11:03:02Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - CLIP the Gap: A Single Domain Generalization Approach for Object
Detection [60.20931827772482]
単一ドメインの一般化(Single Domain Generalization)は、単一のソースドメイン上でモデルをトレーニングすることで、目に見えないターゲットドメインに一般化する問題に取り組む。
本稿では、事前学習された視覚言語モデルを用いて、テキストプロンプトを介して意味領域の概念を導入することを提案する。
本手法は,検出器のバックボーンから抽出した特徴に作用する意味的拡張戦略と,テキストに基づく分類損失によって実現される。
論文 参考訳(メタデータ) (2023-01-13T12:01:18Z) - Unsupervised Domain Adaptation for Semantic Segmentation using One-shot
Image-to-Image Translation via Latent Representation Mixing [9.118706387430883]
超高解像度画像のセマンティックセグメンテーションのための新しい教師なし領域適応法を提案する。
潜在コンテンツ表現をドメイン間で混合するエンコーダ・デコーダの原理に基づいて,画像から画像への変換パラダイムを提案する。
都市間比較実験により,提案手法は最先端領域適応法より優れていることが示された。
論文 参考訳(メタデータ) (2022-12-07T18:16:17Z) - Framework-agnostic Semantically-aware Global Reasoning for Segmentation [29.69187816377079]
本稿では,画像特徴を潜在表現に投影し,それら間の関係を推論するコンポーネントを提案する。
我々の設計では、活性化領域が空間的に不整合であることを保証することにより、潜在領域が意味概念を表現することを奨励している。
潜在トークンはセマンティックに解釈可能で多様性があり、下流タスクに転送可能な豊富な機能セットを提供します。
論文 参考訳(メタデータ) (2022-12-06T21:42:05Z) - Region-Based Semantic Factorization in GANs [67.90498535507106]
本稿では,任意の画像領域についてGAN(Generative Adversarial Networks)が学習した潜在意味を分解するアルゴリズムを提案する。
適切に定義された一般化されたレイリー商を通して、アノテーションや訓練なしにそのような問題を解く。
様々な最先端のGANモデルに対する実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2022-02-19T17:46:02Z) - More Separable and Easier to Segment: A Cluster Alignment Method for
Cross-Domain Semantic Segmentation [41.81843755299211]
上記の問題を緩和するために,ドメイン仮定の近接性に基づく新しいUDAセマンティックセマンティックセマンティクス手法を提案する。
具体的には、同じ意味を持つクラスタピクセルにプロトタイプクラスタリング戦略を適用し、ターゲットドメインピクセル間の関連付けをより良く維持します。
GTA5とSynthiaで行った実験は,本法の有効性を実証した。
論文 参考訳(メタデータ) (2021-05-07T10:24:18Z) - Affinity Space Adaptation for Semantic Segmentation Across Domains [57.31113934195595]
本稿では,意味的セグメンテーションにおける教師なしドメイン適応(UDA)の問題に対処する。
ソースドメインとターゲットドメインが不変なセマンティック構造を持つという事実に触発され、ドメイン間におけるそのような不変性を活用することを提案する。
親和性空間適応戦略として,親和性空間の洗浄と親和性空間アライメントという2つの方法を開発した。
論文 参考訳(メタデータ) (2020-09-26T10:28:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。