論文の概要: ContraFeat: Contrasting Deep Features for Semantic Discovery
- arxiv url: http://arxiv.org/abs/2212.07277v1
- Date: Wed, 14 Dec 2022 15:22:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 15:11:46.373798
- Title: ContraFeat: Contrasting Deep Features for Semantic Discovery
- Title(参考訳): ContraFeat: セマンティックディスカバリのための深い機能の対比
- Authors: Xinqi Zhu, Chang Xu, Dacheng Tao
- Abstract要約: StyleGANは、アンタングル化セマンティックコントロールの強い可能性を示している。
StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最先端のセマンティック発見性能を実現するモデルを提案する。
- 参考スコア(独自算出の注目度): 102.4163768995288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: StyleGAN has shown strong potential for disentangled semantic control, thanks
to its special design of multi-layer intermediate latent variables. However,
existing semantic discovery methods on StyleGAN rely on manual selection of
modified latent layers to obtain satisfactory manipulation results, which is
tedious and demanding. In this paper, we propose a model that automates this
process and achieves state-of-the-art semantic discovery performance. The model
consists of an attention-equipped navigator module and losses contrasting
deep-feature changes. We propose two model variants, with one contrasting
samples in a binary manner, and another one contrasting samples with learned
prototype variation patterns. The proposed losses are defined with pretrained
deep features, based on our assumption that the features can implicitly reveal
the desired semantic structure including consistency and orthogonality.
Additionally, we design two metrics to quantitatively evaluate the performance
of semantic discovery methods on FFHQ dataset, and also show that disentangled
representations can be derived via a simple training process. Experimentally,
our models can obtain state-of-the-art semantic discovery results without
relying on latent layer-wise manual selection, and these discovered semantics
can be used to manipulate real-world images.
- Abstract(参考訳): StyleGANは、多層中間潜伏変数の特殊設計により、アンタングル型セマンティック制御の強い可能性を示している。
しかし、StyleGANの既存の意味発見手法は、修正された潜在層を手作業で選択することで、良好な操作結果が得られる。
本稿では,このプロセスを自動化し,最新の意味発見性能を実現するモデルを提案する。
このモデルは注意力のあるナビゲータモジュールと、深い機能変更と対照的な損失で構成されている。
そこで本研究では,二分法で比較する2つのモデル変種と,学習したプロトタイプ変動パターンで比較する2つのモデル変種を提案する。
提案した損失は,不整合性や直交性を含む所望の意味的構造を暗黙的に明らかにできるという仮定に基づいて,事前訓練された深い特徴で定義される。
さらに、FFHQデータセット上での意味探索手法の性能を定量的に評価する2つの指標を設計し、また、単純なトレーニングプロセスによって非絡み合い表現が導出可能であることを示す。
実験により,本モデルは潜伏層間手動選択を必要とせず,最先端のセマンティック検出結果を得ることができ,これらの検出されたセマンティクスは実世界画像の操作に使用できる。
関連論文リスト
- Derivative-Free Diffusion Manifold-Constrained Gradient for Unified XAI [59.96044730204345]
微分自由拡散多様体制約勾配(FreeMCG)を導入する。
FreeMCGは、与えられたニューラルネットワークの説明可能性を改善する基盤として機能する。
提案手法は,XAIツールが期待する本質性を保ちながら,最先端の成果が得られることを示す。
論文 参考訳(メタデータ) (2024-11-22T11:15:14Z) - D$^4$-VTON: Dynamic Semantics Disentangling for Differential Diffusion based Virtual Try-On [32.73798955587999]
D$4$-VTONは画像ベースの仮想試行のための革新的なソリューションである。
我々は,服飾の前後における意味的不整合など,過去の研究の課題に対処する。
論文 参考訳(メタデータ) (2024-07-21T10:40:53Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Dual Path Modeling for Semantic Matching by Perceiving Subtle Conflicts [14.563722352134949]
トランスフォーマーベースの事前学習モデルではセマンティックマッチングが大幅に改善されている。
既存のモデルでは微妙な違いを捉える能力が不足している。
本稿では、微妙な違いを知覚するモデルの能力を高めるために、新しいデュアルパスモデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-24T09:29:55Z) - GSMFlow: Generation Shifts Mitigating Flow for Generalized Zero-Shot
Learning [55.79997930181418]
Generalized Zero-Shot Learningは、目に見えないクラスから見えないクラスに意味的な知識を移すことで、目に見えないクラスと見えないクラスの両方から画像を認識することを目的としている。
生成モデルの利点を生かして、見学したクラスから学んだ知識に基づいて、現実的な見知らぬサンプルを幻覚させることは、有望な解決策である。
本研究では,複数の条件付きアフィン結合層からなるフローベース生成フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-05T04:04:37Z) - Gradient-Based Adversarial and Out-of-Distribution Detection [15.510581400494207]
ニューラルネットワークの効率的な表現性を調べるために,勾配生成における共起ラベルを導入する。
我々の勾配に基づくアプローチは、モデルの効果的な表現率に基づいて入力の異常を捉えることができることを示す。
論文 参考訳(メタデータ) (2022-06-16T15:50:41Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。