論文の概要: Simple Disentanglement of Style and Content in Visual Representations
- arxiv url: http://arxiv.org/abs/2302.09795v2
- Date: Wed, 31 May 2023 17:25:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 20:46:10.440406
- Title: Simple Disentanglement of Style and Content in Visual Representations
- Title(参考訳): 視覚表現におけるスタイルと内容の単純な切り離し
- Authors: Lilian Ngweta, Subha Maity, Alex Gittens, Yuekai Sun, Mikhail
Yurochkin
- Abstract要約: 本稿では,事前学習された視覚モデルから学習した表現のコンテンツやスタイルをアンタングル化する,シンプルな後処理フレームワークを提案する。
提案手法は,コンテンツやスタイルの特徴を効果的に切り離し,その有効性を実証的に検証する。
- 参考スコア(独自算出の注目度): 40.97181607257586
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning visual representations with interpretable features, i.e.,
disentangled representations, remains a challenging problem. Existing methods
demonstrate some success but are hard to apply to large-scale vision datasets
like ImageNet. In this work, we propose a simple post-processing framework to
disentangle content and style in learned representations from pre-trained
vision models. We model the pre-trained features probabilistically as linearly
entangled combinations of the latent content and style factors and develop a
simple disentanglement algorithm based on the probabilistic model. We show that
the method provably disentangles content and style features and verify its
efficacy empirically. Our post-processed features yield significant domain
generalization performance improvements when the distribution shift occurs due
to style changes or style-related spurious correlations.
- Abstract(参考訳): 解釈可能な特徴を持つ視覚表現、すなわち非絡み合った表現を学習することは難しい問題である。
既存の手法はある程度の成功を示しているが、imagenetのような大規模ビジョンデータセットに適用することは難しい。
本研究では,事前学習した視覚モデルから学習表現の内容とスタイルを分離する簡易な後処理フレームワークを提案する。
事前学習した特徴を,潜在コンテンツとスタイル因子の線形絡み合い結合として確率論的にモデル化し,確率モデルに基づく単純な絡み合いアルゴリズムを開発した。
本手法は,コンテンツとスタイルの特徴を解消し,その効果を実証的に検証する。
我々の後処理機能は、スタイル変化やスタイル関連スプリアス相関による分散シフトが発生すると、ドメインの一般化性能が大幅に向上する。
関連論文リスト
- Enhancing Fine-Grained Visual Recognition in the Low-Data Regime Through Feature Magnitude Regularization [23.78498670529746]
抽出した特徴量の均等分布を保証するために正規化手法を導入する。
その明らかな単純さにもかかわらず、我々の手法は様々な細粒度視覚認識データセットに対して顕著な性能向上を示した。
論文 参考訳(メタデータ) (2024-09-03T07:32:46Z) - A Spitting Image: Modular Superpixel Tokenization in Vision Transformers [0.0]
Vision Transformer (ViT) アーキテクチャは伝統的に、画像の意味的内容に依存しないトークン化のためのグリッドベースのアプローチを採用している。
本稿では,トークン化と特徴抽出を分離するモジュール型スーパーピクセルトークン化戦略を提案する。
論文 参考訳(メタデータ) (2024-08-14T17:28:58Z) - ZePo: Zero-Shot Portrait Stylization with Faster Sampling [61.14140480095604]
本稿では,4つのサンプリングステップでコンテンツとスタイルの融合を実現する拡散モデルに基づく,インバージョンフリーなポートレートスタイリングフレームワークを提案する。
本稿では,一貫性機能における冗長な特徴をマージする機能統合戦略を提案し,注意制御の計算負荷を低減させる。
論文 参考訳(メタデータ) (2024-08-10T08:53:41Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Flow Factorized Representation Learning [109.51947536586677]
本稿では、異なる入力変換を定義する潜在確率パスの別個のセットを規定する生成モデルを提案する。
本モデルは,ほぼ同変モデルに近づきながら,標準表現学習ベンチマークにおいて高い確率を達成することを示す。
論文 参考訳(メタデータ) (2023-09-22T20:15:37Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Domain Enhanced Arbitrary Image Style Transfer via Contrastive Learning [84.8813842101747]
Contrastive Arbitrary Style Transfer (CAST) は、新しいスタイル表現学習法である。
本フレームワークは,スタイルコード符号化のための多層スタイルプロジェクタ,スタイル分布を効果的に学習するためのドメイン拡張モジュール,画像スタイル転送のための生成ネットワークという,3つのキーコンポーネントから構成される。
論文 参考訳(メタデータ) (2022-05-19T13:11:24Z) - ViCE: Self-Supervised Visual Concept Embeddings as Contextual and Pixel
Appearance Invariant Semantic Representations [77.3590853897664]
本研究は,NLPにおける単語埋め込みの学習方法に着想を得た画像に対して,意味論的にリッチな視覚埋め込みを学習するための自己指導的手法を提案する。
論文 参考訳(メタデータ) (2021-11-24T12:27:30Z) - Towards Visually Explaining Similarity Models [29.704524987493766]
本稿では,画像類似度予測のための勾配に基づく視覚的注意を生成する手法を提案する。
学習した機能の埋め込みにのみ依存することにより、我々のアプローチがCNNベースの類似性アーキテクチャのあらゆる種類に適用可能であることを示す。
得られたアテンションマップは、単に解釈可能性だけでなく、新たなトレーニング可能な制約でモデル学習プロセス自体に注入可能であることを示す。
論文 参考訳(メタデータ) (2020-08-13T17:47:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。