論文の概要: SpectralCLIP: Preventing Artifacts in Text-Guided Style Transfer from a
Spectral Perspective
- arxiv url: http://arxiv.org/abs/2303.09270v1
- Date: Thu, 16 Mar 2023 12:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:41:43.449379
- Title: SpectralCLIP: Preventing Artifacts in Text-Guided Style Transfer from a
Spectral Perspective
- Title(参考訳): spectralclip: スペクトルの観点から見たテキストガイドスタイル転送におけるアーティファクトの防止
- Authors: Zipeng Xu, Songlong Xing, Enver Sangineto, Nicu Sebe
- Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-Training)は、幅広い視覚言語横断タスクのために、最先端の技術を更新した。
CLIPを直接使用してスタイルの転送をガイドすると、望ましくないアーティファクトがイメージ上に広がります。
本稿では,CLIPビジョンエンコーダ上にスペクトルフィルタリング層を実装したSpectralCLIPを提案する。
- 参考スコア(独自算出の注目度): 70.8715655507571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-Training (CLIP) has refreshed the state of the
art for a broad range of vision-language cross-modal tasks. Particularly, it
has created an intriguing research line of text-guided image style transfer,
dispensing with the need for style reference images as in traditional style
transfer methods. However, directly using CLIP to guide the transfer of style
leads to undesirable artifacts (mainly written words and unrelated visual
entities) spread over the image, partly due to the entanglement of visual and
written concepts inherent in CLIP. Inspired by the use of spectral analysis in
filtering linguistic information at different granular levels, we analyse the
patch embeddings from the last layer of the CLIP vision encoder from the
perspective of spectral analysis and find that the presence of undesirable
artifacts is highly correlated to some certain frequency components. We propose
SpectralCLIP, which implements a spectral filtering layer on top of the CLIP
vision encoder, to alleviate the artifact issue. Experimental results show that
SpectralCLIP prevents the generation of artifacts effectively in quantitative
and qualitative terms, without impairing the stylisation quality. We further
apply SpectralCLIP to text-conditioned image generation and show that it
prevents written words in the generated images. Code is available at
https://github.com/zipengxuc/SpectralCLIP.
- Abstract(参考訳): 対照的な言語イメージプリトレーニング(clip)は、幅広い視覚言語クロスモーダルタスクの最先端を更新した。
特に、従来のスタイル転送法のようにスタイル参照画像の必要性をなくし、テキストガイドによる画像転送の興味深い研究ラインを作成している。
しかし、CLIPを直接使用してスタイルの転送をガイドすると、CLIPに固有の視覚的および文字的概念の絡み合いが原因で、望ましくないアーティファクト(主に書かれた単語と無関係な視覚的実体)がイメージ全体に広がる。
異なる粒度での言語情報フィルタリングにおけるスペクトル解析の利用に触発されて,クリップビジョンエンコーダの最終層からのパッチ埋め込みをスペクトル解析の観点から解析し,好ましくないアーティファクトの存在が特定の周波数成分と高い相関関係にあることを見出した。
本稿では,CLIPビジョンエンコーダ上にスペクトルフィルタリング層を実装したSpectralCLIPを提案する。
実験結果から,SpectralCLIPは,スタイリゼーションの品質を損なうことなく,定量的・質的手法で人工物の発生を効果的に防止できることが示された。
さらに,テキスト条件付き画像生成にspectrumclipを適用し,生成された画像中の書き言葉を防止する。
コードはhttps://github.com/zipengxuc/SpectralCLIPで入手できる。
関連論文リスト
- CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - ComCLIP: Training-Free Compositional Image and Text Matching [6.9987914927788255]
コントラスト言語-画像事前訓練は画像テキストマッチングに優れたゼロショット性能を示した。
CLIPをコンポジションイメージやテキストマッチングに適応させることはまだ難しい。
トレーニング不要なコンポジションCLIPモデル(ComCLIP)を提案する。
ComCLIPは、入力イメージを被写体、オブジェクト、アクションサブイメージに切り離す。
論文 参考訳(メタデータ) (2022-11-25T01:37:48Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features
for a Disentangled, Interpretable, and Controllable Text-Guided Image
Manipulation [0.6629765271909505]
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
提案手法は,任意のCLIPに基づく画像操作アルゴリズムに容易に計算,適応し,スムーズに組み込むことができる,シンプルで汎用的なパラダイムである。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - Exploring Visual Interpretability for Contrastive Language-Image
Pre-training [23.569964756096986]
コントラスト言語-画像事前学習は、自然言語の監視を通じて豊かな表現を学習する。
CLIPの視覚的解釈性はまだ研究されていない。
上述の手法をICLIP(Interpretable Contrastive Language- Image Pre-training)として統合する。
論文 参考訳(メタデータ) (2022-09-15T05:01:03Z) - Fine-grained Image Captioning with CLIP Reward [104.71533106301598]
ウェブから大量の画像テキストペアをトレーニングしたマルチモーダルエンコーダであるCLIPを用いて、マルチモーダル類似性を計算し、報酬関数として利用する。
また、追加のテキストアノテーションを必要としない文法を改善するために、CLIPテキストエンコーダの簡単な微調整戦略を提案する。
テキスト・ツー・イメージ検索とFineCapEvalの実験において、提案したCLIP誘導モデルは、CIDEr最適化モデルよりも顕著なキャプションを生成する。
論文 参考訳(メタデータ) (2022-05-26T02:46:09Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [4.6923376182087875]
対照的に、CLIP(Contrastive Vision-Language Pre-Training)は、その伝達可能な視覚表現学習において、近年注目を集めている。
視覚誘導テキストを用いた視覚言語モデリングのためのVT-CLIPを提案する。
具体的には,画像上の情報領域を適応的に探索し,視覚的特徴をクロスアテンション・マカニズムによって集約する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - SpectralFormer: Rethinking Hyperspectral Image Classification with
Transformers [91.09957836250209]
ハイパースペクトル(HS)画像は、ほぼ連続したスペクトル情報によって特徴づけられる。
CNNは、HS画像分類において強力な特徴抽出器であることが証明されている。
我々は、HS画像分類のためのulSpectralFormerと呼ばれる新しいバックボーンネットワークを提案する。
論文 参考訳(メタデータ) (2021-07-07T02:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。