論文の概要: SpectralCLIP: Preventing Artifacts in Text-Guided Style Transfer from a
Spectral Perspective
- arxiv url: http://arxiv.org/abs/2303.09270v1
- Date: Thu, 16 Mar 2023 12:53:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 15:41:43.449379
- Title: SpectralCLIP: Preventing Artifacts in Text-Guided Style Transfer from a
Spectral Perspective
- Title(参考訳): spectralclip: スペクトルの観点から見たテキストガイドスタイル転送におけるアーティファクトの防止
- Authors: Zipeng Xu, Songlong Xing, Enver Sangineto, Nicu Sebe
- Abstract要約: 対照的に、CLIP(Contrastive Language- Image Pre-Training)は、幅広い視覚言語横断タスクのために、最先端の技術を更新した。
CLIPを直接使用してスタイルの転送をガイドすると、望ましくないアーティファクトがイメージ上に広がります。
本稿では,CLIPビジョンエンコーダ上にスペクトルフィルタリング層を実装したSpectralCLIPを提案する。
- 参考スコア(独自算出の注目度): 70.8715655507571
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive Language-Image Pre-Training (CLIP) has refreshed the state of the
art for a broad range of vision-language cross-modal tasks. Particularly, it
has created an intriguing research line of text-guided image style transfer,
dispensing with the need for style reference images as in traditional style
transfer methods. However, directly using CLIP to guide the transfer of style
leads to undesirable artifacts (mainly written words and unrelated visual
entities) spread over the image, partly due to the entanglement of visual and
written concepts inherent in CLIP. Inspired by the use of spectral analysis in
filtering linguistic information at different granular levels, we analyse the
patch embeddings from the last layer of the CLIP vision encoder from the
perspective of spectral analysis and find that the presence of undesirable
artifacts is highly correlated to some certain frequency components. We propose
SpectralCLIP, which implements a spectral filtering layer on top of the CLIP
vision encoder, to alleviate the artifact issue. Experimental results show that
SpectralCLIP prevents the generation of artifacts effectively in quantitative
and qualitative terms, without impairing the stylisation quality. We further
apply SpectralCLIP to text-conditioned image generation and show that it
prevents written words in the generated images. Code is available at
https://github.com/zipengxuc/SpectralCLIP.
- Abstract(参考訳): 対照的な言語イメージプリトレーニング(clip)は、幅広い視覚言語クロスモーダルタスクの最先端を更新した。
特に、従来のスタイル転送法のようにスタイル参照画像の必要性をなくし、テキストガイドによる画像転送の興味深い研究ラインを作成している。
しかし、CLIPを直接使用してスタイルの転送をガイドすると、CLIPに固有の視覚的および文字的概念の絡み合いが原因で、望ましくないアーティファクト(主に書かれた単語と無関係な視覚的実体)がイメージ全体に広がる。
異なる粒度での言語情報フィルタリングにおけるスペクトル解析の利用に触発されて,クリップビジョンエンコーダの最終層からのパッチ埋め込みをスペクトル解析の観点から解析し,好ましくないアーティファクトの存在が特定の周波数成分と高い相関関係にあることを見出した。
本稿では,CLIPビジョンエンコーダ上にスペクトルフィルタリング層を実装したSpectralCLIPを提案する。
実験結果から,SpectralCLIPは,スタイリゼーションの品質を損なうことなく,定量的・質的手法で人工物の発生を効果的に防止できることが示された。
さらに,テキスト条件付き画像生成にspectrumclipを適用し,生成された画像中の書き言葉を防止する。
コードはhttps://github.com/zipengxuc/SpectralCLIPで入手できる。
関連論文リスト
- Interpreting CLIP's Image Representation via Text-Based Decomposition [80.34129476152519]
CLIP画像エンコーダは,個々のモデルコンポーネントが最終表現にどう影響するかを解析することによって検討する。
画像表現は、個々の画像パッチ、モデル層、アテンションヘッドにまたがる和として分解する。
この理解を利用して、CLIPからスプリケートな機能を取り除き、強力なゼロショットイメージセグメンタを作成します。
論文 参考訳(メタデータ) (2023-10-09T17:59:04Z) - Symmetrical Linguistic Feature Distillation with CLIP for Scene Text
Recognition [77.93678598476149]
CLIP-OCR(Symmetrical Linguistic Feature Distillation framework)を新たに構築する。
CLIP画像エンコーダを逆CLIPテキストエンコーダでカスケードすることにより、画像からテキストまでの特徴フローで対称構造を構築する。
大規模な実験では、CLIP-OCRが6つのSTRベンチマークで平均精度93.8%で有効であることが示されている。
論文 参考訳(メタデータ) (2023-10-08T04:00:20Z) - Bootstrap Fine-Grained Vision-Language Alignment for Unified Zero-Shot
Anomaly Localization [63.61093388441298]
対照的な言語-画像事前学習モデルは、ゼロショット視覚認識タスクで有望なパフォーマンスを示した。
本研究では,ゼロショット異常局所化のためのAnoCLIPを提案する。
論文 参考訳(メタデータ) (2023-08-30T10:35:36Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - VT-CLIP: Enhancing Vision-Language Models with Visual-guided Texts [2.0434814235659555]
コントラスト言語-画像事前学習(CLIP)は近年,伝達可能な視覚表現学習において注目を集めている。
VT-CLIPと呼ばれる視覚誘導テキストによるCLIPの強化を提案する。
少数の設定では、よく知られた11の分類データセット上でVT-CLIPを評価し、その効果を実証する。
論文 参考訳(メタデータ) (2021-12-04T18:34:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。