論文の概要: Controlling Latent Diffusion Using Latent CLIP
- arxiv url: http://arxiv.org/abs/2503.08455v1
- Date: Tue, 11 Mar 2025 14:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-12 15:46:35.749074
- Title: Controlling Latent Diffusion Using Latent CLIP
- Title(参考訳): 潜伏CLIPを用いた潜伏拡散制御
- Authors: Jason Becker, Chris Wendler, Peter Baylies, Robert West, Christian Wressnegger,
- Abstract要約: 変分オートエンコーダ(VAE)の潜時空間で動作する潜時拡散モデル(LDM)
対照的な言語イメージ事前訓練(CLIP)モデルは、多くの画像処理タスクで使われているが、まだピクセル空間で運用されている。
本稿では,潜伏空間で直接動作するCLIPモデルであるLatent-CLIPを紹介する。
- 参考スコア(独自算出の注目度): 15.410621057305349
- License:
- Abstract: Instead of performing text-conditioned denoising in the image domain, latent diffusion models (LDMs) operate in latent space of a variational autoencoder (VAE), enabling more efficient processing at reduced computational costs. However, while the diffusion process has moved to the latent space, the contrastive language-image pre-training (CLIP) models, as used in many image processing tasks, still operate in pixel space. Doing so requires costly VAE-decoding of latent images before they can be processed. In this paper, we introduce Latent-CLIP, a CLIP model that operates directly in the latent space. We train Latent-CLIP on 2.7B pairs of latent images and descriptive texts, and show that it matches zero-shot classification performance of similarly sized CLIP models on both the ImageNet benchmark and a LDM-generated version of it, demonstrating its effectiveness in assessing both real and generated content. Furthermore, we construct Latent-CLIP rewards for reward-based noise optimization (ReNO) and show that they match the performance of their CLIP counterparts on GenEval and T2I-CompBench while cutting the cost of the total pipeline by 21%. Finally, we use Latent-CLIP to guide generation away from harmful content, achieving strong performance on the inappropriate image prompts (I2P) benchmark and a custom evaluation, without ever requiring the costly step of decoding intermediate images.
- Abstract(参考訳): 画像領域でテキスト条件付き復調を行う代わりに、遅延拡散モデル(LDM)は変分オートエンコーダ(VAE)の潜時空間で動作し、より効率的な計算コストでの処理を可能にする。
しかし、拡散過程は潜在空間に移行しているが、多くの画像処理タスクで使われている対照的な言語画像事前学習(CLIP)モデルは、まだピクセル空間で動作している。
そのためには、処理する前に遅延画像のVAE復号化に費用がかかる。
本稿では,潜伏空間で直接動作するCLIPモデルであるLatent-CLIPを紹介する。
遅延画像と記述テキストの2.7B対でLatent-CLIPをトレーニングし、画像NetベンチマークとLCM生成バージョンの両方で同様の大きさのCLIPモデルのゼロショット分類性能に一致し、実コンテンツと生成されたコンテンツの両方を評価する効果を示す。
さらに、報酬に基づくノイズ最適化(ReNO)のためのLatent-CLIP報酬を構築し、それらが合計パイプラインのコストを21%削減しつつ、GenEvalおよびT2I-CompBench上でのCLIP結果と一致することを示す。
最後に、Latent-CLIPを用いて有害なコンテンツから生成を誘導し、不適切な画像プロンプト(I2P)ベンチマークとカスタム評価で高い性能を達成する。
関連論文リスト
- E-CAR: Efficient Continuous Autoregressive Image Generation via Multistage Modeling [17.62612090885471]
マルチステージモデリングによる効率的な連続自己回帰画像生成(ECAR)について述べる。
解像度が上がるとトークンを生成し、同時に各ステージで画像をデノナイズする。
ECARはDiT Peebles & Xie [2023]に匹敵する画質を実現し、10$times$ FLOPsと5$times$のスピードアップを必要とし、256$times $256イメージを生成する。
論文 参考訳(メタデータ) (2024-12-18T18:59:53Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - Continual Panoptic Perception: Towards Multi-modal Incremental Interpretation of Remote Sensing Images [16.0258685984844]
継続的学習(CL)は、一方的なトレーニングの方法を破壊し、モデルが新しいデータ、セマンティクス、タスクに継続的に適応できるようにする。
本稿では,画素レベルの分類,インスタンスレベルのセグメンテーション,イメージレベルの知覚を対象とするマルチタスク共同学習を利用した統合型連続学習モデルを提案する。
論文 参考訳(メタデータ) (2024-07-19T12:22:32Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - $λ$-ECLIPSE: Multi-Concept Personalized Text-to-Image Diffusion Models by Leveraging CLIP Latent Space [61.091910046492345]
$lambda$-ECLIPSEは、拡散UNetモデルに頼ることなく、事前訓練されたCLIPモデルの潜在空間で動作する。
$lambda$-ECLIPSEは、たった34Mパラメータでマルチオブジェクト駆動のP-T2Iを実行し、わずか74GPU時間でトレーニングされる。
論文 参考訳(メタデータ) (2024-02-07T19:07:10Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - Robust Cross-Modal Representation Learning with Progressive
Self-Distillation [7.676408770854477]
CLIPの視覚言語アプローチの学習目的は、Webハーベスト画像キャプションデータセットに見られるノイズの多い多対多対応を効果的に考慮していない。
本研究では、進行的な自己蒸留とソフトな画像テキストアライメントを用いて、雑音の多いデータから頑健な表現をより効率的に学習するクロスモーダルコントラスト学習に基づく新しいトレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-10T03:28:18Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。