論文の概要: Implicit Inversion turns CLIP into a Decoder
- arxiv url: http://arxiv.org/abs/2505.23161v1
- Date: Thu, 29 May 2025 06:55:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.721554
- Title: Implicit Inversion turns CLIP into a Decoder
- Title(参考訳): Implicit InversionはCLIPをデコーダに変える
- Authors: Antonio D'Orazio, Maria Rosaria Briglia, Donato Crisostomi, Dario Loi, Emanuele Rodolà, Iacopo Masi,
- Abstract要約: 画像合成はCLIPだけで可能であり、デコーダ、トレーニング、微調整は不要である。
提案手法は,ネットワーク層間を階層化することで,粗大から粗大な生成を促進する,周波数認識型暗黙的ニューラル表現を最適化する。
CLIPの重みを変更することなく、このフレームワークはテキスト・ツー・イメージ生成、スタイル転送、イメージ再構成などの機能をアンロックする。
- 参考スコア(独自算出の注目度): 15.428694454730541
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: CLIP is a discriminative model trained to align images and text in a shared embedding space. Due to its multimodal structure, it serves as the backbone of many generative pipelines, where a decoder is trained to map from the shared space back to images. In this work, we show that image synthesis is nevertheless possible using CLIP alone -- without any decoder, training, or fine-tuning. Our approach optimizes a frequency-aware implicit neural representation that encourages coarse-to-fine generation by stratifying frequencies across network layers. To stabilize this inverse mapping, we introduce adversarially robust initialization, a lightweight Orthogonal Procrustes projection to align local text and image embeddings, and a blending loss that anchors outputs to natural image statistics. Without altering CLIP's weights, this framework unlocks capabilities such as text-to-image generation, style transfer, and image reconstruction. These findings suggest that discriminative models may hold untapped generative potential, hidden in plain sight.
- Abstract(参考訳): CLIPは、画像とテキストを共有埋め込み空間で整列するように訓練された差別モデルである。
マルチモーダル構造のため、多くの生成パイプラインのバックボーンとして機能し、デコーダが共有空間からイメージへマップするように訓練される。
この研究で、画像合成はCLIPだけで可能であり、デコーダ、トレーニング、微調整は不要である。
提案手法は,ネットワーク層にまたがる周波数を階層化することによって,粗大な粒度生成を促進する,周波数認識型暗黙的ニューラル表現を最適化する。
この逆写像を安定化するために、逆向きに頑健な初期化、局所テキストと画像埋め込みを整列させる軽量な直交プロクリストプロジェクション、および自然画像統計に出力を固定するブレンディングロスを導入する。
CLIPの重みを変更することなく、このフレームワークはテキスト・ツー・イメージ生成、スタイル転送、イメージ再構成などの機能をアンロックする。
これらの結果から, 識別モデルには未発見の生殖能力があり, 視界に隠れている可能性が示唆された。
関連論文リスト
- Spectral Image Tokenizer [21.84385276311364]
Image tokenizersは、画像を個別のトークンのシーケンスにマップする。
離散ウェーブレット変換(DWT)から得られる画像スペクトルのトークン化を提案する。
我々はトークン化のメトリクスをマルチスケール画像生成、テキスト誘導画像アップサンプリング、編集として評価する。
論文 参考訳(メタデータ) (2024-12-12T18:59:31Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - In-Domain GAN Inversion for Faithful Reconstruction and Editability [132.68255553099834]
ドメイン誘導型ドメイン正規化とエンコーダで構成されたドメイン内GANインバージョンを提案し、事前学習されたGANモデルのネイティブ潜在空間における反転コードを正規化する。
エンコーダ構造,開始反転点,および逆パラメータ空間の効果を総合的に解析し,再構成品質と編集特性とのトレードオフを観察する。
論文 参考訳(メタデータ) (2023-09-25T08:42:06Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - CLIP-NeRF: Text-and-Image Driven Manipulation of Neural Radiance Fields [33.43993665841577]
ニューラルレイディアンスフィールド(NeRF)のためのマルチモーダル3次元オブジェクト操作法であるCLIP-NeRFを提案する。
ユーザフレンドリーな方法でNeRFを操作できる統一的なフレームワークを提案する。
我々は、様々なテキストプロンプトや模範画像に関する広範な実験により、我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-12-09T18:59:55Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Exploiting Deep Generative Prior for Versatile Image Restoration and
Manipulation [181.08127307338654]
本研究は, 大規模自然画像に基づいて学習したGAN(Generative Adversarial Network)により, 得られた画像の有効利用方法を示す。
深層生成前駆体(DGP)は、色、パッチ、解像度、様々な劣化した画像の欠落したセマンティクスを復元するための説得力のある結果を提供する。
論文 参考訳(メタデータ) (2020-03-30T17:45:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。