論文の概要: On mitigating stability-plasticity dilemma in CLIP-guided image morphing
via geodesic distillation loss
- arxiv url: http://arxiv.org/abs/2401.10526v1
- Date: Fri, 19 Jan 2024 07:06:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 16:45:21.825251
- Title: On mitigating stability-plasticity dilemma in CLIP-guided image morphing
via geodesic distillation loss
- Title(参考訳): ジオデシック蒸留損失を利用したCLIP誘導画像形成における安定性・塑性ジレンマの緩和について
- Authors: Yeongtak Oh, Saehyung Lee, Uiwon Hwang, Sungroh Yoon
- Abstract要約: CLIPのような大規模言語ビジョンの事前学習モデルでは、テキスト誘導による画像モーフィングが顕著に達成されている。
既存のCLIP誘導画像改質法は、フォトリアリスティック画像の改質時に困難に遭遇する。
提案手法は,CLIP-inversionを含む様々なベンチマークにおいて,画像とビデオの両方において優れたモーフィング結果が得られる。
- 参考スコア(独自算出の注目度): 38.31276786740577
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale language-vision pre-training models, such as CLIP, have achieved
remarkable text-guided image morphing results by leveraging several
unconditional generative models. However, existing CLIP-guided image morphing
methods encounter difficulties when morphing photorealistic images.
Specifically, existing guidance fails to provide detailed explanations of the
morphing regions within the image, leading to misguidance. In this paper, we
observed that such misguidance could be effectively mitigated by simply using a
proper regularization loss. Our approach comprises two key components: 1) a
geodesic cosine similarity loss that minimizes inter-modality features (i.e.,
image and text) on a projected subspace of CLIP space, and 2) a latent
regularization loss that minimizes intra-modality features (i.e., image and
image) on the image manifold. By replacing the na\"ive directional CLIP loss in
a drop-in replacement manner, our method achieves superior morphing results on
both images and videos for various benchmarks, including CLIP-inversion.
- Abstract(参考訳): CLIPのような大規模言語ビジョン事前学習モデルは、いくつかの非条件生成モデルを活用することで、テキスト誘導画像の顕著なモーフィングを実現している。
しかし, 既存のCLIP誘導画像改質法では, 光写実画像の改質が困難である。
具体的には、既存のガイダンスでは画像内の変形領域の詳細な説明が得られず、誤認につながる。
そこで本研究では,正規化損失を正規化することで,このような誤用を効果的に軽減できることを示した。
私たちのアプローチには2つの重要な要素があります。
1)CLIP空間の投影部分空間上のモード間特徴(画像とテキスト)を最小化する測地的コサイン類似性損失
2)画像多様体上のモダリティ内特徴(画像と画像)を最小限に抑える潜在正規化損失。
そこで本手法は,CLIP-inversionを含む様々なベンチマークにおいて,画像とビデオの両方において,より優れたモーフィング結果が得られることを示す。
関連論文リスト
- It's Not a Modality Gap: Characterizing and Addressing the Contrastive Gap [4.437949196235149]
CLIPのような2エンコーダコントラストモデルでは、モダリティギャップが報告されている。
これらの要因を全て考慮しても、対照的な損失は実際にトレーニング中にギャップを生じさせます。
この対照的なギャップがCLIP空間の低均一性に起因する証拠を提示する。
論文 参考訳(メタデータ) (2024-05-28T20:28:07Z) - Bridging CLIP and StyleGAN through Latent Alignment for Image Editing [33.86698044813281]
我々はCLIPとStyleGANを橋渡し、推論時最適化のない多様な操作方向マイニングを実現する。
このマッピング方式により、GANインバージョン、テキスト・ツー・イメージ生成、テキスト駆動画像操作を実現することができる。
論文 参考訳(メタデータ) (2022-10-10T09:17:35Z) - Invertible Rescaling Network and Its Extensions [118.72015270085535]
本研究では,新たな視点から双方向の劣化と復元をモデル化する,新しい可逆的枠組みを提案する。
我々は、有効な劣化画像を生成し、失われたコンテンツの分布を変換する可逆モデルを開発する。
そして、ランダムに描画された潜在変数とともに、生成された劣化画像に逆変換を適用することにより、復元可能とする。
論文 参考訳(メタデータ) (2022-10-09T06:58:58Z) - Gradient Variance Loss for Structure-Enhanced Image Super-Resolution [16.971608518924597]
構造強調損失関数(Gradient Variance(GV)損失)を導入し,知覚特性の詳細でテクスチャを生成する。
実験の結果,GV損失は,既存の画像超解像(SR)深層学習モデルにおいて,構造類似度(SSIM)とピーク信号-雑音比(PSNR)の両方を著しく改善できることがわかった。
論文 参考訳(メタデータ) (2022-02-02T12:31:05Z) - Learning Discriminative Shrinkage Deep Networks for Image Deconvolution [122.79108159874426]
本稿では,これらの用語を暗黙的にモデル化する識別的縮小関数を学習することで,効果的に非盲検デコンボリューション手法を提案する。
実験結果から,提案手法は最先端の手法に対して,効率と精度の点で好適に動作することがわかった。
論文 参考訳(メタデータ) (2021-11-27T12:12:57Z) - Spatially-Adaptive Image Restoration using Distortion-Guided Networks [51.89245800461537]
空間的に変化する劣化に苦しむ画像の復元のための学習ベースソリューションを提案する。
本研究では、歪み局所化情報を活用し、画像中の困難な領域に動的に適応するネットワーク設計であるSPAIRを提案する。
論文 参考訳(メタデータ) (2021-08-19T11:02:25Z) - The Spatially-Correlative Loss for Various Image Translation Tasks [69.62228639870114]
シーン構造の一貫性を保つために、シンプルで効率的かつ効果的な新しい空間相関損失を提案します。
以前の方法は、ピクセルレベルのサイクル一貫性または特徴レベルのマッチング損失を使用してこれを試みます。
I2I翻訳の3つのモードすべてにおいて,ベースラインモデルに対して,単一モーダル,マルチモーダル,さらには単一イメージ翻訳において,明確な改善が見られた。
論文 参考訳(メタデータ) (2021-04-02T02:13:30Z) - Contour Loss for Instance Segmentation via k-step Distance
Transformation Image [5.02853371403908]
インスタンスセグメンテーションは、画像内のターゲットを特定し、各ターゲット領域をピクセルレベルでセグメンテーションすることを目指しています。
Mask R-CNNは、インスタンスセグメンテーションの古典的な方法ですが、その予測マスクは不明確で輪郭の近くで不正確です。
より正確なインスタンスセグメンテーションを保証できるcontour lossと呼ばれる新しい損失関数を提案する。
論文 参考訳(メタデータ) (2021-02-22T09:35:35Z) - Invertible Image Rescaling [118.2653765756915]
Invertible Rescaling Net (IRN) を開発した。
我々は、ダウンスケーリングプロセスにおいて、指定された分布に従う潜在変数を用いて、失われた情報の分布をキャプチャする。
論文 参考訳(メタデータ) (2020-05-12T09:55:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。