論文の概要: Image-Based CLIP-Guided Essence Transfer
- arxiv url: http://arxiv.org/abs/2110.12427v1
- Date: Sun, 24 Oct 2021 12:46:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-26 16:01:47.650304
- Title: Image-Based CLIP-Guided Essence Transfer
- Title(参考訳): 画像ベースCLIP-Guided Essence Transfer
- Authors: Hila Chefer, Sagie Benaim, Roni Paiss, Lior Wolf
- Abstract要約: CLIPは、マッチした画像とテキストキャプションの大きなコーパスでトレーニングされる。
ゼロショットコンピュータビジョンタスクには極めて適していることが示されている。
- 参考スコア(独自算出の注目度): 83.09110547792103
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: CLIP is trained on a large corpus of matched images and text captions and is,
therefore, much richer semantically than networks that perform multiclass
classification for a limited number of classes only. It has been shown to be
extremely suitable for zero-shot computer vision tasks; here, we demonstrate
its ability to support semantic blending. While the StyleGAN space already
performs reasonable blending for images of, e.g., two children, it struggles
when blending images with different attributes. On the other hand, CLIP by
itself struggles to maintain identity when blending. The combination of the two
seems to provide a powerful blending technique, which enjoys the benefits of
both representations. This is enabled through a novel method, which assumes
additivity in the first latent space and ensures additivity in the second
through optimization.
- Abstract(参考訳): CLIPは、マッチした画像とテキストキャプションの大規模なコーパスに基づいて訓練されており、限られた数のクラスのみをマルチクラス分類するネットワークよりも、意味的にはるかにリッチである。
ゼロショットコンピュータビジョンタスクには極めて適していることが示されているが、ここではセマンティックブレンディングをサポートする能力を示す。
スタイルガン空間は、例えば2人の子供の画像を合理的にブレンドするが、異なる属性のイメージをブレンドする場合に苦労する。
一方、CLIP自体は、ブレンディング時にアイデンティティを維持するのに苦労している。
この2つの組み合わせは強力なブレンディング技術を提供し、両方の表現の利点を享受している。
これは、第1の潜在空間における加法性を仮定し、最適化を通じて第2の加法性を保証する新しい方法によって実現される。
関連論文リスト
- I2I-Galip: Unsupervised Medical Image Translation Using Generative Adversarial CLIP [30.506544165999564]
ペアの例が存在しないため、画像から画像への翻訳は難しい作業である。
我々はイメージ・ツー・イメージ・ジェネレーティブ・アドバイザリアル・CLIP (I2I-Galip) という新しい画像・画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-19T01:44:50Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - Gradient Adjusting Networks for Domain Inversion [82.72289618025084]
StyleGAN2はセマンティック編集をサポートする強力な画像生成エンジンであることが実証された。
本稿では,画像毎の最適化手法を提案する。この手法は,生成元の重みを局所的に編集できるように,StyleGAN2ジェネレータをチューニングする。
我々の実験は、この非常にアクティブな領域における最先端技術よりも大きなパフォーマンス差を示している。
論文 参考訳(メタデータ) (2023-02-22T14:47:57Z) - CLIP2GAN: Towards Bridging Text with the Latent Space of GANs [128.47600914674985]
本稿では,CLIPモデルとStyleGANを利用した新しいフレームワークであるCLIP2GANを提案する。
CLIP2GANのキーとなるアイデアは、CLIPの出力機能埋め込みスペースとStyleGANの入力潜在スペースをブリッジすることです。
論文 参考訳(メタデータ) (2022-11-28T04:07:17Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - A Unified Architecture of Semantic Segmentation and Hierarchical
Generative Adversarial Networks for Expression Manipulation [52.911307452212256]
セマンティックセグメンテーションと階層的GANの統一アーキテクチャを開発する。
我々のフレームワークのユニークな利点は、将来的なセマンティックセグメンテーションネットワーク条件を生成モデルに渡すことである。
我々は,AffectNetとRaFDの2つの難解な表情翻訳ベンチマークとセマンティックセグメンテーションベンチマークであるCelebAMask-HQについて評価を行った。
論文 参考訳(メタデータ) (2021-12-08T22:06:31Z) - DiverGAN: An Efficient and Effective Single-Stage Framework for Diverse
Text-to-Image Generation [7.781425222538382]
DiverGANは、自然言語による記述に従って、多様で、可塑性で、セマンティックに一貫性のある画像を生成するためのフレームワークである。
DiverGANは2つの新しいワードレベルアテンションモジュール、すなわちチャネルアテンションモジュール(CAM)とピクセルアテンションモジュール(PAM)を採用する。
条件適応型インスタンス-階層正規化(CAdaILN)を導入し、文の埋め込みから、形やテクスチャの変化量を柔軟に操作する言語的手がかりを実現する。
論文 参考訳(メタデータ) (2021-11-17T17:59:56Z) - SegMix: Co-occurrence Driven Mixup for Semantic Segmentation and
Adversarial Robustness [29.133980156068482]
本稿では,競合する仮説から生じる干渉を効果的に解決するために,畳み込みニューラルネットワークを訓練する戦略を提案する。
この前提は機能バインディングの概念に基づいており、ネットワーク内の層と空間にまたがるアクティベーションがうまく統合され、正しい推論決定に達するプロセスとして定義される。
論文 参考訳(メタデータ) (2021-08-23T04:35:48Z) - Feature Sharing Cooperative Network for Semantic Segmentation [10.305130700118399]
協調学習を用いた意味セグメンテーション手法を提案する。
特徴マップを共有することにより、2つのネットワークのうちの1つが1つのネットワークで取得できない情報を得ることができる。
提案手法は従来の単一ネットワークやネットワークアンサンブルよりも高いセグメンテーション精度を実現した。
論文 参考訳(メタデータ) (2021-01-20T00:22:00Z) - OneGAN: Simultaneous Unsupervised Learning of Conditional Image
Generation, Foreground Segmentation, and Fine-Grained Clustering [100.32273175423146]
本研究では、教師なしの方法で、条件付き画像生成装置、前景抽出とセグメンテーション、オブジェクトの削除と背景補完を同時に学習する方法を提案する。
Geneversarative Adrial Network と Variational Auto-Encoder を組み合わせることで、複数のエンコーダ、ジェネレータ、ディスクリミネータを組み合わせ、全てのタスクを一度に解くことができる。
論文 参考訳(メタデータ) (2019-12-31T18:15:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。