論文の概要: CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector
Graphics
- arxiv url: http://arxiv.org/abs/2212.02122v2
- Date: Sun, 7 May 2023 06:29:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 23:46:11.375895
- Title: CLIPVG: Text-Guided Image Manipulation Using Differentiable Vector
Graphics
- Title(参考訳): CLIPVG:微分ベクトルグラフを用いたテキストガイド画像操作
- Authors: Yiren Song, Xuning Shao, Kang Chen, Weidong Zhang, Minzhe Li,
Zhongliang Jing
- Abstract要約: 微分ベクトルグラフィックスを用いたテキスト誘導画像操作フレームワークであるCLIPVGを紹介する。
私たちはCLIPVGが意味的正しさと合成品質の両方で最先端のパフォーマンスを達成するだけでなく、既存のすべてのメソッドの能力を超える様々なアプリケーションをサポートするのに十分な柔軟性を持っていることを実証した。
- 参考スコア(独自算出の注目度): 10.245756065690436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Considerable progress has recently been made in leveraging CLIP (Contrastive
Language-Image Pre-Training) models for text-guided image manipulation.
However, all existing works rely on additional generative models to ensure the
quality of results, because CLIP alone cannot provide enough guidance
information for fine-scale pixel-level changes. In this paper, we introduce
CLIPVG, a text-guided image manipulation framework using differentiable vector
graphics, which is also the first CLIP-based general image manipulation
framework that does not require any additional generative models. We
demonstrate that CLIPVG can not only achieve state-of-art performance in both
semantic correctness and synthesis quality, but also is flexible enough to
support various applications far beyond the capability of all existing methods.
- Abstract(参考訳): CLIP(Contrastive Language- Image Pre-Training)モデルをテキスト誘導イメージ操作に活用する上で、考慮すべき進歩が最近行われた。
しかし、CLIPだけでは微細なピクセルレベルの変更に対して十分なガイダンス情報を提供できないため、既存のすべての研究は結果の品質を保証するために追加の生成モデルに依存している。
本稿では,テキストガイドによるベクトルグラフィックスを用いた画像操作フレームワークである clipvg を紹介する。このフレームワークは,新たな生成モデルを必要としない最初のクリップベースの汎用画像操作フレームワークでもある。
私たちはCLIPVGが意味的正しさと合成品質の両方で最先端のパフォーマンスを達成できるだけでなく、既存のすべてのメソッドの能力を超える様々なアプリケーションをサポートするのに十分な柔軟性を持つことを示した。
関連論文リスト
- StrokeNUWA: Tokenizing Strokes for Vector Graphic Synthesis [112.25071764647683]
StrokeNUWAはベクターグラフィックスにおけるより良い視覚表現'ストロークトークン'を探求する先駆的な研究である。
ストロークトークンを備えたStrokeNUWAは、従来のLCMベースの最適化ベースのメソッドを大幅に上回ることができる。
StrokeNUWAは、SVGコード圧縮比が6.9%の従来の手法よりも94倍のスピードアップを達成している。
論文 参考訳(メタデータ) (2024-01-30T15:20:26Z) - CLIP meets Model Zoo Experts: Pseudo-Supervision for Visual Enhancement [65.47237619200442]
Contrastive Language Image Pretraining (CLIP)は、視覚言語モデルを訓練するための標準手法である。
モデル動物園からのタスク固有の視覚モデルを用いてCLIPトレーニングを強化し、視覚的表現を改善する。
この単純なセットアップは、異なるビジョンタスク間で最大16.3%の大幅な改善を示している。
論文 参考訳(メタデータ) (2023-10-21T20:20:13Z) - Fooling Contrastive Language-Image Pre-trained Models with CLIPMasterPrints [15.643898659673036]
汎用性にも拘わらず、CLIPモデルは、マスタイメージをだますものとして、私たちが言うものに対して脆弱であることを示す。
フーリングマスターイメージは、CLIPモデルの信頼性スコアを最大化し、広範囲に変化するプロンプトのかなりの数に設定することができる。
私たちはCLIPMasterPrintsのマスターイメージが、勾配降下、投影降下、ブラックボックス最適化によってどのようにマイニングされるかを実証する。
論文 参考訳(メタデータ) (2023-07-07T18:54:11Z) - From Association to Generation: Text-only Captioning by Unsupervised
Cross-modal Mapping [20.67415815472257]
画像キャプションとビデオキャプションの関連付けから生成までのゼロショット手法を提案する。
Knight State-of-the-Artは、画像キャプションとビデオキャプションのゼロショット方式でパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-04-26T04:06:20Z) - CLIPPO: Image-and-Language Understanding from Pixels Only [36.433133689137875]
我々は、画像、テキスト、マルチモーダルタスクを実行するための純粋なピクセルベースモデルを提案する。
我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。
画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは自然言語理解タスクでうまく機能する。
論文 参考訳(メタデータ) (2022-12-15T18:52:08Z) - Fine-tuned CLIP Models are Efficient Video Learners [54.96069171726668]
画像テキストペアによる大規模マルチモーダルトレーニングは、CLIPモデルに強力な一般化を与える。
Video Fine-Tuned CLIP (ViFi-CLIP) ベースラインは一般的に、画像からビデオへの領域ギャップを埋めるのに十分である。
論文 参考訳(メタデータ) (2022-12-06T18:59:58Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery [71.1862388442953]
StyleGAN画像操作のためのテキストベースのインターフェースを開発しています。
まず,ユーザが提案するテキストプロンプトに応答して,CLIPに基づく損失を利用して入力潜時ベクトルを変更する最適化手法を提案する。
次に、与えられた入力画像に対してテキスト誘導の潜時操作ステップを推論し、より高速で安定したテキストベースの操作を可能にする潜時マッパーについて述べる。
論文 参考訳(メタデータ) (2021-03-31T17:51:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。