論文の概要: Predict, Prevent, and Evaluate: Disentangled Text-Driven Image
Manipulation Empowered by Pre-Trained Vision-Language Model
- arxiv url: http://arxiv.org/abs/2111.13333v1
- Date: Fri, 26 Nov 2021 06:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-29 16:40:04.857794
- Title: Predict, Prevent, and Evaluate: Disentangled Text-Driven Image
Manipulation Empowered by Pre-Trained Vision-Language Model
- Title(参考訳): 予測・予防・評価:事前学習型視覚言語モデルによるテキスト駆動型画像操作
- Authors: Zipeng Xu, Tianwei Lin, Hao Tang, Fu Li, Dongliang He, Nicu Sebe, Radu
Timofte, Luc Van Gool and Errui Ding
- Abstract要約: 本稿では,テキスト駆動型画像操作のための新しいフレームワーク,すなわち予測,予防,評価(PPE)を提案する。
提案手法は,大規模事前学習型視覚言語モデルCLIPのパワーを利用して,ターゲットにアプローチする。
大規模な実験により,提案したPEPフレームワークは,最新のStyleCLIPベースラインよりもはるかに定量的かつ定性的な結果が得られることが示された。
- 参考スコア(独自算出の注目度): 168.04947140367258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To achieve disentangled image manipulation, previous works depend heavily on
manual annotation. Meanwhile, the available manipulations are limited to a
pre-defined set the models were trained for. In this paper, we propose a novel
framework, i.e., Predict, Prevent, and Evaluate (PPE), for disentangled
text-driven image manipulation, which does not need manual annotation and thus
is not limited to fixed manipulations. Our method approaches the targets by
deeply exploiting the power of the large scale pre-trained vision-language
model CLIP. Concretely, we firstly Predict the possibly entangled attributes
for a given text command. Then, based on the predicted attributes, we introduce
an entanglement loss to Prevent entanglements during training. Finally, we
propose a new evaluation metric to Evaluate the disentangled image
manipulation. We verify the effectiveness of our method on the challenging face
editing task. Extensive experiments show that the proposed PPE framework
achieves much better quantitative and qualitative results than the up-to-date
StyleCLIP baseline.
- Abstract(参考訳): 絡み合った画像操作を実現するために、以前の作業は手動アノテーションに大きく依存している。
一方、利用可能な操作は、トレーニングされたモデルの事前定義されたセットに限られる。
本稿では,手作業によるアノテーションを必要とせず,固定操作に制限されない,テキスト駆動型画像操作のための新しいフレームワーク,すなわち予測・防止・評価(ppe)を提案する。
提案手法は,大規模事前学習型視覚言語モデルCLIPのパワーを深く活用することで,ターゲットにアプローチする。
具体的には、まず、与えられたテキストコマンドの絡み合った属性を予測します。
そして,予測属性に基づいて,トレーニング中の絡みを予防するために絡み合い損失を導入する。
最後に,不連続画像操作を評価するための新しい評価指標を提案する。
本手法が難解な顔編集作業における有効性を検証する。
大規模な実験により,提案したPEPフレームワークは,最新のStyleCLIPベースラインよりもはるかに定量的かつ定性的な結果が得られることが示された。
関連論文リスト
- Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。
我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文 参考訳(メタデータ) (2024-04-05T13:44:39Z) - CLIPtone: Unsupervised Learning for Text-based Image Tone Adjustment [23.36770607997754]
テキストベースの画像トーン調整手法であるCLIPtoneについて,教師なし学習に基づくアプローチを提案する。
提案手法の有効性は,ユーザスタディを含む総合的な実験を通じて実証される。
論文 参考訳(メタデータ) (2024-04-01T13:57:46Z) - Exploring Annotation-free Image Captioning with Retrieval-augmented Pseudo Sentence Generation [21.54093527562344]
本稿では,大規模事前学習モデル (LPM) からの事前知識を蒸留し, 監視として活用する新たな戦略を提案する。
具体的には,Retrieval-augmented Pseudo Sentence Generation (RaPSG)を導入する。
実験結果から,SOTAキャプションの精度は様々な設定で優れていた。
論文 参考訳(メタデータ) (2023-07-27T10:16:13Z) - Disentangled Pre-training for Image Matting [74.10407744483526]
画像マッチングは、深層モデルのトレーニングをサポートするために高品質なピクセルレベルの人間のアノテーションを必要とする。
本研究では、無限個のデータを活用する自己教師付き事前学習手法を提案し、マッチング性能を向上する。
論文 参考訳(メタデータ) (2023-04-03T08:16:02Z) - CLIP-PAE: Projection-Augmentation Embedding to Extract Relevant Features for a Disentangled, Interpretable, and Controllable Text-Guided Face Manipulation [4.078926358349661]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、画像とテキストを共同の潜在空間に埋め込むことでブリッジする。
共同空間における画像とテキストの埋め込みの相違により、最適化対象としてテキストの埋め込みを用いることで、結果の画像に望ましくないアーティファクトがしばしば導入される。
テキスト誘導画像操作の性能向上のための最適化ターゲットとして,CLIPプロジェクション拡張埋め込み(PAE)を導入する。
論文 参考訳(メタデータ) (2022-10-08T05:12:25Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - DenseCLIP: Language-Guided Dense Prediction with Context-Aware Prompting [91.56988987393483]
本稿では,CLIPから事前学習した知識を暗黙的かつ明示的に活用することで,高密度予測のための新しい枠組みを提案する。
具体的には,CLIPにおける元の画像テキストマッチング問題を画素テキストマッチング問題に変換し,画素テキストスコアマップを用いて高密度予測モデルの学習を指導する。
本手法は,任意の密集予測システムや種々の事前学習された視覚バックボーンに適用可能な,モデルに依存しない手法である。
論文 参考訳(メタデータ) (2021-12-02T18:59:32Z) - Generative Model-Based Loss to the Rescue: A Method to Overcome
Annotation Errors for Depth-Based Hand Pose Estimation [76.12736932610163]
本稿では,モデルに基づく生成損失を,ボリュームハンドモデルに基づく深度画像に基づく手ポーズ推定器の訓練に用いることを提案する。
この追加的な損失により、手振り推定器のトレーニングが可能となり、21個の手書きキーポイントのセット全体を正確に推測すると同時に、6つの手書きキーポイント(フィンガーチップと手首)の監視のみを使用する。
論文 参考訳(メタデータ) (2020-07-06T21:24:25Z) - Appearance Shock Grammar for Fast Medial Axis Extraction from Real
Images [10.943417197085882]
ショックグラフ理論のアイデアと、複雑な自然シーンからの中間軸抽出のためのより最近の外見に基づく手法を組み合わせる。
BMAX500およびSK-LARGEデータセットを用いた実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-04-06T13:57:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。