論文の概要: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural
Language Guidance
- arxiv url: http://arxiv.org/abs/2204.08583v1
- Date: Mon, 18 Apr 2022 22:57:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-21 01:25:33.619405
- Title: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural
Language Guidance
- Title(参考訳): VQGAN-CLIP: 自然言語誘導によるオープンドメイン画像生成と編集
- Authors: Katherine Crowson and Stella Biderman and Daniel Kornis and Dashiell
Stander and Eric Hallahan and Louis Castricato and Edward Raff
- Abstract要約: 本稿では,マルチモーダルエンコーダを用いて画像生成を誘導することにより,テキストプロンプトから高画質の画像を生成する手法を提案する。
VQGAN[11]をガイドするためにCLIP[37]を使用することで、提示されたタスクのトレーニングを受けなくても、以前よりも視覚的品質のアウトプットが向上することを示す。
- 参考スコア(独自算出の注目度): 22.441673142248426
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generating and editing images from open domain text prompts is a challenging
task that heretofore has required expensive and specially trained models. We
demonstrate a novel methodology for both tasks which is capable of producing
images of high visual quality from text prompts of significant semantic
complexity without any training by using a multimodal encoder to guide image
generations. We demonstrate on a variety of tasks how using CLIP [37] to guide
VQGAN [11] produces higher visual quality outputs than prior, less flexible
approaches like DALL-E [38], GLIDE [33] and Open-Edit [24], despite not being
trained for the tasks presented. Our code is available in a public repository.
- Abstract(参考訳): オープンドメインのテキストプロンプトから画像の生成と編集は、ここでは高価で特別に訓練されたモデルが必要だった課題である。
本稿では,マルチモーダルエンコーダを用いて画像生成のガイドを行うことにより,テキストプロンプトから高い視覚品質の画像を生成することが可能な2つのタスクの新たな手法を提案する。
VQGAN[11]をガイドするためにCLIP[37]を使用すると、提示されたタスクのトレーニングを受けなくても、DALL-E[38]、GLIDE [33]、Open-Edit [24]のような、より柔軟なアプローチよりも、視覚的品質のアウトプットがより高くなることを示す。
私たちのコードはパブリックリポジトリで利用可能です。
関連論文リスト
- Text-Driven Image Editing via Learnable Regions [79.87674394912302]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。
この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。
実験では,提案した言語記述と一致した高忠実度およびリアリズムの画像操作において,提案手法の競合性能を示す。
論文 参考訳(メタデータ) (2023-11-28T02:27:31Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - TextCLIP: Text-Guided Face Image Generation And Manipulation Without
Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。
提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2023-09-21T09:34:20Z) - CoPL: Contextual Prompt Learning for Vision-Language Understanding [21.709017504227823]
画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。
これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。
本手法は, 工法の現状と比較して, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-07-03T10:14:33Z) - The CLIP Model is Secretly an Image-to-Prompt Converter [26.92989288717742]
本稿は,CLIPモデルが安定拡散で利用されるように,画像のテキストプロンプトへの即時変換機能を備えていることを実証する。
このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
論文 参考訳(メタデータ) (2023-05-22T04:52:12Z) - MaMMUT: A Simple Architecture for Joint Learning for MultiModal Tasks [59.09343552273045]
本稿では,これらの異なる視覚言語タスクの協調学習に驚くほど有効であるマルチモーダルタスクのためのデコーダのみのモデルを提案する。
これらの多様な目的の合同学習は単純で効果的であり、これらのタスク間でのモデルの重量共有を最大化することを示した。
我々のモデルは,画像テキストとテキスト画像検索,ビデオ質問応答,オープン語彙検出タスクにおける技術の現状を達成し,より大きく,より広範囲に訓練された基礎モデルよりも優れている。
論文 参考訳(メタデータ) (2023-03-29T16:42:30Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - TAG: Boosting Text-VQA via Text-aware Visual Question-answer Generation [55.83319599681002]
Text-VQAは、画像中のテキストの手がかりを理解する必要がある質問に答えることを目的としている。
画像のシーンコンテキストで利用可能な既存のリッチテキストを明示的に利用することにより,高品質で多様なQAペアを生成する方法を開発した。
論文 参考訳(メタデータ) (2022-08-03T02:18:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。