Fugu-MT 論文翻訳(概要): VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance

論文の概要: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance

arxiv url: http://arxiv.org/abs/2204.08583v1
Date: Mon, 18 Apr 2022 22:57:29 GMT
ステータス: 翻訳完了
システム内更新日: 2022-04-21 01:25:33.619405
Title: VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance
Title（参考訳）: VQGAN-CLIP: 自然言語誘導によるオープンドメイン画像生成と編集
Authors: Katherine Crowson and Stella Biderman and Daniel Kornis and Dashiell Stander and Eric Hallahan and Louis Castricato and Edward Raff
Abstract要約: 本稿では,マルチモーダルエンコーダを用いて画像生成を誘導することにより,テキストプロンプトから高画質の画像を生成する手法を提案する。 VQGAN[11]をガイドするためにCLIP[37]を使用することで、提示されたタスクのトレーニングを受けなくても、以前よりも視覚的品質のアウトプットが向上することを示す。
参考スコア（独自算出の注目度）: 22.441673142248426
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Generating and editing images from open domain text prompts is a challenging task that heretofore has required expensive and specially trained models. We demonstrate a novel methodology for both tasks which is capable of producing images of high visual quality from text prompts of significant semantic complexity without any training by using a multimodal encoder to guide image generations. We demonstrate on a variety of tasks how using CLIP [37] to guide VQGAN [11] produces higher visual quality outputs than prior, less flexible approaches like DALL-E [38], GLIDE [33] and Open-Edit [24], despite not being trained for the tasks presented. Our code is available in a public repository.
Abstract（参考訳）: オープンドメインのテキストプロンプトから画像の生成と編集は、ここでは高価で特別に訓練されたモデルが必要だった課題である。本稿では,マルチモーダルエンコーダを用いて画像生成のガイドを行うことにより,テキストプロンプトから高い視覚品質の画像を生成することが可能な2つのタスクの新たな手法を提案する。 VQGAN[11]をガイドするためにCLIP[37]を使用すると、提示されたタスクのトレーニングを受けなくても、DALL-E[38]、GLIDE [33]、Open-Edit [24]のような、より柔軟なアプローチよりも、視覚的品質のアウトプットがより高くなることを示す。私たちのコードはパブリックリポジトリで利用可能です。

関連論文リスト

Visually Guided Decoding: Gradient-Free Hard Prompt Inversion with Language Models [24.203389418820123]
Visually Guided Decoding(VGD)は、大規模言語モデルとCLIPベースのガイダンスを活用して、一貫性とセマンティックに整合したプロンプトを生成する、勾配のないアプローチである。我々の実験は、VGDが既存のプロンプトインバージョン技術よりも理解しやすく、文脈的に関係のあるプロンプトを生成することを実証している。
論文参考訳（メタデータ） (2025-05-13T14:40:22Z)
Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文参考訳（メタデータ） (2024-12-09T18:51:05Z)
Conditional Text-to-Image Generation with Reference Guidance [81.99538302576302]
本稿では,拡散モデルを生成するために,特定の対象の視覚的ガイダンスを提供する画像の追加条件を用いて検討する。我々は、異なる参照を取る能力を持つ安定拡散モデルを効率的に支持する、小規模のエキスパートプラグインを複数開発する。専門的なプラグインは、すべてのタスクにおいて既存のメソッドよりも優れた結果を示し、それぞれ28.55Mのトレーニング可能なパラメータしか含まない。
論文参考訳（メタデータ） (2024-11-22T21:38:51Z)
ProGEO: Generating Prompts through Image-Text Contrastive Learning for Visual Geo-localization [0.0]
そこで本稿では,視覚性能を向上させるための2段階学習手法を提案する。提案手法の有効性を複数の大規模視覚的ジオローカライゼーションデータセットで検証する。
論文参考訳（メタデータ） (2024-06-04T02:28:51Z)
PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。多様な命令追跡データの欠如は、モデルの開発を妨げている。本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文参考訳（メタデータ） (2024-05-27T03:13:28Z)
Analogist: Out-of-the-box Visual In-Context Learning with Image Diffusion Model [25.47573567479831]
本稿では,視覚とテキストの両方のプロンプト技術を利用した新しい推論に基づく視覚的ICL手法を提案する。提案手法はアウト・オブ・ボックスであり,微調整や最適化は不要である。
論文参考訳（メタデータ） (2024-05-16T17:59:21Z)
Text-Driven Image Editing via Learnable Regions [74.45313434129005]
本研究では,ユーザが提供するマスクやスケッチを必要とせずに,テキストプロンプトによって駆動される領域ベースの画像編集手法を提案する。この単純なアプローチにより、現在の画像生成モデルと互換性のあるフレキシブルな編集が可能になることを示す。実験では,提案した言語記述に対応する忠実度とリアリズムの高い画像の操作において,提案手法の競合性能を示す。
論文参考訳（メタデータ） (2023-11-28T02:27:31Z)
Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文参考訳（メタデータ） (2023-10-16T15:32:57Z)
InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。 InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文参考訳（メタデータ） (2023-09-30T14:26:43Z)
TextCLIP: Text-Guided Face Image Generation And Manipulation Without Adversarial Training [5.239585892767183]
本研究では,テキスト誘導画像生成と操作のための統合フレームワークであるTextCLIPを提案する。提案手法は,テキスト誘導型生成タスクと操作タスクの両方において,既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2023-09-21T09:34:20Z)
The CLIP Model is Secretly an Image-to-Prompt Converter [26.92989288717742]
本稿は,CLIPモデルが安定拡散で利用されるように,画像のテキストプロンプトへの即時変換機能を備えていることを実証する。このような画像からプロンプトへの変換は、閉形式で計算される線形射影行列を利用することで実現できる。
論文参考訳（メタデータ） (2023-05-22T04:52:12Z)
Images Speak in Images: A Generalist Painter for In-Context Visual Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文参考訳（メタデータ） (2022-12-05T18:59:50Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。