論文の概要: In-Context Learning Unlocked for Diffusion Models
- arxiv url: http://arxiv.org/abs/2305.01115v2
- Date: Wed, 18 Oct 2023 21:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-20 20:30:48.251957
- Title: In-Context Learning Unlocked for Diffusion Models
- Title(参考訳): 拡散モデルのための文脈内学習
- Authors: Zhendong Wang, Yifan Jiang, Yadong Lu, Yelong Shen, Pengcheng He,
Weizhu Chen, Zhangyang Wang, Mingyuan Zhou
- Abstract要約: 本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
- 参考スコア(独自算出の注目度): 163.54453915874402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Prompt Diffusion, a framework for enabling in-context learning in
diffusion-based generative models. Given a pair of task-specific example
images, such as depth from/to image and scribble from/to image, and a text
guidance, our model automatically understands the underlying task and performs
the same task on a new query image following the text guidance. To achieve
this, we propose a vision-language prompt that can model a wide range of
vision-language tasks and a diffusion model that takes it as input. The
diffusion model is trained jointly over six different tasks using these
prompts. The resulting Prompt Diffusion model is the first diffusion-based
vision-language foundation model capable of in-context learning. It
demonstrates high-quality in-context generation on the trained tasks and
generalizes effectively to new, unseen vision tasks with their respective
prompts. Our model also shows compelling text-guided image editing results. Our
framework aims to facilitate research into in-context learning for computer
vision. We share our code and pre-trained models at
https://github.com/Zhendong-Wang/Prompt-Diffusion.
- Abstract(参考訳): 本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
画像からの奥行きや画像からのクリブルといったタスク固有のサンプル画像とテキストガイダンスとを組み合わせることで,基礎タスクを自動的に理解し,テキストガイダンスに従って新たなクエリ画像上で同じタスクを実行する。
そこで本研究では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
拡散モデルは、これらのプロンプトを用いて6つの異なるタスクで共同で訓練される。
その結果得られたプロンプト拡散モデルは、コンテキスト内学習が可能な最初の拡散ベースの視覚言語基礎モデルである。
トレーニングされたタスクに対して高品質なインコンテキスト生成を示し、各プロンプトで新しい、目に見えない視覚タスクに効果的に一般化する。
また,本モデルではテキストガイドによる画像編集結果も提示する。
本フレームワークは,コンピュータビジョンにおけるコンテキスト内学習の促進を目的としている。
コードとトレーニング済みのモデルをhttps://github.com/zhendong-wang/prompt-diffusionで共有しています。
関連論文リスト
- DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Context Diffusion: In-Context Aware Image Generation [29.281927418777624]
コンテキスト拡散(Context Diffusion)は、画像生成モデルがコンテキストで提示された視覚的な例から学ぶことを可能にする拡散ベースのフレームワークである。
実験とユーザスタディにより、Context Diffusionはドメイン内タスクとドメイン外タスクの両方で優れています。
論文 参考訳(メタデータ) (2023-12-06T16:19:51Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - SUR-adapter: Enhancing Text-to-Image Pre-trained Diffusion Models with
Large Language Models [56.88192537044364]
本研究では,事前学習拡散モデルに対するセマンティック・アダプタ (SUR-adapter) と呼ばれる簡易なパラメータ効率の良い微調整手法を提案する。
ユーザエクスペリエンスの向上により,テキストから画像への拡散モデルの使いやすさが向上する。
論文 参考訳(メタデータ) (2023-05-09T05:48:38Z) - Unleashing Text-to-Image Diffusion Models for Visual Perception [84.41514649568094]
VPD (Visual Perception with a pre-trained diffusion model) は、視覚知覚タスクにおいて、事前訓練されたテキスト・画像拡散モデルの意味情報を利用する新しいフレームワークである。
本稿では,提案したVPDを用いて,下流の視覚的タスクに迅速に適応できることを示す。
論文 参考訳(メタデータ) (2023-03-03T18:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。