論文の概要: InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision
Generalists
- arxiv url: http://arxiv.org/abs/2310.00390v1
- Date: Sat, 30 Sep 2023 14:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 04:40:52.741983
- Title: InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision
Generalists
- Title(参考訳): InstructCV:ビジョンジェネラリストとしてのインストラクション付きテキスト-画像拡散モデル
- Authors: Yulu Gan, Sungwoo Park, Alexander Schubert, Anthony Philippakis, Ahmed
M. Alaa
- Abstract要約: 我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
- 参考スコア(独自算出の注目度): 70.83664336391922
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in generative diffusion models have enabled text-controlled
synthesis of realistic and diverse images with impressive quality. Despite
these remarkable advances, the application of text-to-image generative models
in computer vision for standard visual recognition tasks remains limited. The
current de facto approach for these tasks is to design model architectures and
loss functions that are tailored to the task at hand. In this paper, we develop
a unified language interface for computer vision tasks that abstracts away
task-specific design choices and enables task execution by following natural
language instructions. Our approach involves casting multiple computer vision
tasks as text-to-image generation problems. Here, the text represents an
instruction describing the task, and the resulting image is a visually-encoded
task output. To train our model, we pool commonly-used computer vision datasets
covering a range of tasks, including segmentation, object detection, depth
estimation, and classification. We then use a large language model to
paraphrase prompt templates that convey the specific tasks to be conducted on
each image, and through this process, we create a multi-modal and multi-task
training dataset comprising input and output images along with annotated
instructions. Following the InstructPix2Pix architecture, we apply
instruction-tuning to a text-to-image diffusion model using our constructed
dataset, steering its functionality from a generative model to an
instruction-guided multi-task vision learner. Experiments demonstrate that our
model, dubbed InstructCV, performs competitively compared to other generalist
and task-specific vision models. Moreover, it exhibits compelling
generalization capabilities to unseen data, categories, and user instructions.
- Abstract(参考訳): 近年の生成拡散モデルの進歩により、テキスト制御によるリアルで多彩な画像の合成が可能となった。
これらの顕著な進歩にもかかわらず、標準的な視覚認識タスクに対するコンピュータビジョンにおけるテキストから画像への生成モデルの適用は限られている。
これらのタスクの現在の事実上のアプローチは、そのタスクに合わせたモデルアーキテクチャと損失関数を設計することである。
本稿では,タスク固有の設計選択を抽象化し,自然言語命令に従うことでタスク実行を可能にする,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
提案手法では,複数のコンピュータビジョンタスクをテキスト対画像生成問題としてキャストする。
ここで、テキストはタスクを記述する命令を表し、その結果の画像は視覚的にコード化されたタスク出力である。
モデルをトレーニングするために、セグメンテーション、オブジェクト検出、深さ推定、分類など、さまざまなタスクをカバーする一般的なコンピュータビジョンデータセットをプールします。
そこで我々は,各画像上で実行すべき特定のタスクを伝達するテンプレートのプロンプトを,大規模言語モデルで表現し,このプロセスを通じて,入力および出力画像と注釈付き指示を含むマルチモーダル・マルチタスク訓練データセットを作成する。
InstructPix2Pixアーキテクチャに従うと、構築したデータセットを用いて、命令チューニングをテキストから画像への拡散モデルに適用し、その機能を生成モデルから命令誘導型マルチタスク視覚学習者へ誘導する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能することを示した。
さらに、見えないデータ、カテゴリ、ユーザー指示に対する説得力のある一般化機能を示す。
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - PromptFix: You Prompt and We Fix the Photo [84.69812824355269]
言語モデルを備えた拡散モデルは、画像生成タスクにおいて優れた制御性を示す。
多様な命令追跡データの欠如は、モデルの開発を妨げている。
本稿では,人間の指示に従う拡散モデルを実現するフレームワークであるPromptFixを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:13:28Z) - Instruct-Imagen: Image Generation with Multi-modal Instruction [90.04481955523514]
Instruct-imagenは、不均一な画像生成タスクに取り組み、目に見えないタスクを一般化するモデルである。
画像生成のための*multi-modal instruction*を導入する。
画像生成データセットの人間による評価では、インストラクション・イメージはドメイン内の以前のタスク固有のモデルと一致するか、超えている。
論文 参考訳(メタデータ) (2024-01-03T19:31:58Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - All-in-One Image-Grounded Conversational Agents [31.28974522911758]
我々は、最先端のTransformerとResNeXtモジュールを結合したアーキテクチャを、新しい注意型マルチモーダルモジュールとして設計する。
モデルのコンポーネントを徹底的に分析し、あるタスク、あるタスク、またはすべてのタスクでトレーニングを行う際の性能を伝達する。
論文 参考訳(メタデータ) (2019-12-28T03:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。