論文の概要: Images Speak in Images: A Generalist Painter for In-Context Visual
Learning
- arxiv url: http://arxiv.org/abs/2212.02499v2
- Date: Fri, 24 Mar 2023 07:10:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 18:02:38.772290
- Title: Images Speak in Images: A Generalist Painter for In-Context Visual
Learning
- Title(参考訳): イメージが画像で話す: 文脈内ビジュアル学習のためのジェネラリスト・ペインティング
- Authors: Xinlong Wang, Wen Wang, Yue Cao, Chunhua Shen, Tiejun Huang
- Abstract要約: コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
- 参考スコア(独自算出の注目度): 98.78475432114595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning, as a new paradigm in NLP, allows the model to rapidly
adapt to various tasks with only a handful of prompts and examples. But in
computer vision, the difficulties for in-context learning lie in that tasks
vary significantly in the output representations, thus it is unclear how to
define the general-purpose task prompts that the vision model can understand
and transfer to out-of-domain tasks. In this work, we present Painter, a
generalist model which addresses these obstacles with an "image"-centric
solution, that is, to redefine the output of core vision tasks as images, and
specify task prompts as also images. With this idea, our training process is
extremely simple, which performs standard masked image modeling on the stitch
of input and output image pairs. This makes the model capable of performing
tasks conditioned on visible image patches. Thus, during inference, we can
adopt a pair of input and output images from the same task as the input
condition, to indicate which task to perform. Without bells and whistles, our
generalist Painter can achieve competitive performance compared to
well-established task-specific models, on seven representative vision tasks
ranging from high-level visual understanding to low-level image processing. In
addition, Painter significantly outperforms recent generalist models on several
challenging tasks.
- Abstract(参考訳): インコンテキスト学習は、NLPの新しいパラダイムとして、少数のプロンプトと例だけで、モデルが様々なタスクに迅速に適応できるようにする。
しかし、コンピュータビジョンでは、文脈内学習の難しさは、タスクが出力表現で大きく異なるため、ビジョンモデルがドメイン外のタスクを理解し、転送できる汎用的なタスクプロンプトをどのように定義すればよいかは明らかではない。
本稿では,コアビジョンタスクの出力をイメージとして再定義する"イメージ"中心のソリューションを用いて,これらの障害に対処するジェネラリストモデルであるpaintを提案し,タスクプロンプトをイメージとして指定する。
この考え方では、トレーニングプロセスは非常にシンプルで、入力と出力のイメージペアを縫い合わせることで、標準的なマスク画像モデリングを実行します。
これにより、モデルは可視像パッチで条件付きタスクを実行することができる。
したがって、推論中に入力条件と同じタスクから一対の入出力画像を適用でき、どのタスクを実行するかを示すことができる。
ベルやホイッスルがなければ,高レベルの視覚的理解から低レベルの画像処理に至るまでの7つの視覚的タスクにおいて,精確に確立されたタスク固有モデルと比較して,競争性能が向上する。
加えて、paintはいくつかの困難なタスクで最近のジェネラリストモデルを大きく上回っている。
関連論文リスト
- Learning A Low-Level Vision Generalist via Visual Task Prompt [43.54563263106761]
本稿では,これらの課題を克服するために,視覚タスクプロンプトベース画像処理(VPIP)フレームワークを提案する。
VPIPは視覚的なタスクプロンプトを使用して、異なる入力ターゲットドメインでタスクを管理し、バックボーンネットワークの柔軟な選択を可能にする。
VPIPフレームワークに基づいて、30種類のタスクで低レベルのビジョンジェネラリストモデル、すなわちGenLVをトレーニングする。
論文 参考訳(メタデータ) (2024-08-16T08:37:56Z) - MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Unifying Image Processing as Visual Prompting Question Answering [62.84955983910612]
画像処理はコンピュータビジョンの基本的な課題であり、画像の品質を高め、その後の視覚アプリケーションに不可欠な特徴を抽出することを目的としている。
伝統的に、タスク固有のモデルは個々のタスクのために開発され、そのようなモデルの設計には異なる専門知識が必要である。
本稿では,画像復元,画像強調,画像特徴抽出タスクを網羅する汎用画像処理モデルを提案する。
論文 参考訳(メタデータ) (2023-10-16T15:32:57Z) - InstructCV: Instruction-Tuned Text-to-Image Diffusion Models as Vision Generalists [66.85125112199898]
我々は,タスク固有の設計選択を抽象化する,コンピュータビジョンタスクのための統一言語インタフェースを開発する。
InstructCVと呼ばれる我々のモデルは、他のジェネラリストやタスク固有の視覚モデルと比較して競合的に機能する。
論文 参考訳(メタデータ) (2023-09-30T14:26:43Z) - Tuning computer vision models with task rewards [88.45787930908102]
モデル予測と意図された使用法とのミスは、コンピュータビジョンモデルの展開に有害である。
自然言語処理では、モデルとタスク報酬を整合させる強化学習技術を用いて、この問題に対処することが多い。
我々はこのアプローチを採用し、オブジェクト検出、汎視的セグメンテーション、着色、画像キャプションなど、複数のコンピュータビジョンタスクにまたがる驚くべき効果を示す。
論文 参考訳(メタデータ) (2023-02-16T11:49:48Z) - Task Bias in Vision-Language Models [18.025004053980545]
私たちはCLIPモデルを探求し、その視覚的表現が、しばしば他のタスクよりも、いくつかのタスクに強く偏っていることを示す。
この課題バイアスを解決するために,視覚的プロンプトの学習方法を示す。
論文 参考訳(メタデータ) (2022-12-08T17:10:31Z) - A Unified Sequence Interface for Vision Tasks [87.328893553186]
計算機ビジョンタスクの多種多様な集合は、共有画素対シーケンスインタフェースで定式化すれば統一可能であることを示す。
オブジェクト検出、インスタンスのセグメンテーション、キーポイント検出、イメージキャプションの4つのタスクにフォーカスする。
我々は、タスク固有のカスタマイズなしで、単一のモデルアーキテクチャと損失関数でニューラルネットワークをトレーニングできることを示します。
論文 参考訳(メタデータ) (2022-06-15T17:08:53Z) - Generative Modeling for Multi-task Visual Learning [40.96212750592383]
様々な視覚的認知タスクにおいて有用な共有生成モデルを学ぶという,新しい問題を考える。
本稿では,識別型マルチタスクネットワークと生成ネットワークを結合して,汎用的なマルチタスク指向生成モデリングフレームワークを提案する。
我々のフレームワークは、最先端のマルチタスクアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2021-06-25T03:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。