論文の概要: Visual Prompting via Image Inpainting
- arxiv url: http://arxiv.org/abs/2209.00647v1
- Date: Thu, 1 Sep 2022 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:02:18.088769
- Title: Visual Prompting via Image Inpainting
- Title(参考訳): Image Inpaintingによるビジュアルプロンプティング
- Authors: Amir Bar, Yossi Gandelsman, Trevor Darrell, Amir Globerson, Alexei A.
Efros
- Abstract要約: そこで本研究では,NLPにインスパイアされた新しいタスクの入力出力画像例と新しい入力画像の視覚的プロンプトについて検討する。
事前学習したモデルに視覚的プロンプトを適用し、様々なダウンストリームイメージ・ツー・イメージタスクで結果を示す。
- 参考スコア(独自算出の注目度): 104.98602202198668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does one adapt a pre-trained visual model to novel downstream tasks
without task-specific finetuning or any model modification? Inspired by
prompting in NLP, this paper investigates visual prompting: given input-output
image example(s) of a new task at test time and a new input image, the goal is
to automatically produce the output image, consistent with the given examples.
We show that posing this problem as simple image inpainting - literally just
filling in a hole in a concatenated visual prompt image - turns out to be
surprisingly effective, provided that the inpainting algorithm has been trained
on the right data. We train masked auto-encoders on a new dataset that we
curated - 88k unlabeled figures from academic papers sources on Arxiv. We apply
visual prompting to these pretrained models and demonstrate results on various
downstream image-to-image tasks, including foreground segmentation, single
object detection, colorization, edge detection, etc.
- Abstract(参考訳): タスク固有の微調整やモデル修正なしに、トレーニング済みの視覚モデルを下流タスクにどのように適応させるか?
テスト時に新しいタスクの入力出力画像例と新しい入力画像の入力出力画像例を与えられた場合、そのサンプルと一致して出力画像を自動的に生成することが目的である。
この問題を単純な画像のインペイント(文字通り、連結された視覚的プロンプト画像に穴を埋める)として表すと、そのインペイントアルゴリズムが正しいデータでトレーニングされていることを仮定して、驚くほど効果的であることが判明した。
私たちは、arxivに関する学術論文ソースから88万のラベルのない数値を収集した新しいデータセットで、マスク付きオートエンコーダをトレーニングしました。
これらの事前学習モデルに視覚的プロンプトを適用し,フォアグラウンドセグメンテーション,単一物体検出,カラー化,エッジ検出など,下流のさまざまなタスクにおける結果を示す。
関連論文リスト
- Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models [29.413887954758053]
本稿では,この摂動によって引き起こされる凍結事前学習モデルが新たなタスクを実行するように,タスク固有のイメージ摂動を学習する視覚的プロンプトを導入する。
数ピクセルだけを変えるだけで、新しいタスクやデータセットにモデルを適用することができ、線形探索と同等の性能を発揮することが分かりました。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Restore from Restored: Single-image Inpainting [9.699531255678856]
インペイントネットワークのための,新しい,効率的な自己教師型微調整アルゴリズムを提案する。
既存の自己相似パッチを用いて,事前学習した塗装ネットワークのパラメータを更新する。
公開されているベンチマークデータセット上で、最先端の塗装結果を得る。
論文 参考訳(メタデータ) (2021-10-25T11:38:51Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Restore from Restored: Single-image Inpainting [9.699531255678856]
本論文では,絵画ネットワークにおける自己監督型微調整アルゴリズムについて述べる。
入力画像内の既存の自己相似パッチを利用して,事前学習したネットワークのパラメータをアップグレードする。
公開ベンチマークデータセットで最先端のインペインティング結果を達成します。
論文 参考訳(メタデータ) (2021-02-16T10:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。