論文の概要: Visual Prompting via Image Inpainting
- arxiv url: http://arxiv.org/abs/2209.00647v1
- Date: Thu, 1 Sep 2022 17:59:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-02 14:02:18.088769
- Title: Visual Prompting via Image Inpainting
- Title(参考訳): Image Inpaintingによるビジュアルプロンプティング
- Authors: Amir Bar, Yossi Gandelsman, Trevor Darrell, Amir Globerson, Alexei A.
Efros
- Abstract要約: そこで本研究では,NLPにインスパイアされた新しいタスクの入力出力画像例と新しい入力画像の視覚的プロンプトについて検討する。
事前学習したモデルに視覚的プロンプトを適用し、様々なダウンストリームイメージ・ツー・イメージタスクで結果を示す。
- 参考スコア(独自算出の注目度): 104.98602202198668
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How does one adapt a pre-trained visual model to novel downstream tasks
without task-specific finetuning or any model modification? Inspired by
prompting in NLP, this paper investigates visual prompting: given input-output
image example(s) of a new task at test time and a new input image, the goal is
to automatically produce the output image, consistent with the given examples.
We show that posing this problem as simple image inpainting - literally just
filling in a hole in a concatenated visual prompt image - turns out to be
surprisingly effective, provided that the inpainting algorithm has been trained
on the right data. We train masked auto-encoders on a new dataset that we
curated - 88k unlabeled figures from academic papers sources on Arxiv. We apply
visual prompting to these pretrained models and demonstrate results on various
downstream image-to-image tasks, including foreground segmentation, single
object detection, colorization, edge detection, etc.
- Abstract(参考訳): タスク固有の微調整やモデル修正なしに、トレーニング済みの視覚モデルを下流タスクにどのように適応させるか?
テスト時に新しいタスクの入力出力画像例と新しい入力画像の入力出力画像例を与えられた場合、そのサンプルと一致して出力画像を自動的に生成することが目的である。
この問題を単純な画像のインペイント(文字通り、連結された視覚的プロンプト画像に穴を埋める)として表すと、そのインペイントアルゴリズムが正しいデータでトレーニングされていることを仮定して、驚くほど効果的であることが判明した。
私たちは、arxivに関する学術論文ソースから88万のラベルのない数値を収集した新しいデータセットで、マスク付きオートエンコーダをトレーニングしました。
これらの事前学習モデルに視覚的プロンプトを適用し,フォアグラウンドセグメンテーション,単一物体検出,カラー化,エッジ検出など,下流のさまざまなタスクにおける結果を示す。
関連論文リスト
- IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks [124.90137528319273]
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
論文 参考訳(メタデータ) (2023-12-04T09:48:29Z) - Supervised Deep Learning for Content-Aware Image Retargeting with
Fourier Convolutions [11.031841470875571]
画像は、コンテンツに注意して画像のサイズを変更することを目的としている。
ラベル付きデータセットは、イメージタスクでディープラーニングモデルのトレーニングには使用できない。
通常の畳み込みニューラルネットワークは、推論時間で異なるサイズの画像を生成することができない。
論文 参考訳(メタデータ) (2023-06-12T19:17:44Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Images Speak in Images: A Generalist Painter for In-Context Visual
Learning [98.78475432114595]
コンテキスト内学習により、モデルはいくつかのプロンプトと例だけで、様々なタスクに迅速に適応できる。
汎用タスクをどのように定義すれば、ビジョンモデルがドメイン外のタスクを理解し、転送できるのかは不明だ。
我々は、コアビジョンタスクの出力をイメージとして再定義し、タスクプロンプトを画像として指定する汎用モデルであるPapererを提案する。
論文 参考訳(メタデータ) (2022-12-05T18:59:50Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Visual Prompting: Modifying Pixel Space to Adapt Pre-trained Models [29.413887954758053]
本稿では,この摂動によって引き起こされる凍結事前学習モデルが新たなタスクを実行するように,タスク固有のイメージ摂動を学習する視覚的プロンプトを導入する。
数ピクセルだけを変えるだけで、新しいタスクやデータセットにモデルを適用することができ、線形探索と同等の性能を発揮することが分かりました。
論文 参考訳(メタデータ) (2022-03-31T17:59:30Z) - Restore from Restored: Single-image Inpainting [9.699531255678856]
インペイントネットワークのための,新しい,効率的な自己教師型微調整アルゴリズムを提案する。
既存の自己相似パッチを用いて,事前学習した塗装ネットワークのパラメータを更新する。
公開されているベンチマークデータセット上で、最先端の塗装結果を得る。
論文 参考訳(メタデータ) (2021-10-25T11:38:51Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Restore from Restored: Single-image Inpainting [9.699531255678856]
本論文では,絵画ネットワークにおける自己監督型微調整アルゴリズムについて述べる。
入力画像内の既存の自己相似パッチを利用して,事前学習したネットワークのパラメータをアップグレードする。
公開ベンチマークデータセットで最先端のインペインティング結果を達成します。
論文 参考訳(メタデータ) (2021-02-16T10:59:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。