論文の概要: IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks
- arxiv url: http://arxiv.org/abs/2312.01771v1
- Date: Mon, 4 Dec 2023 09:48:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 15:24:59.629774
- Title: IMProv: Inpainting-based Multimodal Prompting for Computer Vision Tasks
- Title(参考訳): IMProv:コンピュータビジョンタスクのためのペイントベースのマルチモーダルプロンプト
- Authors: Jiarui Xu, Yossi Gandelsman, Amir Bar, Jianwei Yang, Jianfeng Gao,
Trevor Darrell, Xiaolong Wang
- Abstract要約: 本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習できる生成モデルIMProvを提案する。
我々は、コンピュータビジョン論文とその関連キャプションから、新しい数字のデータセットにマスク付き生成変換器を訓練する。
推測時間中、テキストおよび/または画像タスクの例でモデルにプロンプトし、そのモデルに対応する出力を印字させる。
- 参考スコア(独自算出の注目度): 124.90137528319273
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning allows adapting a model to new tasks given a task
description at test time. In this paper, we present IMProv - a generative model
that is able to in-context learn visual tasks from multimodal prompts. Given a
textual description of a visual task (e.g. "Left: input image, Right:
foreground segmentation"), a few input-output visual examples, or both, the
model in-context learns to solve it for a new test input. We train a masked
generative transformer on a new dataset of figures from computer vision papers
and their associated captions, together with a captioned large-scale image-text
dataset. During inference time, we prompt the model with text and/or image task
example(s) and have the model inpaint the corresponding output. We show that
training our model with text conditioning and scaling the dataset size improves
in-context learning for computer vision tasks by over +10\% AP for Foreground
Segmentation, over +5\% gains in AP for Single Object Detection, and almost
20\% lower LPIPS in Colorization. Our empirical results suggest that vision and
language prompts are complementary and it is advantageous to use both to
achieve better in-context learning performance. Project page is available at
https://jerryxu.net/IMProv .
- Abstract(参考訳): インコンテキスト学習は、テスト時にタスク記述が与えられた新しいタスクにモデルを適用することを可能にする。
本稿では,マルチモーダルプロンプトから視覚タスクをインコンテキストで学習可能な生成モデルIMProvを提案する。
視覚的タスクのテキスト記述("left: input image, right: foreground segmentation"など)や、いくつかの入出力ビジュアル例、あるいはその両方を与えられたモデルインコンテキストは、新しいテスト入力のためにそれを解くために学習する。
我々は,コンピュータビジョン論文とその関連キャプションから得られた画像の新たなデータセットと,キャプション付き大規模画像テキストデータセットにマスク付き生成変換器を訓練する。
推論時間中に、テキストおよび/または画像タスク例(s)でモデルをプロンプトし、対応する出力をモデルに入力させる。
テキストコンディショニングによるモデルのトレーニングとデータセットサイズの拡大により,前景セグメンテーションでは+10\% ap,単一オブジェクト検出では+5\%,カラー化では約20\%のlpipでコンピュータビジョンタスクの文脈内学習が向上することが示された。
実験結果から,視覚と言語プロンプトは相補的であり,文脈内学習性能の向上に有効であることが示唆された。
プロジェクトページはhttps://jerryxu.net/IMProv で公開されている。
関連論文リスト
- VEGA: Learning Interleaved Image-Text Comprehension in Vision-Language Large Models [76.94378391979228]
我々は、Interleaved Image-Text (IITC) と呼ばれる、より要求の多い新しいタスクを導入する。
この課題は、画像とテキストの両方の過剰な要素を識別・無視し、質問に正確に答えるためにモデルに挑戦する。
このタスクを支援するために、科学コンテンツに関するIITCタスクに適した新しいVEGAデータセットを構築し、サブタスクである画像テキストアソシエーション(ITA)を考案した。
論文 参考訳(メタデータ) (2024-06-14T17:59:40Z) - MOFI: Learning Image Representations from Noisy Entity Annotated Images [47.6984817573981]
ノイズのあるエンティティアノテート画像から画像表現を学習するための新しい視覚基盤モデルMOFIを提案する。
ノイズの多い画像とテキストのペアから画像にエンティティラベルを自動的に割り当てる手法を提案する。
提案手法では、アルトテキストからエンティティを抽出するために名前付きエンティティ認識モデルを使用し、CLIPモデルを用いて、ペア画像のラベルとして正しいエンティティを選択する。
論文 参考訳(メタデータ) (2023-06-13T17:51:18Z) - In-Context Learning Unlocked for Diffusion Models [163.54453915874402]
本稿では,拡散に基づく生成モデルにおいて,文脈内学習を可能にするフレームワークであるPrompt Diffusionを提案する。
本稿では,幅広い視覚言語タスクをモデル化可能な視覚言語プロンプトと,それを入力とする拡散モデルを提案する。
結果として得られるPrompt Diffusionモデルは、文脈内学習が可能な初めての拡散に基づく視覚言語基礎モデルである。
論文 参考訳(メタデータ) (2023-05-01T23:03:37Z) - Visual Prompting via Image Inpainting [104.98602202198668]
そこで本研究では,NLPにインスパイアされた新しいタスクの入力出力画像例と新しい入力画像の視覚的プロンプトについて検討する。
事前学習したモデルに視覚的プロンプトを適用し、様々なダウンストリームイメージ・ツー・イメージタスクで結果を示す。
論文 参考訳(メタデータ) (2022-09-01T17:59:33Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。