論文の概要: GLIPv2: Unifying Localization and Vision-Language Understanding
- arxiv url: http://arxiv.org/abs/2206.05836v1
- Date: Sun, 12 Jun 2022 20:31:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 13:04:03.260546
- Title: GLIPv2: Unifying Localization and Vision-Language Understanding
- Title(参考訳): GLIPv2: ローカライゼーションと視覚言語理解の統合
- Authors: Haotian Zhang, Pengchuan Zhang, Xiaowei Hu, Yen-Chun Chen, Liunian
Harold Li, Xiyang Dai, Lijuan Wang, Lu Yuan, Jenq-Neng Hwang, Jianfeng Gao
- Abstract要約: 本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
- 参考スコア(独自算出の注目度): 161.1770269829139
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present GLIPv2, a grounded VL understanding model, that serves both
localization tasks (e.g., object detection, instance segmentation) and
Vision-Language (VL) understanding tasks (e.g., VQA, image captioning). GLIPv2
elegantly unifies localization pre-training and Vision-Language Pre-training
(VLP) with three pre-training tasks: phrase grounding as a VL reformulation of
the detection task, region-word contrastive learning as a novel region-word
level contrastive learning task, and the masked language modeling. This
unification not only simplifies the previous multi-stage VLP procedure but also
achieves mutual benefits between localization and understanding tasks.
Experimental results show that a single GLIPv2 model (all model weights are
shared) achieves near SoTA performance on various localization and
understanding tasks. The model also shows (1) strong zero-shot and few-shot
adaption performance on open-vocabulary object detection tasks and (2) superior
grounding capability on VL understanding tasks. Code will be released at
https://github.com/microsoft/GLIP.
- Abstract(参考訳): 本稿では,VL理解モデルであるGLIPv2を提案する。ローカライゼーションタスク(オブジェクト検出,インスタンスセグメンテーションなど)とビジョンランゲージ(VL)理解タスク(VQA,画像キャプションなど)の両方を提供する。
glipv2はローカライゼーション事前学習と視覚言語事前学習(vlp)を3つの事前学習タスクでエレガントに統合する: 検出タスクのvl改革としてのフレーズグラウンド、新しい領域語レベルのコントラスト学習タスクとしての領域語コントラスト学習、マスク付き言語モデリング。
この統合は、従来のマルチステージVLP手順を単純化するだけでなく、ローカライゼーションと理解タスクの相互利益も達成する。
実験の結果,1つのglipv2モデル(全モデル重みが共有される)が様々な局所化および理解タスクにおいてほぼsota性能を達成することがわかった。
また,(1)オープンボキャブラリオブジェクト検出タスクにおける強ゼロショットと少ショット適応性能,(2)VL理解タスクにおける優れたグラウンド化能力を示す。
コードはhttps://github.com/microsoft/GLIPでリリースされる。
関連論文リスト
- From Goal-Conditioned to Language-Conditioned Agents via Vision-Language Models [7.704773649029078]
視覚言語モデル(VLM)は、基底言語に非常に大きな可能性を秘めている。
本稿では,言語条件付きエージェント(LCA)構築問題の新しい分解法を提案する。
また,VLMを用いたLCAの高速化と品質向上についても検討した。
論文 参考訳(メタデータ) (2024-09-24T12:24:07Z) - VLM-PL: Advanced Pseudo Labeling Approach for Class Incremental Object Detection via Vision-Language Model [9.122593534510512]
VLM-PL(Vision-Language Model Assisted Pseudo-Labeling)を紹介する。
この手法は視覚言語モデル(VLM)を用いて、追加のモデルトレーニングを必要とせず、擬似接地真実(GT)の正しさを検証する。
VLM-PLは改良された擬似GTと実GTを統合し、新しい知識と古い知識を効果的に組み合わせている。
論文 参考訳(メタデータ) (2024-03-08T14:23:00Z) - Context-Aware Prompt Tuning for Vision-Language Model with
Dual-Alignment [15.180715595425864]
我々は、事前学習された大言語モデル(LLM)を組み込むことで、視覚言語モデルの迅速な学習を改善する新しい手法を提案する。
DuAl-PTでは、明示的および暗黙的両方のコンテキストモデリングの恩恵を受けながら、よりコンテキスト対応のプロンプトを学習することを提案する。
実証的には、DuAl-PTは、数ショットの認識とベース・ツー・ニューな一般化で、11のダウンストリームデータセット上で優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-09-08T06:51:15Z) - MetaVL: Transferring In-Context Learning Ability From Language Models to
Vision-Language Models [74.89629463600978]
視覚言語領域では、ほとんどの大規模事前学習された視覚言語モデルは、文脈内学習を行う能力を持っていない。
本稿では,言語領域から視覚領域へコンテキスト内学習能力を移行できるのか,という興味深い仮説を考察する。
論文 参考訳(メタデータ) (2023-06-02T07:21:03Z) - GRILL: Grounded Vision-language Pre-training via Aligning Text and Image
Regions [92.96783800362886]
未知のタスクへの一般化は、少数の学習者が多様なタスクにおいてより優れたゼロ/フェーショットのパフォーマンスを達成できる重要な能力である。
GRILLは視覚的質問応答やキャプション,接地タスクなどの多様なタスクに,ほとんど,あるいはごく少数のトレーニングインスタンスで一般化可能な,新しいVLモデルである。
論文 参考訳(メタデータ) (2023-05-24T03:33:21Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - BLIP: Bootstrapping Language-Image Pre-training for Unified
Vision-Language Understanding and Generation [86.4572981982407]
視覚言語理解と生成の両方に柔軟に伝達する新しい視覚言語フレームワークBLIPを提案する。
BLIPは、キャプタが合成キャプタを生成し、フィルタがノイズのあるキャプタを除去するキャプタをブートストラップすることで、ノイズの多いWebデータを効果的に活用する。
BLIPはまた、ゼロショット方式で直接ビデオ言語タスクに移行する際に、強力な一般化能力を示す。
論文 参考訳(メタデータ) (2022-01-28T12:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。