論文の概要: Grounded Language-Image Pre-training
- arxiv url: http://arxiv.org/abs/2112.03857v1
- Date: Tue, 7 Dec 2021 17:47:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-08 13:15:28.304894
- Title: Grounded Language-Image Pre-training
- Title(参考訳): 接地言語画像事前学習
- Authors: Liunian Harold Li, Pengchuan Zhang, Haotian Zhang, Jianwei Yang,
Chunyuan Li, Yiwu Zhong, Lijuan Wang, Lu Yuan, Lei Zhang, Jenq-Neng Hwang,
Kai-Wei Chang, Jianfeng Gao
- Abstract要約: 本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。
実験では、3Mの人間アノテーションと2400万のウェブクローリング画像テキストペアを含む2700万のグラウンドデータに対してGLIPを事前トレーニングした。
学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
- 参考スコア(独自算出の注目度): 107.67988052746526
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a grounded language-image pre-training (GLIP) model for
learning object-level, language-aware, and semantic-rich visual
representations. GLIP unifies object detection and phrase grounding for
pre-training. The unification brings two benefits: 1) it allows GLIP to learn
from both detection and grounding data to improve both tasks and bootstrap a
good grounding model; 2) GLIP can leverage massive image-text pairs by
generating grounding boxes in a self-training fashion, making the learned
representation semantic-rich. In our experiments, we pre-train GLIP on 27M
grounding data, including 3M human-annotated and 24M web-crawled image-text
pairs. The learned representations demonstrate strong zero-shot and few-shot
transferability to various object-level recognition tasks. 1) When directly
evaluated on COCO and LVIS (without seeing any images in COCO during
pre-training), GLIP achieves 49.8 AP and 26.9 AP, respectively, surpassing many
supervised baselines. 2) After fine-tuned on COCO, GLIP achieves 60.8 AP on val
and 61.5 AP on test-dev, surpassing prior SoTA. 3) When transferred to 13
downstream object detection tasks, a 1-shot GLIP rivals with a fully-supervised
Dynamic Head. Code will be released at https://github.com/microsoft/GLIP.
- Abstract(参考訳): 本稿では,オブジェクトレベル,言語認識,意味豊かな視覚表現を学習するための言語画像事前学習(GLIP)モデルを提案する。
glipは事前トレーニングのためのオブジェクト検出とフレーズグラウンドを統一する。
統一は2つの利点をもたらす。
1) GLIPは、検出データとグラウンドデータの両方から学習し、両方のタスクを改善し、良いグラウンドモデルをブートストラップすることができる。
2)GLIPは,自己学習方式でグラウンドボックスを生成することで,大量の画像テキストペアを活用できる。
実験では、3mの人間と24mの画像テキストペアを含む27mの接地データに対してglipを事前学習した。
学習された表現は、様々なオブジェクトレベルの認識タスクに対して強いゼロショットと少数ショットの転送可能性を示す。
1)COCOとLVISを直接評価した場合(事前トレーニング中にCOCOで画像を見ることなく)、GLIPは49.8 APと26.9 APをそれぞれ達成し、多くの教師付きベースラインを超えた。
2) COCOの微調整後, GLIPはvalで60.8 AP, test-devで61.5 APを達成し, SoTAより先行した。
3) 下流オブジェクト検出タスク13件に移行した場合, GLIPはフル教師付きダイナミックヘッドと競合する。
コードはhttps://github.com/microsoft/GLIPでリリースされる。
関連論文リスト
- Learning Visual Grounding from Generative Vision and Language Model [29.2712567454021]
ビジュアルグラウンドタスクは、自然言語参照に基づいて画像領域をローカライズすることを目的としている。
生成的VLMには基底知識がすでに存在しており、適切なプロンプトによって引き起こすことができる。
本研究は,実世界における視覚的接地を拡大するための生成型VLMの可能性を実証するものである。
論文 参考訳(メタデータ) (2024-07-18T20:29:49Z) - DetCLIPv3: Towards Versatile Generative Open-vocabulary Object Detection [111.68263493302499]
DetCLIPv3は、オープンボキャブラリオブジェクト検出と階層ラベルの両方で優れた高性能検出器である。
DetCLIPv3は,1)Versatileモデルアーキテクチャ,2)高情報密度データ,3)効率的なトレーニング戦略の3つのコア設計によって特徴付けられる。
DetCLIPv3は、GLIPv2, GroundingDINO, DetCLIPv2をそれぞれ18.0/19.6/6 APで上回り、優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2024-04-14T11:01:44Z) - GroundVLP: Harnessing Zero-shot Visual Grounding from Vision-Language
Pre-training and Open-Vocabulary Object Detection [24.48128633414131]
画像テキストペアと純粋なオブジェクト検出データから学習した既存のモデルから視覚的グラウンドティング能力を利用するゼロショット手法を提案する。
提案手法は,RefCOCO/+/gデータセットにおいて,他のゼロショット法よりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-12-22T20:14:55Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - CLIP2Scene: Towards Label-efficient 3D Scene Understanding by CLIP [55.864132158596206]
Contrastive Language-Image Pre-Training (CLIP) は、2次元ゼロショットおよび少数ショット学習において有望な結果をもたらす。
私たちは,CLIP知識が3Dシーン理解にどう役立つか,最初の試みを行う。
筆者らは,CLIPの知識を2次元画像テキスト事前学習モデルから3次元ポイント・クラウド・ネットワークに転送するフレームワークであるCLIP2Sceneを提案する。
論文 参考訳(メタデータ) (2023-01-12T10:42:39Z) - ULIP: Learning a Unified Representation of Language, Images, and Point
Clouds for 3D Understanding [110.07170245531464]
現在の3Dモデルは、注釈付きデータの少ないデータセットと、事前に定義されたカテゴリセットによって制限されている。
近年の進歩は、言語などの他のモダリティからの知識を活用することで、同様の問題を著しく軽減できることを示している。
画像,テキスト,3次元点雲の統一表現は,3つのモードからオブジェクト三重項を事前学習することで学習する。
論文 参考訳(メタデータ) (2022-12-10T01:34:47Z) - GLIPv2: Unifying Localization and Vision-Language Understanding [161.1770269829139]
本稿では,ローカライズタスクとビジョンランゲージ(VL)理解タスクの両方を提供する,基底VL理解モデルGLIPv2を提案する。
GLIPv2は、ローカライゼーション事前トレーニングとビジョン言語事前トレーニングを3つの事前トレーニングタスクで統合する。
一つのGLIPv2モデルが,様々なローカライゼーションおよび理解タスクにおいて,SoTAに近い性能を達成することを示す。
論文 参考訳(メタデータ) (2022-06-12T20:31:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。