論文の概要: Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language
Representation Learning
- arxiv url: http://arxiv.org/abs/2104.03135v2
- Date: Thu, 8 Apr 2021 01:03:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-09 10:36:39.371676
- Title: Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language
Representation Learning
- Title(参考訳): 視覚言語表現学習のためのエンド・ツー・エンド事前学習
- Authors: Zhicheng Huang, Zhaoyang Zeng, Yupan Huang, Bei Liu, Dongmei Fu,
Jianlong Fu
- Abstract要約: 「tHe bOx」は画像全体を入力とし、視覚言語表現をエンドツーエンドで学習する。
SohoはMSCOCOテキスト検索5kテスト分割で2.0% R@1スコア、NLVR$2$テスト-P分割で1.5%の精度、SNLI-VEテスト分割で6.7%の精度を達成しました。
- 参考スコア(独自算出の注目度): 31.895442072646254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study joint learning of Convolutional Neural Network (CNN) and Transformer
for vision-language pre-training (VLPT) which aims to learn cross-modal
alignments from millions of image-text pairs. State-of-the-art approaches
extract salient image regions and align regions with words step-by-step. As
region-based visual features usually represent parts of an image, it is
challenging for existing vision-language models to fully understand the
semantics from paired natural languages. In this paper, we propose SOHO to "See
Out of tHe bOx" that takes a whole image as input, and learns vision-language
representation in an end-to-end manner. SOHO does not require bounding box
annotations which enables inference 10 times faster than region-based
approaches. In particular, SOHO learns to extract comprehensive yet compact
image features through a visual dictionary (VD) that facilitates cross-modal
understanding. VD is designed to represent consistent visual abstractions of
similar semantics. It is updated on-the-fly and utilized in our proposed
pre-training task Masked Visual Modeling (MVM). We conduct experiments on four
well-established vision-language tasks by following standard VLPT settings. In
particular, SOHO achieves absolute gains of 2.0% R@1 score on MSCOCO text
retrieval 5k test split, 1.5% accuracy on NLVR$^2$ test-P split, 6.7% accuracy
on SNLI-VE test split, respectively.
- Abstract(参考訳): 我々は、数百万の画像テキストペアから相互にアライメントを学習することを目的とした、視覚言語事前学習(VLPT)のための畳み込みニューラルネットワーク(CNN)とトランスフォーマーの共同学習について研究する。
State-of-the-art approach extract salient image region andaligned region with words-by-step。
領域ベースの視覚的特徴は通常画像の一部を表現するため、既存の視覚言語モデルがペアの自然言語から意味を完全に理解することは困難である。
本稿では,全体像を入力として取り出す「tHe bOx から tHe bOx を抽出する」ための SOHO を提案し,エンドツーエンドで視覚言語表現を学習する。
SOHOは、領域ベースのアプローチよりも10倍高速な推論を可能にするバウンディングボックスアノテーションを必要としない。
特に、SOHOは、横断的な理解を容易にする視覚辞書(VD)を通して、包括的でコンパクトな画像の特徴を抽出することを学ぶ。
VDは、類似のセマンティクスの一貫した視覚的抽象化を表現するように設計されている。
これはオンザフライで更新され、提案するプレトレーニングタスクマスクビジュアルモデリング(mvm)で利用されます。
我々は、標準VLPT設定に従うことで、確立された4つの視覚言語タスクの実験を行う。
特に、MSCOCOテキスト検索5kテストスプリットの2.0% R@1スコア、NLVR$^2$テストPスプリットの1.5%精度、SNLI-VEテストスプリットの6.7%精度の絶対ゲインを達成する。
関連論文リスト
- FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Scene Text Recognition with Image-Text Matching-guided Dictionary [17.073688809336456]
Scene Image-Text Matching (SITM) ネットワークを利用した辞書言語モデルを提案する。
ITCにインスパイアされたSITMネットワークは、すべての候補の視覚的特徴とテキスト的特徴を組み合わせて、特徴空間における最小距離の候補を特定する。
本手法は6つの主要なベンチマークにおいて,通常の手法よりも優れた結果(93.8%の精度)が得られる。
論文 参考訳(メタデータ) (2023-05-08T07:47:49Z) - DetCLIPv2: Scalable Open-Vocabulary Object Detection Pre-training via
Word-Region Alignment [104.54362490182335]
DetCLIPv2は、大規模な画像テキストペアを組み込んでオープン語彙オブジェクト検出を実現する、効率的なトレーニングフレームワークである。
DetCLIPv2は、大量の画像テキスト対から端から端まで、粒度の細かい単語領域アライメントを直接学習する。
DetCLIPv2は1300万のイメージテキストペアを事前トレーニングすることで、より優れたオープン語彙検出性能を示す。
論文 参考訳(メタデータ) (2023-04-10T11:08:15Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - Multi-Grained Vision Language Pre-Training: Aligning Texts with Visual
Concepts [14.808701042367401]
物体検出は視覚言語による事前学習には適さないと考えられる。
本稿では,多粒度視覚言語事前学習を行うためのX-VLMという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-11-16T07:55:26Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。