論文の概要: Enhancing Vision-Language Pre-training with Rich Supervisions
- arxiv url: http://arxiv.org/abs/2403.03346v1
- Date: Tue, 5 Mar 2024 22:14:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-07 16:42:32.553986
- Title: Enhancing Vision-Language Pre-training with Rich Supervisions
- Title(参考訳): 豊かな監督による視覚言語事前学習の強化
- Authors: Yuan Gao, Kunyu Shi, Pengkai Zhu, Edouard Belval, Oren Nuriel, Srikar
Appalaraju, Shabnam Ghadar, Vijay Mahadevan, Zhuowen Tu, Stefano Soatto
- Abstract要約: 本稿では,ScreenShotsによる事前学習の強化(S4)を提案する。
S4は、大規模なWebスクリーンショットレンダリングのデータを使用したビジョンランゲージモデルのための、新しい事前トレーニングパラダイムである。
提案手法は,現在のスクリーンショット事前学習目標と比較して,9種類の下流タスクにおいて,画像からテキストまでのモデルの性能を著しく向上させる。
- 参考スコア(独自算出の注目度): 60.269564094889446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose Strongly Supervised pre-training with ScreenShots (S4) - a novel
pre-training paradigm for Vision-Language Models using data from large-scale
web screenshot rendering. Using web screenshots unlocks a treasure trove of
visual and textual cues that are not present in using image-text pairs. In S4,
we leverage the inherent tree-structured hierarchy of HTML elements and the
spatial localization to carefully design 10 pre-training tasks with large scale
annotated data. These tasks resemble downstream tasks across different domains
and the annotations are cheap to obtain. We demonstrate that, compared to
current screenshot pre-training objectives, our innovative pre-training method
significantly enhances performance of image-to-text model in nine varied and
popular downstream tasks - up to 76.1% improvements on Table Detection, and at
least 1% on Widget Captioning.
- Abstract(参考訳): 大規模Webスクリーンショットのレンダリングから得られたデータを用いて,視覚言語モデルのための新しい事前学習パラダイムであるScreenShots (S4)を提案する。
webのスクリーンショットを使うと、画像とテキストのペアを使っていないビジュアルとテキストのヒントが宝庫から解放される。
S4では,HTML要素の固有木構造階層と空間的局所化を利用して,大規模アノテートデータを用いた10の事前学習タスクを慎重に設計する。
これらのタスクは、異なるドメインにわたる下流タスクに似ている。
我々は,現在のスクリーンショット事前学習の目的と比較して,9つのダウンストリームタスクにおける画像-テキストモデルの性能を大幅に向上させることを実証した。テーブル検出の最大76.1%,ウィジェットキャプションの少なくとも1%である。
関連論文リスト
- Improving Language Understanding from Screenshots [56.40401271149811]
新たな言語モデル(LM)は、テキストとイメージの両方を単一のビジュアルビュー内で処理することができる。
既存のスクリーンショット LM は、言語理解タスクのテキストのみのモデルに遅れている。
本稿では,スクリーンショット中のスクリーンショットとテキストのイメージパッチをマスクし,復元する,新しいパッチ・アンド・テキスト予測手法を提案する。
論文 参考訳(メタデータ) (2024-02-21T19:01:03Z) - ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations [43.323791505213634]
ASPIRE (Language-guided Data Augmentation for SPurious correlation Removal) は、スプリアスな特徴のない画像でトレーニングデータセットを補完するソリューションである。
トレーニングセットにグループラベルや既存の非スパースイメージを必要とせずに、非スパース画像を生成することができる。
先行手法の最悪のグループ分類精度を1%から38%向上させる。
論文 参考訳(メタデータ) (2023-08-19T20:18:15Z) - CapEnrich: Enriching Caption Semantics for Web Images via Cross-modal
Pre-trained Knowledge [44.31783230767321]
本稿では,一般的な画像記述を,よりセマンティックな詳細で補完するプラグイン・アンド・プレイ・フレームワークであるCapEnrichを提案する。
提案手法は,Web画像における生成文の記述性や多様性を大幅に向上させる。
論文 参考訳(メタデータ) (2022-11-17T06:55:49Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - Coarse-to-Fine Vision-Language Pre-training with Fusion in the Backbone [170.85076677740292]
本稿では、視覚言語(VL)事前学習のための新しいモデルアーキテクチャであるFIBER(Fusion-In-the-Backbone-basedER)を提案する。
ユニモーダルバックボーンの後に、専用のトランスフォーマー層を融合させる代わりに、FIBERはマルチモーダルフュージョンをモデルに深く押し込む。
我々は、VQA、画像キャプション、検索、フレーズグラウンド、参照表現理解、オブジェクト検出など、幅広いVLタスクに関する包括的な実験を行う。
論文 参考訳(メタデータ) (2022-06-15T16:41:29Z) - CLIP-Event: Connecting Text and Images with Event Structures [123.31452120399827]
視覚言語事前学習モデルを適用したコントラスト学習フレームワークを提案する。
我々は、イベント構造知識を得るために、テキスト情報抽出技術を利用する。
実験により、ゼロショットCLIP-Eventは引数抽出において最先端の教師付きモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-01-13T17:03:57Z) - Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks [207.52609682812147]
そこで我々は,Oscar (Object-Semantics Aligned Pre-training) という新しい学習手法を提案する。
画像で検出されたオブジェクトタグをアンカーポイントとして使用することで、アライメントの学習を大幅に容易にする。
我々は、650万のテキストイメージ対のパブリックコーパスでオスカーモデルを事前訓練し、下流のタスクで微調整する。
論文 参考訳(メタデータ) (2020-04-13T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。