論文の概要: Training Vision-Language Transformers from Captions Alone
- arxiv url: http://arxiv.org/abs/2205.09256v1
- Date: Thu, 19 May 2022 00:19:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 14:43:56.905878
- Title: Training Vision-Language Transformers from Captions Alone
- Title(参考訳): 視覚・言語変換器の訓練
- Authors: Liangke Gui, Qiuyuan Huang, Alex Hauptmann, Yonatan Bisk, Jianfeng Gao
- Abstract要約: 人間のラベルを使わずに視覚言語変換器を学習できることが示される。
既存の作業では、まずビジュアルバックボーンをImageNetクラスの予測に基づいてトレーニングする必要があると仮定している。
Masked Auto-Encoders上に構築されたCaptionsからVision-Languageを新たに導入する。
- 参考スコア(独自算出の注目度): 88.53635007106962
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show that Vision-Language Transformers can be learned without human labels
(e.g. class labels, bounding boxes, etc). Existing work, whether explicitly
utilizing bounding boxes or patches, assumes that the visual backbone must
first be trained on ImageNet class prediction before being integrated into a
multimodal linguistic pipeline. We show that this is not necessary and
introduce a new model Vision-Language from Captions (VLC) built on top of
Masked Auto-Encoders that does not require this supervision. In fact, in a
head-to-head comparison between ViLT, the current state-of-the-art patch-based
vision-language transformer which is pretrained with supervised object
classification, and our model, VLC, we find that our approach 1. outperforms
ViLT on standard benchmarks, 2. provides more interpretable and intuitive patch
visualizations, and 3. is competitive with many larger models that utilize ROIs
trained on annotated bounding-boxes.
- Abstract(参考訳): 視覚言語トランスフォーマーは,人間のラベル(クラスラベル,バウンディングボックスなど)を使わずに学習できることを示す。
既存の作業は、バウンディングボックスやパッチを明示的に利用するにせよ、視覚的なバックボーンは、マルチモーダル言語パイプラインに統合される前に、ImageNetクラス予測に基づいてトレーニングする必要があると仮定する。
これは不要であることを示し、この監督を必要としないマスク付きオートエンコーダ上に構築されたキャプション(vlc)から新しいモデルヴィジョン言語を導入する。
実際、監督対象分類で事前訓練された現在の最先端のパッチベース視覚言語トランスフォーマであるVLTと、我々のモデルであるVLCとの直接比較では、我々のアプローチが分かる。
1.標準ベンチマークでvultを上回っている
2. より解釈可能で直感的なパッチ視覚化を提供する。
3.3は、アノテーション付きバウンディングボックスでトレーニングされたROIを利用する多くの大きなモデルと競合する。
関連論文リスト
- APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Masked Vision-Language Transformers for Scene Text Recognition [10.057137581956363]
Scene Text Recognition (STR) は、コンピュータが様々な現実世界のシーンでテキストを認識し読み取ることを可能にする。
近年のSTRモデルは、視覚的手がかりに加え、言語情報を取り入れることの恩恵を受けている。
本稿では,暗黙的および暗黙的言語情報の両方を捉えるために,Masked Vision-Language Transformers (MVLT)を提案する。
論文 参考訳(メタデータ) (2022-11-09T10:28:23Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - OmniVL:One Foundation Model for Image-Language and Video-Language Tasks [117.57580168859512]
我々は,1つのユニバーサルアーキテクチャを用いて,画像言語と映像言語の両方をサポートする新しい基礎モデルOmniVLを提案する。
従来の一方向転送とは対照的に,画像タスクと映像タスクの両方にこのようなパラダイムが有効であることを示す。
我々は、画像テキスト、ビデオテキスト、画像ラベル(画像分類など)、ビデオラベル(ビデオ行動認識など)データを併用するために、新しい統合視覚言語コントラスト(UniVLC)ロスを導入する。
論文 参考訳(メタデータ) (2022-09-15T17:59:59Z) - VL-BEiT: Generative Vision-Language Pretraining [107.25298505511184]
生成前訓練により学習した双方向多モード変換器であるVL-BEiTを提案する。
具体的には、画像テキスト対におけるマスク付き視覚言語モデリング、テキスト上でのマスク付き言語モデリング、画像上でのマスク付き画像モデリングを行う。
論文 参考訳(メタデータ) (2022-06-02T16:14:19Z) - VL-InterpreT: An Interactive Visualization Tool for Interpreting
Vision-Language Transformers [47.581265194864585]
視覚とマルチモーダル変換器の内部機構はほとんど不透明である。
これらの変圧器の成功により、その内部動作を理解することがますます重要になっている。
マルチモーダルトランスにおける注目や隠された表現を解釈するための対話型可視化を提供するVL-InterpreTを提案する。
論文 参考訳(メタデータ) (2022-03-30T05:25:35Z) - Align and Prompt: Video-and-Language Pre-training with Entity Prompts [111.23364631136339]
ビデオと言語による事前トレーニングは、様々なダウンストリームタスクに有望な改善を示している。
Align and Prompt: クロスモーダルアライメントを改良した,効率的かつ効果的なビデオ・言語事前学習フレームワークを提案する。
私たちのコードと事前訓練されたモデルはリリースされます。
論文 参考訳(メタデータ) (2021-12-17T15:55:53Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。