論文の概要: ViLT: Vision-and-Language Transformer Without Convolution or Region
Supervision
- arxiv url: http://arxiv.org/abs/2102.03334v1
- Date: Fri, 5 Feb 2021 18:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:48:46.759644
- Title: ViLT: Vision-and-Language Transformer Without Convolution or Region
Supervision
- Title(参考訳): vilt:畳み込みや地域監督のない視覚言語トランスフォーマー
- Authors: Wonjae Kim, Bokyung Son, Ildoo Kim
- Abstract要約: 視覚・言語下流タスクのための最小限の視覚・言語変換器(ViLT)モデルを提案する。
ViLTは、視覚入力の処理が、テキスト入力を処理するのと同じ畳み込みのない方法で大幅に単純化されるという意味で、モノリシックである。
- 参考スコア(独自算出の注目度): 10.584604416749965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Pretraining (VLP) has improved performance on various
joint vision-and-language downstream tasks. Current approaches for VLP heavily
rely on image feature extraction processes, most of which involve region
supervisions (e.g., object detection) and the convolutional architecture (e.g.,
ResNet). Although disregarded in the literature, we find it problematic in
terms of both (1) efficiency/speed, that simply extracting input features
requires much more computation than the actual multimodal interaction steps;
and (2) expressive power, as it is upper bounded to the expressive power of the
visual encoder and its predefined visual vocabulary. In this paper, we present
a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the
sense that processing of visual inputs is drastically simplified to just the
same convolution-free manner that we process textual inputs. We show that ViLT
is up to 60 times faster than previous VLP models, yet with competitive or
better downstream task performance.
- Abstract(参考訳): Vision-and-Language Pretraining(VLP)は、さまざまな共同ビジョンおよび言語下流タスクのパフォーマンスを改善しました。
VLPの現在のアプローチは画像の特徴抽出プロセスに大きく依存しており、その多くは領域の監督(オブジェクト検出など)と畳み込みアーキテクチャ(ResNetなど)を含んでいる。
文献では無視されているが,(1) 効率/速さ,(2) 視覚エンコーダの表現力と事前定義された視覚語彙に上限があるため,入力特徴を抽出するのには,実際のマルチモーダル相互作用ステップよりもはるかに多くの計算が必要であることが問題となっている。
本稿では,視覚入力の処理がテキスト入力を処理するのと同じ畳み込みのない方法に劇的に簡略化されるという意味で,最小限のVLPモデルであるViLT(Vision-and-Language Transformer)を提案する。
ViLTは従来のVLPモデルよりも最大60倍高速であるが、競争力やダウンストリームのタスク性能は向上している。
関連論文リスト
- CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - VoLTA: Vision-Language Transformer with Weakly-Supervised Local-Feature
Alignment [55.25227516496202]
VoLTAは、画像キャプチャデータのみを使用するが、きめ細かい領域レベルの画像理解を利用する新しい視覚言語事前学習パラダイムである。
VoLTAは、プレトレーニング中にマルチモーダル融合をユニモーダルバックボーンに深く押し込む。
広範囲の視覚および視覚の下流タスクの実験は、VoLTAの有効性を実証している。
論文 参考訳(メタデータ) (2022-10-09T01:49:58Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Training Vision-Language Transformers from Captions Alone [88.53635007106962]
人間のラベルを使わずに視覚言語変換器を学習できることが示される。
既存の作業では、まずビジュアルバックボーンをImageNetクラスの予測に基づいてトレーニングする必要があると仮定している。
Masked Auto-Encoders上に構築されたCaptionsからVision-Languageを新たに導入する。
論文 参考訳(メタデータ) (2022-05-19T00:19:48Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。