論文の概要: ViLT: Vision-and-Language Transformer Without Convolution or Region
Supervision
- arxiv url: http://arxiv.org/abs/2102.03334v1
- Date: Fri, 5 Feb 2021 18:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-08 14:48:46.759644
- Title: ViLT: Vision-and-Language Transformer Without Convolution or Region
Supervision
- Title(参考訳): vilt:畳み込みや地域監督のない視覚言語トランスフォーマー
- Authors: Wonjae Kim, Bokyung Son, Ildoo Kim
- Abstract要約: 視覚・言語下流タスクのための最小限の視覚・言語変換器(ViLT)モデルを提案する。
ViLTは、視覚入力の処理が、テキスト入力を処理するのと同じ畳み込みのない方法で大幅に単純化されるという意味で、モノリシックである。
- 参考スコア(独自算出の注目度): 10.584604416749965
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Pretraining (VLP) has improved performance on various
joint vision-and-language downstream tasks. Current approaches for VLP heavily
rely on image feature extraction processes, most of which involve region
supervisions (e.g., object detection) and the convolutional architecture (e.g.,
ResNet). Although disregarded in the literature, we find it problematic in
terms of both (1) efficiency/speed, that simply extracting input features
requires much more computation than the actual multimodal interaction steps;
and (2) expressive power, as it is upper bounded to the expressive power of the
visual encoder and its predefined visual vocabulary. In this paper, we present
a minimal VLP model, Vision-and-Language Transformer (ViLT), monolithic in the
sense that processing of visual inputs is drastically simplified to just the
same convolution-free manner that we process textual inputs. We show that ViLT
is up to 60 times faster than previous VLP models, yet with competitive or
better downstream task performance.
- Abstract(参考訳): Vision-and-Language Pretraining(VLP)は、さまざまな共同ビジョンおよび言語下流タスクのパフォーマンスを改善しました。
VLPの現在のアプローチは画像の特徴抽出プロセスに大きく依存しており、その多くは領域の監督(オブジェクト検出など)と畳み込みアーキテクチャ(ResNetなど)を含んでいる。
文献では無視されているが,(1) 効率/速さ,(2) 視覚エンコーダの表現力と事前定義された視覚語彙に上限があるため,入力特徴を抽出するのには,実際のマルチモーダル相互作用ステップよりもはるかに多くの計算が必要であることが問題となっている。
本稿では,視覚入力の処理がテキスト入力を処理するのと同じ畳み込みのない方法に劇的に簡略化されるという意味で,最小限のVLPモデルであるViLT(Vision-and-Language Transformer)を提案する。
ViLTは従来のVLPモデルよりも最大60倍高速であるが、競争力やダウンストリームのタスク性能は向上している。
関連論文リスト
- Progressive Multi-modal Conditional Prompt Tuning [92.50645776024624]
事前学習された視覚言語モデル(VLM)は、プロンプトによる顕著な一般化能力を示している。
本稿では,ProMPT(Progressive Multi-modal Conditional Prompt Tuning)を提案する。
ProMPTは、画像と電流の符号化情報を反復的に利用することにより、V-L機能の最適化と整合化を繰り返す構造を利用する。
論文 参考訳(メタデータ) (2024-04-18T02:40:31Z) - Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection [66.72992463712299]
Vision Transformers (ViT) は、大規模なVisionとLanguage Pre-trainingモデルで人気が高まっている。
これまでの研究では、ViTsの有効性が実証されているが、長い視覚的シーケンスによって引き起こされる計算の非効率性に苦慮している。
TRIPSを導入し、視覚バックボーン内のテキスト誘導パッチ選択層を用いて視覚列を縮小する。
実験の結果, TRIPSは40%の高速化を実現し, 下流タスクの競争力や優れた性能を維持していることがわかった。
論文 参考訳(メタデータ) (2024-01-11T14:31:30Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - CAVL: Learning Contrastive and Adaptive Representations of Vision and
Language [10.57079240576682]
視覚的および言語的事前学習は、視覚と言語表現を一緒に学習することを目的としている。
現在の事前訓練されたモデルでは、下流のタスクに転送する際、微調整のために多くの計算資源を必要とする傾向にある。
我々は、視覚と言語、すなわちCAVLのコントラスト表現と適応表現の学習に、シンプルだが効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-04-10T05:54:03Z) - TVLT: Textless Vision-Language Transformer [89.31422264408002]
テキストレス・ビジョン・ランゲージ変換器 (TVLT) では, 同種変換器ブロックが生の視覚・音声入力を行う。
TVLTはテキストベースの様々なマルチモーダルタスクに匹敵するパフォーマンスを実現している。
その結果,低レベルの視覚・音声信号から,コンパクトで効率的な視覚言語表現を学習できる可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-28T15:08:03Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - E2E-VLP: End-to-End Vision-Language Pre-training Enhanced by Visual
Learning [31.622393984150314]
本稿では,V+L理解と生成のための視覚言語事前学習モデルを提案する。
視覚表現と画像とテキスト間のセマンティックアライメントを共同で学習するための統合トランスフォーマーフレームワークを構築した。
論文 参考訳(メタデータ) (2021-06-03T12:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。