論文の概要: VAuLT: Augmenting the Vision-and-Language Transformer with the
Propagation of Deep Language Representations
- arxiv url: http://arxiv.org/abs/2208.09021v1
- Date: Thu, 18 Aug 2022 18:51:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 16:38:22.146897
- Title: VAuLT: Augmenting the Vision-and-Language Transformer with the
Propagation of Deep Language Representations
- Title(参考訳): VAuLT: 深層言語表現の普及による視覚・言語変換器の拡張
- Authors: Georgios Chochlakis, Tejas Srinivasan, Jesse Thomason, Shrikanth
Narayanan (University of Southern California)
- Abstract要約: 視覚・言語変換器(VAuLT)を提案する。
VAuLTはViLT(Vision-and-Language Transformer)の拡張であり、視覚・言語タスクのパフォーマンスを向上させる。
このような戦略は、よりリッチな言語入力を含む視覚・言語タスクにおいて、ViLTよりも大幅に改善されることを示す。
- 参考スコア(独自算出の注目度): 6.405005247717135
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose the Vision-and-Augmented-Language Transformer (VAuLT). VAuLT is an
extension of the popular Vision-and-Language Transformer (ViLT), and improves
performance on vision-and-language tasks that involve more complex text inputs
than image captions while having minimal impact on training and inference
efficiency. ViLT, importantly, enables efficient training and inference in
vision-and-language tasks, achieved by using a shallow image encoder. However,
it is pretrained on captioning and similar datasets, where the language input
is simple, literal, and descriptive, therefore lacking linguistic diversity.
So, when working with multimedia data in the wild, such as multimodal social
media data (in our work, Twitter), there is a notable shift from captioning
language data, as well as diversity of tasks, and we indeed find evidence that
the language capacity of ViLT is lacking instead. The key insight of VAuLT is
to propagate the output representations of a large language model like BERT to
the language input of ViLT. We show that such a strategy significantly improves
over ViLT on vision-and-language tasks involving richer language inputs and
affective constructs, such as TWITTER-2015, TWITTER-2017, MVSA-Single and
MVSA-Multiple, but lags behind pure reasoning tasks such as the Bloomberg
Twitter Text-Image Relationship dataset. We have released the code for all our
experiments at https://github.com/gchochla/VAuLT.
- Abstract(参考訳): 視覚・言語変換器(VAuLT)を提案する。
VAuLTはViLT(Vision-and-Language Transformer)の拡張であり、画像キャプションよりも複雑なテキスト入力を含む視覚・言語タスクのパフォーマンスを改善し、トレーニングや推論効率に最小限の影響を与える。
ViLTは、浅い画像エンコーダを用いて、視覚・言語タスクの効率的なトレーニングと推論を可能にする。
しかし、言語入力が単純でリテラルで記述的であるため言語多様性が欠如している、キャプションや類似のデータセットで事前学習されている。
ですから,マルチモーダルなソーシャルメディアデータ(私たちの仕事,Twitter)など,マルチメディアデータを扱う場合,言語データのキャプションからタスクの多様性への顕著なシフトがあり,その代わりにViLTの言語能力が欠如していることが実感できるのです。
VAuLTの重要な洞察は、BERTのような大きな言語モデルの出力表現を ViLT の言語入力に伝播させることである。
TWITTER-2015, TWITTER-2017, MVSA-Single, MVSA-Multipleなど, よりリッチな言語入力や情緒的な構成を含む視覚・言語タスクでは, ViLTよりも大幅に改善されるが, Bloomberg Twitter Text- Image Relationship データセットのような純粋な推論タスクには遅れがある。
私たちはすべての実験のコードをhttps://github.com/gchochla/vault.comで公開しました。
関連論文リスト
- Parrot: Multilingual Visual Instruction Tuning [66.65963606552839]
視覚エンコーダとマルチモーダル大言語モデル(MLLM)の整合性に着目した既存手法
そこで本研究では,テキストガイダンスを用いて視覚的トークンアライメントを言語レベルで促進する新しい手法であるParrotを紹介する。
本手法は,多言語MMBenchおよびMMMB上での最先端性能を示すだけでなく,多モーダルタスクにも優れる。
論文 参考訳(メタデータ) (2024-06-04T17:56:28Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Stop Pre-Training: Adapt Visual-Language Models to Unseen Languages [3.3227703089509304]
本稿では,MPLM を用いた視覚言語事前学習を未確認言語に適用するための,シンプルかつ効率的なアプローチを提案する。
我々のアプローチでは画像入力は必要とせず、主に機械翻訳を使用し、ターゲット言語データを必要としない。
論文 参考訳(メタデータ) (2023-06-29T08:20:57Z) - Augmented Transformers with Adaptive n-grams Embedding for Multilingual
Scene Text Recognition [10.130342722193204]
本稿では,n-gramを埋め込み,言語間の整合性(TANGER)を付加した拡張トランスアーキテクチャを提案する。
TANGERは、単一のパッチを埋め込んだ1次変換器と、適応的なn-gramの埋め込みを備えた補助変換器で構成されている。
言語間の整合性は、言語識別と文脈コヒーレンススコアの両方を考慮した損失関数によって達成される。
論文 参考訳(メタデータ) (2023-02-28T02:37:30Z) - PaLI: A Jointly-Scaled Multilingual Language-Image Model [110.10710554358455]
PaLI(Pathways Language and Image Model)は、このアプローチを言語と視覚の合同モデリングに拡張するモデルである。
我々は、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。
論文 参考訳(メタデータ) (2022-09-14T17:24:07Z) - XDBERT: Distilling Visual Information to BERT from Cross-Modal Systems
to Improve Language Understanding [73.24847320536813]
本研究では,事前学習したマルチモーダル変換器から事前学習した言語エンコーダへの視覚情報の蒸留について検討する。
我々のフレームワークは,NLUの言語重み特性に適応するために学習目標を変更する一方で,視覚言語タスクにおけるクロスモーダルエンコーダの成功にインスパイアされている。
論文 参考訳(メタデータ) (2022-04-15T03:44:00Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。