論文の概要: Is Multimodal Vision Supervision Beneficial to Language?
- arxiv url: http://arxiv.org/abs/2302.05016v2
- Date: Sat, 15 Apr 2023 00:04:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 21:01:37.600646
- Title: Is Multimodal Vision Supervision Beneficial to Language?
- Title(参考訳): マルチモーダルビジョンの監督は言語に有益か?
- Authors: Avinash Madasu, Vasudev Lal
- Abstract要約: ビジョン(イメージとビデオ)事前トレーニングは、マルチモーダルタスクで最先端の結果を得た最近の一般的なパラダイムである。
我々は,これらのモデルのスタンドアロンテキストエンコーダの言語表現性能と,視覚監督を通して学習したテキストエンコーダの言語表現性能を比較した。
- 参考スコア(独自算出の注目度): 2.216702991322677
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision (image and video) - Language (VL) pre-training is the recent popular
paradigm that achieved state-of-the-art results on multi-modal tasks like
image-retrieval, video-retrieval, visual question answering etc. These models
are trained in an unsupervised way and greatly benefit from the complementary
modality supervision. In this paper, we explore if the language representations
trained using vision supervision perform better than vanilla language
representations on Natural Language Understanding and commonsense reasoning
benchmarks. We experiment with a diverse set of image-text models such as
ALBEF, BLIP, METER and video-text models like ALPRO, Frozen-in-Time (FiT),
VIOLET. We compare the performance of language representations of stand-alone
text encoders of these models to the language representations of text encoders
learnt through vision supervision. Our experiments suggest that vanilla
language representations show superior performance on most of the tasks. These
results shed light on the current drawbacks of the vision-language models.
- Abstract(参考訳): vision (image and video) - 言語(vl) 事前トレーニングは、イメージリトライ、ビデオリトライ、ビジュアル質問応答など、マルチモーダルタスクの最先端結果を達成する、最近の一般的なパラダイムである。
これらのモデルは教師なしの方法で訓練され、相補的なモダリティ監督の恩恵を受ける。
本稿では,視覚指導を用いて訓練された言語表現が,自然言語理解や常識推論のベンチマークにおいて,バニラ言語表現よりも優れているかを検討する。
本研究では,ALBEF,BLIP,METER,ALPRO,Frozen-in-Time (FiT),VIOLETといった多様な画像テキストモデルの実験を行った。
これらのモデルのスタンドアロンテキストエンコーダの言語表現の性能と,視覚監視により学習したテキストエンコーダの言語表現の比較を行った。
我々の実験は、バニラ言語表現がほとんどのタスクにおいて優れたパフォーマンスを示すことを示唆している。
これらの結果は、視覚言語モデルの現在の欠点に光を当てた。
関連論文リスト
- CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - DeViL: Decoding Vision features into Language [53.88202366696955]
ポストホックな説明法は、ディープニューラルネットワークの意思決定プロセスを抽象化するためにしばしば批判されてきた。
この研究では、ビジョンバックボーンの異なるレイヤが学んだことについて、自然言語で記述したいと考えています。
我々は、トランスフォーマーネットワークをトレーニングし、任意の視覚層の個々の画像特徴を、分離した既製の言語モデルが自然言語に復号するプロンプトに変換する。
論文 参考訳(メタデータ) (2023-09-04T13:59:55Z) - Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining
on Visual Language Understanding [13.300199242824934]
視覚的・言語的な事前学習が、暗黙的な視覚的推論を含むテキストのみのタスクのパフォーマンスを向上させるかどうかを検討する。
本稿では,テキストエンコーダモデルの視覚的推論能力を探索するための視覚言語理解タスクを提案する。
また,テキストのみのタスクにCLIPなどのモデルを適用するための新しいゼロショット知識探索手法であるStroop Probingも提案する。
論文 参考訳(メタデータ) (2023-03-21T17:30:40Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - VLMAE: Vision-Language Masked Autoencoder [21.97700040013084]
視覚言語事前学習のための視覚言語マスク付きオートエンコーダフレームワーク(VLMAE)を提案する。
VLMAEは視覚的生成学習を採用しており、モデルが細粒度で偏りのない特徴を取得するのを容易にする。
論文 参考訳(メタデータ) (2022-08-19T14:39:18Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。