論文の概要: Leveraging per Image-Token Consistency for Vision-Language Pre-training
- arxiv url: http://arxiv.org/abs/2211.15398v1
- Date: Sun, 20 Nov 2022 12:10:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-04 14:24:33.176773
- Title: Leveraging per Image-Token Consistency for Vision-Language Pre-training
- Title(参考訳): 視覚言語事前学習におけるパーイメージトケン一貫性の活用
- Authors: Yunhao Gou, Tom Ko, Hansi Yang, James Kwok, Yu Zhang, Mingxuan Wang
- Abstract要約: クロスモーダルマスク言語モデリング(CMLM)は,視覚言語関係の学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
- 参考スコア(独自算出の注目度): 29.313926820242592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Most existing vision-language pre-training (VLP) approaches adopt cross-modal
masked language modeling (CMLM) to learn vision-language associations. However,
we find that CMLM is insufficient for this purpose according to our
observations: (1) Modality bias: a considerable amount of masked tokens in CMLM
can be recovered with only the language information, ignoring the visual
inputs. (2) Under-utilization of the unmasked tokens: CMLM primarily focuses on
the masked token but it cannot simultaneously leverage other tokens to learn
vision-language associations. To handle those limitations, we propose EPIC
(lEveraging Per Image-Token Consistency for vision-language pre-training). In
EPIC, for each image-sentence pair, we mask tokens that are salient to the
image (i.e., Saliency-based Masking Strategy) and replace them with
alternatives sampled from a language model (i.e., Inconsistent Token Generation
Procedure), and then the model is required to determine for each token in the
sentence whether they are consistent with the image (i.e., Image-Text
Consistent Task). The proposed EPIC method is easily combined with pre-training
methods. Extensive experiments show that the combination of the EPIC method and
state-of-the-art pre-training approaches, including ViLT, ALBEF, METER, and
X-VLM, leads to significant improvements on downstream tasks.
- Abstract(参考訳): 既存の視覚言語事前学習(VLP)アプローチでは、クロスモーダルマスキング言語モデリング(CMLM)を用いて視覚言語関連を学習している。
1) モダリティバイアス: CMLMに含まれる大量のマスクトークンは言語情報のみを用いて復元でき、視覚的入力を無視することができる。
2)未マスクトークンの活用:CMLMは主にマスクトークンに焦点を当てるが,他のトークンを同時に活用して視覚言語関連を学習することはできない。
これらの制約に対処するため,EPIC (lEveraging Per Image-Token Consistency for vision- language pre-training)を提案する。
epicでは、各イメージ・センスペアに対して、画像に順応するトークン(すなわち、塩分ベースのマスキング戦略)をマスクし、言語モデルからサンプリングされた代替トークン(すなわち、一貫性のないトークン生成手順)に置き換える。
提案手法は事前学習法と容易に組み合わせることができる。
大規模な実験により、EPIC法とVLT、ALBEF、METER、X-VLMといった最先端の事前訓練手法を組み合わせることで、下流タスクの大幅な改善が示されている。
関連論文リスト
- Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - Enhancing Vision-Language Model with Unmasked Token Alignment [37.12838142681491]
本稿では,既存のCLIPモデルを利用して視覚言語表現をさらに強化する手法であるUnmasked Token Alignment (UTA)を紹介する。
UTAは、ViTモデルとCLIPテキストエンコーダを自動的に整列する凍結されたCLIPビジョンエンコーダから、未マッピングの視覚トークンを対応する画像トークンに整列させることで、ViT(Vit)を訓練する。
論文 参考訳(メタデータ) (2024-05-29T11:48:17Z) - Contrastive Vision-Language Alignment Makes Efficient Instruction
Learner [31.281236193979165]
本研究では,大規模言語モデル(LLM)を視覚言語命令追従モデルに拡張する作業について検討する。
既存の方法では、視覚アダプタを訓練して、前訓練された視覚変換器(ViT)とLLMの間の表現を、生成的な画像キャプション損失によって整列させるのが一般的である。
比較的および生成的アライメントの目的を適用し, ViT と LLM の表現を効果的に整合させる CG-VLM を提案する。
論文 参考訳(メタデータ) (2023-11-29T03:29:46Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Revisiting Multimodal Representation in Contrastive Learning: From Patch
and Token Embeddings to Finite Discrete Tokens [76.40196364163663]
本稿では,CLIPのような学習型視覚言語事前学習手法を提案する。
提案手法は,より包括的な表現を学習し,意味のある相互対応を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-03-27T00:58:39Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - Data Efficient Masked Language Modeling for Vision and Language [16.95631509102115]
Masked Language Modeling (MLM) は視覚言語訓練における重要なサブタスクの1つである。
クロスモーダル設定では、文中のトークンはランダムにマスキングされ、モデルは画像とテキストが与えられたマスキングトークンを予測する。
これらの欠点に対処するクロスモーダル設定に特有な代替マスキング戦略について検討する。
論文 参考訳(メタデータ) (2021-09-05T11:27:53Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。