論文の概要: VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix
- arxiv url: http://arxiv.org/abs/2206.08919v1
- Date: Fri, 17 Jun 2022 17:56:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 14:38:11.909029
- Title: VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix
- Title(参考訳): vlmixer:クロスモーダルカットミックスによる非ペアビジョン言語事前学習
- Authors: Teng Wang, Wenhao Jiang, Zhichao Lu, Feng Zheng, Ran Cheng, Chengguo
Yin, Ping Luo
- Abstract要約: 本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
- 参考スコア(独自算出の注目度): 59.25846149124199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision-language pre-training (VLP) methods primarily rely on paired
image-text datasets, which are either annotated by enormous human labors, or
crawled from the internet followed by elaborate data cleaning techniques. To
reduce the dependency on well-aligned image-text pairs, it is promising to
directly leverage the large-scale text-only and image-only corpora. This paper
proposes a data augmentation method, namely cross-modal CutMix (CMC), for
implicit cross-modal alignment learning in unpaired VLP. Specifically, CMC
transforms natural sentences from the textual view into a multi-modal view,
where visually-grounded words in a sentence are randomly replaced by diverse
image patches with similar semantics. There are several appealing proprieties
of the proposed CMC. First, it enhances the data diversity while keeping the
semantic meaning intact for tackling problems where the aligned data are
scarce; Second, by attaching cross-modal noise on uni-modal data, it guides
models to learn token-level interactions across modalities for better
denoising. Furthermore, we present a new unpaired VLP method, dubbed as
VLMixer, that integrates CMC with contrastive learning to pull together the
uni-modal and multi-modal views for better instance-level alignments among
different modalities. Extensive experiments on five downstream tasks show that
VLMixer could surpass previous state-of-the-art unpaired VLP methods.
- Abstract(参考訳): 既存の視覚言語事前学習(VLP)手法は、主に、膨大な人間の労働力によって注釈付けされたペア画像テキストデータセット、あるいはインターネットからクロールされた後、精巧なデータクリーニング技術に頼っている。
整列された画像テキスト対への依存を減らすため、大規模なテキストのみと画像のみのコーパスを直接活用することを約束している。
本稿では,非ペアVLPにおける暗黙的なクロスモーダルアライメント学習のためのデータ拡張手法,すなわちクロスモーダルCutMix(CMC)を提案する。
具体的には、CMCは自然文をテキストビューからマルチモーダルビューに変換し、文中の視覚的に接頭した単語を、類似した意味を持つ多様な画像パッチにランダムに置き換える。
提案されているcmcの魅力はいくつかある。
第2に、ユニモーダルデータにクロスモーダルノイズを付加することにより、モダリティ間でのトークンレベルの相互作用を学習し、より良質な装飾を行うようにモデルに誘導する。
さらに,vlmixerと呼ばれる新しい非ペアリングvlp法を提案する。この手法は,cmcとコントラスト学習を統合して,単モードと多モードのビューを組み合わせることで,異なるモダリティ間のインスタンスレベルのアライメントを改善する。
5つの下流タスクに関する大規模な実験は、VLMixerが以前の最先端の未実装のVLPメソッドを超える可能性があることを示している。
関連論文リスト
- Looking Beyond Text: Reducing Language bias in Large Vision-Language Models via Multimodal Dual-Attention and Soft-Image Guidance [67.26434607115392]
大規模視覚言語モデル(LVLM)は様々な視覚言語タスクにおいて印象的な成果を上げている。
LVLMは言語バイアスによる幻覚に悩まされ、画像や非効果的な視覚的理解に焦点が当てられなくなった。
MDA (Multimodal duAl-attention meChanIsm) aNd soft-image Guidance (IFG) を用いたLVLMの言語バイアスに対処するためのLACingを提案する。
論文 参考訳(メタデータ) (2024-11-21T16:33:30Z) - Multimodal Unlearnable Examples: Protecting Data against Multimodal Contrastive Learning [53.766434746801366]
マルチモーダル・コントラッシブ・ラーニング (MCL) は、インターネットから何百万ものイメージ・キャプション・ペアから学習することで、ゼロショット分類において顕著な進歩を見せている。
ハッカーは、個人やプライバシーに敏感な情報を含む、モデルトレーニングのために画像テキストデータを不正に活用する可能性がある。
近年の研究では、保護のためのショートカットを構築するための訓練画像に知覚不能な摂動を加えることで、学習不可能な例を生成することを提案する。
マルチステップ誤り最小化(MEM)を提案する。
論文 参考訳(メタデータ) (2024-07-23T09:00:52Z) - Sieve: Multimodal Dataset Pruning Using Image Captioning Models [11.362835828985494]
Vision-Language Models (VLM) は、大規模で多様でノイズの多いWebcrawledデータセットで事前トレーニングされている。
提案手法は,CLIPがノイズラベルを事前学習しているため,偽陽性や陰性などの複数の制約を伴っていると論じる。
そこで我々は,小,多様,整列した画像テキストペア上で事前訓練された画像キャプションモデルによって生成された合成キャプションを用いたプルーニング信号Sieveを提案する。
論文 参考訳(メタデータ) (2023-10-03T14:53:53Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - Vision-Language Pre-Training with Triple Contrastive Learning [45.80365827890119]
モーダル・インターモーダル・セルフ・スーパービジョンとクロスモーダル・イントラモーダル・セルフスーパービジョンの両方を活用することで、視覚言語事前学習のための三重コントラスト学習(TCL)を提案する。
マルチモーダル表現学習のための局所構造情報を考慮した最初の研究である。
論文 参考訳(メタデータ) (2022-02-21T17:54:57Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - SemVLP: Vision-Language Pre-training by Aligning Semantics at Multiple
Levels [35.57369098866317]
大規模画像テキストペアによる視覚言語事前学習では,クロスモーダル表現の学習が急速に進展している。
画像とテキストの表現の低レベルと高レベルのセマンティクスを協調的に調整する新しい事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-14T02:39:14Z) - WenLan: Bridging Vision and Language by Large-Scale Multi-Modal
Pre-Training [71.37731379031487]
クロスモーダルコントラスト学習フレームワークにおいて,BriVLと呼ばれる2重塔前訓練モデルを提案する。
単純なコントラスト学習手法を採用したopenaiクリップとは異なり,最新のメソッドmocoをクロスモーダルシナリオに適用することにより,より高度なアルゴリズムを考案する。
大規模なキューベースの辞書を構築することで、BriVLは限られたGPUリソースにネガティブなサンプルを組み込むことができます。
論文 参考訳(メタデータ) (2021-03-11T09:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。