論文の概要: MLIM: Vision-and-Language Model Pre-training with Masked Language and
Image Modeling
- arxiv url: http://arxiv.org/abs/2109.12178v1
- Date: Fri, 24 Sep 2021 20:25:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-28 16:02:26.169164
- Title: MLIM: Vision-and-Language Model Pre-training with Masked Language and
Image Modeling
- Title(参考訳): MLIM:マスケ言語による視覚・言語モデルの事前学習と画像モデリング
- Authors: Tarik Arici, Mehmet Saygin Seyfioglu, Tal Neiman, Yi Xu, Son Train,
Trishul Chilimbi, Belinda Zeng, and Ismail Tutar
- Abstract要約: Masked Language and Image Modeling (MLIM) は2つの損失関数を使用する: Masked Language Modeling (MLM) 損失と画像再構成 (RECON) 損失。
モーダリティ間の相互作用を促進するため,モーダリティ・アウェア・マスキング(MAM)を提案する。
- 参考スコア(独自算出の注目度): 14.563358764946498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-Language Pre-training (VLP) improves model performance for
downstream tasks that require image and text inputs. Current VLP approaches
differ on (i) model architecture (especially image embedders), (ii) loss
functions, and (iii) masking policies. Image embedders are either deep models
like ResNet or linear projections that directly feed image-pixels into the
transformer. Typically, in addition to the Masked Language Modeling (MLM) loss,
alignment-based objectives are used for cross-modality interaction, and RoI
feature regression and classification tasks for Masked Image-Region Modeling
(MIRM). Both alignment and MIRM objectives mostly do not have ground truth.
Alignment-based objectives require pairings of image and text and heuristic
objective functions. MIRM relies on object detectors. Masking policies either
do not take advantage of multi-modality or are strictly coupled with alignments
generated by other models. In this paper, we present Masked Language and Image
Modeling (MLIM) for VLP. MLIM uses two loss functions: Masked Language Modeling
(MLM) loss and image reconstruction (RECON) loss. We propose Modality Aware
Masking (MAM) to boost cross-modality interaction and take advantage of MLM and
RECON losses that separately capture text and image reconstruction quality.
Using MLM + RECON tasks coupled with MAM, we present a simplified VLP
methodology and show that it has better downstream task performance on a
proprietary e-commerce multi-modal dataset.
- Abstract(参考訳): VLP(Vision-and-Language Pre-training)は、画像およびテキスト入力を必要とする下流タスクのモデルパフォーマンスを改善する。
現在のVLPアプローチは異なる。
(i)モデルアーキテクチャ(特に画像埋め込み器)
(ii)損失機能、及び
(iii)マスキング政策。
画像埋め込みはresnetのような深いモデルか、トランスフォーマーに画像ピクセルを直接送り込む線形投影である。
一般的に、マスケッド言語モデリング(MLM)の損失に加えて、アライメントに基づく目的が相互モダリティの相互作用に使用され、RoIはマスケッドイメージ・レギュレーション・モデリング(MIRM)のための回帰と分類タスクを特徴付ける。
アライメントとMIRMの目的はどちらも、ほとんど真実を持っていない。
アライメントに基づく目的は、画像とテキストのペアリングとヒューリスティックな目的関数を必要とする。
MIRMはオブジェクト検出器に依存している。
マスキングポリシーはマルチモダリティを活用しないか、他のモデルによって生成されたアライメントと厳密に結合する。
本稿では,VLPのためのMasked Language and Image Modeling (MLIM)を提案する。
MLIMは2つの損失関数を使用する: Masked Language Modeling (MLM) 損失と画像再構成 (RECON) 損失。
モーダルアウェア・マスキング(MAM)は、モダリティ間の相互作用を向上し、テキストと画像再構成の品質を別々にキャプチャするMLMとRECONの損失を利用する。
MLM+RECONタスクとMAMを組み合わせることで、単純化されたVLP手法を提示し、プロプライエタリなeコマースマルチモーダルデータセット上でのダウンストリームタスク性能が向上することを示す。
関連論文リスト
- OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Semantics-enhanced Cross-modal Masked Image Modeling for Vision-Language
Pre-training [87.69394953339238]
Masked Image Modeling (MIM) が最近導入され、細粒度のクロスモーダルアライメントを実現している。
視覚言語表現学習のためのセマンティクス強化クロスモーダルMIMフレームワーク(SemMIM)を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:25:58Z) - Masked and Permuted Implicit Context Learning for Scene Text Recognition [8.742571493814326]
シーン認識(STR)は、テキストスタイル、形状、背景の変化のため困難である。
単一のデコーダ内において、STRのためのマスク付き暗黙的文脈学習ネットワークを提案する。
論文 参考訳(メタデータ) (2023-05-25T15:31:02Z) - PixMIM: Rethinking Pixel Reconstruction in Masked Image Modeling [83.67628239775878]
Masked Image Modeling (MIM) は Masked Autoencoders (MAE) と BEiT の出現によって有望な進歩を遂げた。
本稿では,画素再構成の観点からMIMの基本解析を行う。
我々は,2つの戦略を包含する極めて単純で効果的な方法,weelmethodを提案する。
論文 参考訳(メタデータ) (2023-03-04T13:38:51Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - Masked Vision and Language Modeling for Multi-modal Representation
Learning [62.15254888833132]
視覚と言語(V+L)表現学習におけるマスク信号モデリングの使い方について検討する。
我々は,あるモダリティのマスク信号が他のモダリティの助けを借りて再構成される,共同マスク型視覚と言語モデリングを構築することを提案する。
種々のV+Lタスクに対する実験により,提案手法は大量のデータを用いて最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2022-08-03T15:11:01Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。