論文の概要: Beyond Image-Text Matching: Verb Understanding in Multimodal
Transformers Using Guided Masking
- arxiv url: http://arxiv.org/abs/2401.16575v1
- Date: Mon, 29 Jan 2024 21:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 17:06:38.849219
- Title: Beyond Image-Text Matching: Verb Understanding in Multimodal
Transformers Using Guided Masking
- Title(参考訳): 画像テキストマッチングを超えて:誘導マスクを用いたマルチモーダルトランスフォーマーの動詞理解
- Authors: Ivana Be\v{n}ov\'a, Jana Ko\v{s}eck\'a, Michal Gregor, Martin Tamajka,
Marcel Vesel\'y, Mari\'an \v{S}imko
- Abstract要約: この研究はガイドマスキング(英語版)と呼ばれる代替の探索戦略を導入する。
提案手法はマスキングを用いて異なるモダリティを識別し、マスキングされた単語を高精度に予測するモデルの能力を評価する。
ViLBERT,LXMERT,UNITER,VisualBERTの誘導マスキングにより,正しい動詞を高精度に予測できることを示す。
- 参考スコア(独自算出の注目度): 0.4543820534430524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The dominant probing approaches rely on the zero-shot performance of
image-text matching tasks to gain a finer-grained understanding of the
representations learned by recent multimodal image-language transformer models.
The evaluation is carried out on carefully curated datasets focusing on
counting, relations, attributes, and others. This work introduces an
alternative probing strategy called guided masking. The proposed approach
ablates different modalities using masking and assesses the model's ability to
predict the masked word with high accuracy. We focus on studying multimodal
models that consider regions of interest (ROI) features obtained by object
detectors as input tokens. We probe the understanding of verbs using guided
masking on ViLBERT, LXMERT, UNITER, and VisualBERT and show that these models
can predict the correct verb with high accuracy. This contrasts with previous
conclusions drawn from image-text matching probing techniques that frequently
fail in situations requiring verb understanding. The code for all experiments
will be publicly available https://github.com/ivana-13/guided_masking.
- Abstract(参考訳): 最近のマルチモーダル画像言語トランスフォーマーモデルで得られた表現をより詳細に理解するために、主流となるプロッピング手法は、画像テキストマッチングタスクのゼロショット性能に依存している。
この評価は、計数、関係、属性などに焦点を当てた注意深くキュレートされたデータセット上で行われる。
この研究はガイドマスキングと呼ばれる別の探索戦略を導入する。
提案手法はマスキングを用いて異なるモーダリティをアブレーションし,高精度にマスキング単語を予測できるモデルの能力を評価する。
対象検出器が入力トークンとして取得した関心領域(ROI)の特徴を考慮に入れたマルチモーダルモデルの研究に焦点をあてる。
ViLBERT, LXMERT, UNITER, VisualBERT の誘導マスキングを用いて動詞の理解を探索し, 精度の高い正しい動詞を予測可能であることを示す。
これは、動詞理解を必要とする状況で頻繁に失敗する画像テキストマッチング探索技術から得られた以前の結論とは対照的である。
すべての実験のコードはhttps://github.com/ivana-13/guided_masking.comで公開される。
関連論文リスト
- Exploring Simple Open-Vocabulary Semantic Segmentation [7.245983878396646]
オープン語彙セマンティックセグメンテーションモデルは、任意のオープン語彙テキストの集合から画像中の各ピクセルにセマンティックラベルを正確に割り当てることを目的としている。
本稿では,これらの要素に依存することなく驚くほど高い性能を実現する新モデルであるS-Segを紹介する。
論文 参考訳(メタデータ) (2024-01-22T18:59:29Z) - Towards Better Multi-modal Keyphrase Generation via Visual Entity
Enhancement and Multi-granularity Image Noise Filtering [79.44443231700201]
マルチモーダルなキーフレーズ生成は、入力されたテキストイメージペアのコアポイントを表すキーフレーズのセットを作成することを目的としている。
入力されたテキストと画像はしばしば完全に一致しないので、画像はモデルにノイズをもたらす可能性がある。
本稿では,モデル入力を外部知識で豊かにするだけでなく,画像ノイズを効果的にフィルタする,新しいマルチモーダル・キーフレーズ生成モデルを提案する。
論文 参考訳(メタデータ) (2023-09-09T09:41:36Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Leveraging per Image-Token Consistency for Vision-Language Pre-training [52.825150269820696]
クロスモーダルマスク言語モデリング(CMLM)は視覚言語事前学習には不十分である。
視覚言語事前学習のためのEPIC(Leveraging Per Image-Token Consistency)を提案する。
提案手法は, 事前学習法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2022-11-20T12:10:53Z) - Align before Fuse: Vision and Language Representation Learning with
Momentum Distillation [52.40490994871753]
本稿では,ALBEF (BEfore Fusing) の表現に対して,モーダルな注意を通したコントラスト的損失を導入する。
本研究では,運動量モデルで生成した擬似ターゲットから学習する自己学習法である運動量蒸留を提案する。
ALBEFは、複数の下流視覚言語タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-07-16T00:19:22Z) - RpBERT: A Text-image Relation Propagation-based BERT Model for
Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。
マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。
MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-02-05T02:45:30Z) - Accurate Word Representations with Universal Visual Guidance [55.71425503859685]
本稿では,視覚指導から従来の単語埋め込みを視覚的に強調する視覚的表現法を提案する。
各単語が多様な関連画像に対応するマルチモーダルシードデータセットから,小型の単語画像辞書を構築する。
12の自然言語理解および機械翻訳タスクの実験により,提案手法の有効性と一般化能力がさらに検証された。
論文 参考訳(メタデータ) (2020-12-30T09:11:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。