論文の概要: Probing Cross-modal Semantics Alignment Capability from the Textual
Perspective
- arxiv url: http://arxiv.org/abs/2210.09550v1
- Date: Tue, 18 Oct 2022 02:55:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:30:53.757137
- Title: Probing Cross-modal Semantics Alignment Capability from the Textual
Perspective
- Title(参考訳): テクスト的観点からのクロスモーダルセマンティクスアライメント能力の探索
- Authors: Zheng Ma, Shi Zong, Mianzhi Pan, Jianbing Zhang, Shujian Huang, Xinyu
Dai and Jiajun Chen
- Abstract要約: クロスモーダルなセマンティクスの調整は、視覚と言語の事前学習モデルの本質的な能力の1つであると主張されている。
画像キャプションに基づく新しい探索手法を提案し,まずFjordモデルのモーダル間セマンティクスアライメントを実証的に研究する。
- 参考スコア(独自算出の注目度): 52.52870614418373
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In recent years, vision and language pre-training (VLP) models have advanced
the state-of-the-art results in a variety of cross-modal downstream tasks.
Aligning cross-modal semantics is claimed to be one of the essential
capabilities of VLP models. However, it still remains unclear about the inner
working mechanism of alignment in VLP models. In this paper, we propose a new
probing method that is based on image captioning to first empirically study the
cross-modal semantics alignment of VLP models. Our probing method is built upon
the fact that given an image-caption pair, the VLP models will give a score,
indicating how well two modalities are aligned; maximizing such scores will
generate sentences that VLP models believe are of good alignment. Analyzing
these sentences thus will reveal in what way different modalities are aligned
and how well these alignments are in VLP models. We apply our probing method to
five popular VLP models, including UNITER, ROSITA, ViLBERT, CLIP, and LXMERT,
and provide a comprehensive analysis of the generated captions guided by these
models. Our results show that VLP models (1) focus more on just aligning
objects with visual words, while neglecting global semantics; (2) prefer fixed
sentence patterns, thus ignoring more important textual information including
fluency and grammar; and (3) deem the captions with more visual words are
better aligned with images. These findings indicate that VLP models still have
weaknesses in cross-modal semantics alignment and we hope this work will draw
researchers' attention to such problems when designing a new VLP model.
- Abstract(参考訳): 近年,視覚と言語事前学習(vlp)モデルが,様々な下位処理において最先端の成果を上げている。
クロスモーダルセマンティクスの調整は、VLPモデルの本質的な能力の1つとされている。
しかしながら、VLPモデルにおけるアライメントの内部動作機構についてはまだ不明である。
本稿では,画像キャプションに基づく新しい探索手法を提案し,まず,VLPモデルの相互モーダルなセマンティクスアライメントを実証的に研究する。
提案手法は,VLPモデルに画像キャプチャペアが与えられた場合,2つのモーダルがどの程度うまく一致しているかを示すスコアを与える。
したがって、これらの文を分析することで、異なるモダリティの整合性やVLPモデルでのアライメントの正確さが明らかになる。
UNITER, ROSITA, ViLBERT, CLIP, LXMERT を含む5つのVLPモデルに適用し, これらのモデルでガイドされたキャプションの包括的解析を行った。
以上の結果から,VLPモデルは,(1)大域的意味論を軽視しながら,単に視覚的単語とオブジェクトの一致にのみ焦点を合わせること,(2)文文パターンの固定化を優先すること,(3)より視覚的な単語を付加したキャプションを画像に合わせること,などが示唆された。
これらの結果から,VLPモデルはいまだに相互モーダルなセマンティクスアライメントの弱点があり,新たなVLPモデルの設計において研究者の注意を惹きつけることが期待できる。
関連論文リスト
- APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Zero-shot Visual Question Answering with Language Model Feedback [83.65140324876536]
知識に基づく視覚的質問応答(VQA)のための言語モデル指導型キャプションアプローチ LAMOC を提案する。
提案手法では,予備学習言語モデル (PLM) である回答予測モデルの文脈として,キャプションモデルによって生成されたキャプションを用いる。
論文 参考訳(メタデータ) (2023-05-26T15:04:20Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - Learning by Hallucinating: Vision-Language Pre-training with Weak
Supervision [6.8582563015193]
弱教師付き視覚言語事前学習は、ほとんどあるいは全くペアのデータを持たないクロスモーダルアライメントを学習することを目的としている。
オブジェクトタグと視覚的特徴をペアリングする最近の手法は、様々なV-L下流タスクで整列ペアで訓練されたモデルと同等のパフォーマンスを達成するのに役立っている。
Visual Vocabulary based Feature Hallucinator (WFH) を用いたモデル管理のためのペアV-Lデータの欠如に対処する。
WFHはテキストから視覚的な幻覚を生成し、元の未読テキストとペアリングすることで、モダリティ間のより多様な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-10-24T20:30:55Z) - Counterfactually Measuring and Eliminating Social Bias in
Vision-Language Pre-training Models [13.280828458515062]
本稿では,視覚言語事前学習モデルにおける社会的バイアスを定量化するために,反事実に基づくバイアス測定emphCounterBiasを導入する。
また、性別バイアスを測定するための24K画像テキストペアを含む新しいVL-Biasデータセットを構築した。
論文 参考訳(メタデータ) (2022-07-03T14:39:32Z) - VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文 参考訳(メタデータ) (2022-07-01T06:25:53Z) - VLMixer: Unpaired Vision-Language Pre-training via Cross-Modal CutMix [59.25846149124199]
本稿では,データ拡張手法,すなわちクロスモーダルCutMixを提案する。
CMCは自然文をテキストビューからマルチモーダルビューに変換する。
クロスモーダルノイズをユニモーダルデータにアタッチすることで、モダリティ間のトークンレベルの相互作用を学習し、より優れたデノゲーションを実現する。
論文 参考訳(メタデータ) (2022-06-17T17:56:47Z) - Word Shape Matters: Robust Machine Translation with Visual Embedding [78.96234298075389]
文字レベルNLPモデルの入力シンボルを新たに符号化する。
文字が印刷されたときの画像を通して各文字の形状をエンコードする。
我々はこの新たな戦略を視覚的埋め込みと呼び、NLPモデルの堅牢性を向上させることが期待されている。
論文 参考訳(メタデータ) (2020-10-20T04:08:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。