論文の概要: Cross-Modal Attribute Insertions for Assessing the Robustness of
Vision-and-Language Learning
- arxiv url: http://arxiv.org/abs/2306.11065v1
- Date: Mon, 19 Jun 2023 17:00:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-21 16:48:02.454034
- Title: Cross-Modal Attribute Insertions for Assessing the Robustness of
Vision-and-Language Learning
- Title(参考訳): 視覚・言語学習のロバスト性評価のためのクロスモーダル属性挿入法
- Authors: Shivaen Ramshetty, Gaurav Verma, Srijan Kumar
- Abstract要約: クロスモーダル属性挿入は、視覚・言語データに対する現実的な摂動戦略である。
モーダル・インサートを用いた入力テキストの増大は,テキスト・ツー・モーダル検索やモーダル・エンターメントにおける最先端のアプローチに悪影響を及ぼすことが判明した。
クラウドソースアノテーションは、クロスモーダルな挿入がマルチモーダルデータの品質向上につながることを示している。
- 参考スコア(独自算出の注目度): 9.949354222717773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The robustness of multimodal deep learning models to realistic changes in the
input text is critical for their applicability to important tasks such as
text-to-image retrieval and cross-modal entailment. To measure robustness,
several existing approaches edit the text data, but do so without leveraging
the cross-modal information present in multimodal data. Information from the
visual modality, such as color, size, and shape, provide additional attributes
that users can include in their inputs. Thus, we propose cross-modal attribute
insertions as a realistic perturbation strategy for vision-and-language data
that inserts visual attributes of the objects in the image into the
corresponding text (e.g., "girl on a chair" to "little girl on a wooden
chair"). Our proposed approach for cross-modal attribute insertions is modular,
controllable, and task-agnostic. We find that augmenting input text using
cross-modal insertions causes state-of-the-art approaches for text-to-image
retrieval and cross-modal entailment to perform poorly, resulting in relative
drops of 15% in MRR and 20% in $F_1$ score, respectively. Crowd-sourced
annotations demonstrate that cross-modal insertions lead to higher quality
augmentations for multimodal data than augmentations using text-only data, and
are equivalent in quality to original examples. We release the code to
encourage robustness evaluations of deep vision-and-language models:
https://github.com/claws-lab/multimodal-robustness-xmai.
- Abstract(参考訳): 入力テキストのリアルな変化に対するマルチモーダルディープラーニングモデルの堅牢性は、テキストから画像への検索やクロスモーダルの包含といった重要なタスクへの適用性において重要である。
ロバスト性を測定するために、既存のいくつかのアプローチではテキストデータを編集するが、マルチモーダルデータに存在するクロスモーダル情報を活用しない。
色、サイズ、形状といった視覚的モダリティからの情報は、ユーザが入力に含めることのできる追加の属性を提供する。
そこで,画像中の物体の視覚的属性を対応するテキストに挿入する視覚言語データに対する現実的な摂動戦略として,クロスモーダル属性挿入を提案する(例えば「椅子の少女」から「木製の椅子の少女」へ)。
提案するクロスモーダル属性挿入のアプローチはモジュール性,制御性,タスク非依存である。
クロスモーダル挿入による入力テキストの付加は,テキスト間検索における最先端のアプローチと,クロスモーダルの処理に悪影響を与えることが判明し,mdrでは15%,$f_1$スコアでは20%の相対的低下がみられた。
クラウドソースのアノテーションは、クロスモーダル挿入はテキストのみのデータによる拡張よりもマルチモーダルデータの品質向上につながり、元の例と同等の品質であることを示している。
我々は、ディープビジョンと言語モデルの堅牢性評価を促進するコードをリリースした。 https://github.com/claws-lab/multimodal-robustness-xmai。
関連論文リスト
- ARMADA: Attribute-Based Multimodal Data Augmentation [93.05614922383822]
Attribute-based Multimodal Data Augmentation (ARMADA) は、知識誘導による視覚属性の操作による新しいマルチモーダルデータ拡張手法である。
ARMADAは、新しいマルチモーダルデータ生成フレームワークである。 (i) 意味的に一貫性があるがユニークな画像-テキストペア生成のために、シンボリックKBから知識基底属性を抽出する。
これはまた、解釈可能性の向上と現実世界の接地のために外部の知識プロキシを活用する必要性を強調している。
論文 参考訳(メタデータ) (2024-08-19T15:27:25Z) - Enhance the Robustness of Text-Centric Multimodal Alignments [4.985886792128721]
本研究では、欠落したエントリ、ノイズ、欠落したモダリティの存在下でのマルチモーダル表現の品質とロバスト性を評価する。
本稿では,従来の手法に比べて頑健性に優れたテキスト中心型手法を提案する。
論文 参考訳(メタデータ) (2024-07-06T10:12:29Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Towards Unifying Medical Vision-and-Language Pre-training via Soft
Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。
PTUnifier という2つのタイプを統一する手法を提案する。
まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文 参考訳(メタデータ) (2023-02-17T15:43:42Z) - FaD-VLP: Fashion Vision-and-Language Pre-training towards Unified
Retrieval and Captioning [66.38951790650887]
ファッション分野におけるマルチモーダルタスクは、eコマースにとって大きな可能性を秘めている。
本稿では,ファッションとテクストのペアから構築した弱教師付き三つ組に基づく,ファッション特有の事前学習フレームワークを提案する。
3重項に基づくタスクは、標準的なマルチモーダル事前学習タスクに有効な追加であることを示す。
論文 参考訳(メタデータ) (2022-10-26T21:01:19Z) - ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text
Pre-training [40.05046655477684]
ERNIE-ViL 2.0は多視点コントラスト学習フレームワークであり、多様なビュー間のモーダル内およびモーダル間相関を同時に構築する。
オブジェクトタグのシーケンスを特別なテキストビューとして構築し、ノイズの多い画像とテキストのペア上でのモーダルなセマンティックギャップを狭める。
ERNIE-ViL 2.0は、英語のクロスモーダル検索において競合する結果を得る。
論文 参考訳(メタデータ) (2022-09-30T07:20:07Z) - Correlation Information Bottleneck: Towards Adapting Pretrained
Multimodal Models for Robust Visual Question Answering [63.87200781247364]
相関情報ボトルネック (CIB) は圧縮と表現の冗長性のトレードオフを求める。
マルチモーダル入力と表現の相互情報に対して,理論上界を厳密に導出する。
論文 参考訳(メタデータ) (2022-09-14T22:04:10Z) - ITA: Image-Text Alignments for Multi-Modal Named Entity Recognition [38.08486689940946]
MNER(Multi-modal Named Entity Recognition)は多くの注目を集めている。
画像やテキスト表現などのインタラクションを,それぞれのモダリティのデータに基づいて個別に訓練することは困難である。
本稿では,画像特徴をテキスト空間に整列させるため,bf Image-bf text bf Alignments (ITA)を提案する。
論文 参考訳(メタデータ) (2021-12-13T08:29:43Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Vision-and-Language or Vision-for-Language? On Cross-Modal Influence in
Multimodal Transformers [15.826109118064716]
事前訓練された視覚と言語 BERT は、両方のモダリティから情報を組み合わせた表現を学習することを目的としている。
本稿では,モーダル間入力アブレーションに基づく診断手法を提案し,それらのモデルが実際にモーダル間情報を統合する程度を評価する。
論文 参考訳(メタデータ) (2021-09-09T17:47:50Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。