論文の概要: A Novel Attention-based Aggregation Function to Combine Vision and
Language
- arxiv url: http://arxiv.org/abs/2004.13073v2
- Date: Mon, 13 Jul 2020 12:22:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 04:19:48.167725
- Title: A Novel Attention-based Aggregation Function to Combine Vision and
Language
- Title(参考訳): 視覚と言語を組み合わせた新しい注意型アグリゲーション関数
- Authors: Matteo Stefanini, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara
- Abstract要約: 本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
- 参考スコア(独自算出の注目度): 55.7633883960205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The joint understanding of vision and language has been recently gaining a
lot of attention in both the Computer Vision and Natural Language Processing
communities, with the emergence of tasks such as image captioning, image-text
matching, and visual question answering. As both images and text can be encoded
as sets or sequences of elements -- like regions and words -- proper reduction
functions are needed to transform a set of encoded elements into a single
response, like a classification or similarity score. In this paper, we propose
a novel fully-attentive reduction method for vision and language. Specifically,
our approach computes a set of scores for each element of each modality
employing a novel variant of cross-attention, and performs a learnable and
cross-modal reduction, which can be used for both classification and ranking.
We test our approach on image-text matching and visual question answering,
building fair comparisons with other reduction choices, on both COCO and VQA
2.0 datasets. Experimentally, we demonstrate that our approach leads to a
performance increase on both tasks. Further, we conduct ablation studies to
validate the role of each component of the approach.
- Abstract(参考訳): 近年,画像キャプションや画像テキストマッチング,視覚的質問応答といったタスクが出現し,コンピュータビジョンと自然言語処理コミュニティの両方において,視覚と言語に関する合同的な理解が注目されている。
画像とテキストの両方を、領域や単語のような要素のセットやシーケンスとしてエンコードできるので、符号化された要素のセットを分類や類似度スコアのような単一の応答に変換するのに適切な還元関数が必要である。
本稿では,視覚と言語のための完全適応型削減手法を提案する。
具体的には,各モーダルの各要素のスコアの集合を,新しい異質なクロスアテンションを用いて計算し,学習可能なクロスモーダル還元を行い,分類とランク付けの両方に使用できる。
我々は、COCOとVQA 2.0データセットの両方で、画像テキストマッチングと視覚的質問応答のアプローチを検証し、他の縮小選択と公正に比較した。
実験により,本手法が両タスクのパフォーマンス向上につながることを示した。
さらに,アプローチの各コンポーネントの役割を検証するため,アブレーション研究を行う。
関連論文リスト
- FINEMATCH: Aspect-based Fine-grained Image and Text Mismatch Detection and Correction [66.98008357232428]
我々は新しいアスペクトベースのきめ細かいテキストと画像マッチングベンチマークであるFineMatchを提案する。
FineMatchはテキストと画像のミスマッチの検出と修正に焦点を当てている。
FineMatchで訓練されたモデルは、きめ細かいテキストや画像のミスマッチを検出する能力の向上を示す。
論文 参考訳(メタデータ) (2024-04-23T03:42:14Z) - SyCoCa: Symmetrizing Contrastive Captioners with Attentive Masking for
Multimodal Alignment [11.556516260190737]
言語と視覚のマルチモーダルアライメントは、現在の視覚言語モデル研究の基本的なトピックである。
本稿では,Contrastive Language-Image Pretraining (CLIP) と Image Caption (IC) を統合するためのContrastive Captioners (CoCa) を提案する。
論文 参考訳(メタデータ) (2024-01-04T08:42:36Z) - Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for
Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。
近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文 参考訳(メタデータ) (2023-05-23T08:28:38Z) - Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image
Person Retrieval [29.884153827619915]
IRRA:クロスモーダルImplicit Relation Reasoning and Aligning frameworkを提案する。
ローカルなビジュアルテキストトークン間の関係を学習し、グローバルな画像テキストマッチングを強化する。
提案手法は,3つの公開データセットすべてに対して,最先端の新たな結果を実現する。
論文 参考訳(メタデータ) (2023-03-22T12:11:59Z) - Universal Multimodal Representation for Language Understanding [110.98786673598015]
本研究は,一般的なNLPタスクの補助信号として視覚情報を利用する新しい手法を提案する。
各文に対して、まず、既存の文-画像ペア上で抽出された軽トピック-画像検索テーブルから、フレキシブルな画像を検索する。
そして、テキストと画像はそれぞれトランスフォーマーエンコーダと畳み込みニューラルネットワークによって符号化される。
論文 参考訳(メタデータ) (2023-01-09T13:54:11Z) - Fine-Grained Semantically Aligned Vision-Language Pre-Training [151.7372197904064]
大規模な視覚言語による事前学習は、幅広い下流タスクにおいて顕著な進歩を見せている。
既存の手法は主に、画像とテキストのグローバルな表現の類似性によって、モーダル間のアライメントをモデル化する。
ゲーム理論的相互作用の新たな視点から, 微粒なセマンティックアライメントを学習する, 微粒なセマンティックなvisiOn-langUage PrEトレーニングフレームワークであるLOを導入する。
論文 参考訳(メタデータ) (2022-08-04T07:51:48Z) - Language Matters: A Weakly Supervised Pre-training Approach for Scene
Text Detection and Spotting [69.77701325270047]
本稿では,シーンテキストを効果的に表現できる弱教師付き事前学習手法を提案する。
本ネットワークは,画像エンコーダと文字認識型テキストエンコーダから構成され,視覚的特徴とテキスト的特徴を抽出する。
実験により、事前訓練されたモデルは、重みを他のテキスト検出やスポッティングネットワークに転送しながら、Fスコアを+2.5%、+4.8%改善することが示された。
論文 参考訳(メタデータ) (2022-03-08T08:10:45Z) - LAViTeR: Learning Aligned Visual and Textual Representations Assisted by Image and Caption Generation [5.064384692591668]
本稿では,視覚およびテキスト表現学習のための新しいアーキテクチャであるLAViTeRを提案する。
メインモジュールであるVisual Textual Alignment (VTA)は、GANベースの画像合成とイメージキャプションという2つの補助的なタスクによって支援される。
CUBとMS-COCOの2つの公開データセットに対する実験結果は、優れた視覚的およびテキスト的表現アライメントを示す。
論文 参考訳(メタデータ) (2021-09-04T22:48:46Z) - Multi-Modal Reasoning Graph for Scene-Text Based Fine-Grained Image
Classification and Retrieval [8.317191999275536]
本稿では,視覚的・テキスト的手がかりの形でマルチモーダルコンテンツを活用することで,微細な画像分類と検索の課題に取り組むことに焦点を当てる。
画像中の有意なオブジェクトとテキスト間の共通意味空間を学習することにより、マルチモーダル推論を行い、関係強化された特徴を得るためにグラフ畳み込みネットワークを用いる。
論文 参考訳(メタデータ) (2020-09-21T12:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。