論文の概要: Linguistically-aware Attention for Reducing the Semantic-Gap in
Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2008.08012v1
- Date: Tue, 18 Aug 2020 16:29:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 21:49:15.554206
- Title: Linguistically-aware Attention for Reducing the Semantic-Gap in
Vision-Language Tasks
- Title(参考訳): 視覚言語課題におけるセマンティクスギャップ低減のための言語学的注意
- Authors: Gouthaman KV, Athira Nambiar, Kancheti Sai Srinivas, Anurag Mittal
- Abstract要約: 本稿では,汎用物体検出装置から得られた物体属性を利用する注意機構であるLingguistically-Aware Attention (LAT)を提案する。
LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。
我々は,VQA,VQA,画像キャプションという3つの視覚言語(V-L)タスクにおけるLATの有効性を適用し,実演する。
- 参考スコア(独自算出の注目度): 9.462808515258464
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention models are widely used in Vision-language (V-L) tasks to perform
the visual-textual correlation. Humans perform such a correlation with a strong
linguistic understanding of the visual world. However, even the best performing
attention model in V-L tasks lacks such a high-level linguistic understanding,
thus creating a semantic gap between the modalities. In this paper, we propose
an attention mechanism - Linguistically-aware Attention (LAT) - that leverages
object attributes obtained from generic object detectors along with pre-trained
language models to reduce this semantic gap. LAT represents visual and textual
modalities in a common linguistically-rich space, thus providing linguistic
awareness to the attention process. We apply and demonstrate the effectiveness
of LAT in three V-L tasks: Counting-VQA, VQA, and Image captioning. In
Counting-VQA, we propose a novel counting-specific VQA model to predict an
intuitive count and achieve state-of-the-art results on five datasets. In VQA
and Captioning, we show the generic nature and effectiveness of LAT by adapting
it into various baselines and consistently improving their performance.
- Abstract(参考訳): 注意モデルは視覚・テキスト相関を行うために視覚言語(V-L)タスクで広く利用されている。
人間は視覚世界に対する強い言語的理解とそのような相関を行う。
しかしながら、V-Lタスクにおける最高のパフォーマンスアテンションモデルでさえ、そのような高いレベルの言語理解を欠いているため、モダリティ間のセマンティックギャップが生じる。
本稿では,ジェネリックオブジェクト検出器から得られたオブジェクト属性と事前学習された言語モデルを利用して,このセマンティックギャップを低減できる注意機構,LAT(Lingguistically-Aware Attention)を提案する。
LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。
3つのV-Lタスク(カウント-VQA,VQA,画像キャプション)にLATの有効性を適用し,実演する。
カウント-VQAでは、直感的なカウントを予測し、5つのデータセットで最先端の結果を得るために、新しいカウント特化VQAモデルを提案する。
VQA と Captioning では,様々なベースラインに適応し,その性能を継続的に改善することにより,LAT の汎用性と有効性を示す。
関連論文リスト
- VL-GLUE: A Suite of Fundamental yet Challenging Visuo-Linguistic Reasoning Tasks [48.67062958311173]
VL-GLUEは、自然言語理解のためのマルチタスクベンチマークである。
既存の大規模視覚言語モデルでは,このベンチマークは非常に難しい。
論文 参考訳(メタデータ) (2024-10-17T15:27:17Z) - Integrating Self-supervised Speech Model with Pseudo Word-level Targets
from Visually-grounded Speech Model [57.78191634042409]
擬似単語レベルのターゲットを学習プロセスに統合するフレームワークであるPseudo-Word HuBERT(PW-HuBERT)を提案する。
4つの音声言語理解(SLU)ベンチマークによる実験結果から,意味情報の収集におけるモデルの有用性が示唆された。
論文 参考訳(メタデータ) (2024-02-08T16:55:21Z) - Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization [52.935150075484074]
非言語的なイメージを外国語のような個別のトークン列に変換するために、よく設計されたビジュアルトークン化器を導入する。
結果として得られる視覚トークンは、単語に相応しいハイレベルな意味論を含み、画像から変化する動的シーケンス長もサポートする。
この統合によりLaVITは、マルチモーダルコンテンツの理解と生成を同時に行うための印象的な汎用インターフェースとして機能する。
論文 参考訳(メタデータ) (2023-09-09T03:01:38Z) - Can Linguistic Knowledge Improve Multimodal Alignment in Vision-Language
Pretraining? [34.609984453754656]
本研究の目的は,意味表現や構文構造を含む包括的言語知識がマルチモーダルアライメントに与える影響を明らかにすることである。
具体的には、最初の大規模マルチモーダルアライメント探索ベンチマークであるSNAREを設計、リリースする。
論文 参考訳(メタデータ) (2023-08-24T16:17:40Z) - DiMBERT: Learning Vision-Language Grounded Representations with
Disentangled Multimodal-Attention [101.99313208598569]
視覚と言語(V-L)タスクは、視覚内容と自然言語の両方を理解する必要がある。
視覚と言語に対する注意空間を分離したDiMBERT(Disentangled Multimodal-Attention BERT)を提案する。
DiMBERTは3つのタスクに対して最新のパフォーマンスを新たに設定する。
論文 参考訳(メタデータ) (2022-10-28T23:00:40Z) - Understanding Attention for Vision-and-Language Tasks [4.752823994295959]
本研究では,アテンションスコア計算手法を検討することで,アテンションアライメントの役割を理解するための包括的な分析を行う。
また、注目スコア計算機構がより(あるいはそれ以下)解釈可能な条件も分析する。
我々の分析は,VLタスクの学習段階に適用した場合の,各アテンションアライメントスコア計算の重要性に関する有用な知見を提供する。
論文 参考訳(メタデータ) (2022-08-17T06:45:07Z) - From Two to One: A New Scene Text Recognizer with Visual Language
Modeling Network [70.47504933083218]
本稿では,視覚情報と言語情報を結合として見る視覚言語モデリングネットワーク(VisionLAN)を提案する。
VisionLANは39%のスピード向上を実現し、正確な認識のための視覚的特徴を高めるために言語情報を適応的に検討する。
論文 参考訳(メタデータ) (2021-08-22T07:56:24Z) - Cross-Modality Relevance for Reasoning on Language and Vision [22.41781462637622]
本研究は,視覚的質問応答(VQA)や視覚的推論(NLVR)などの下流課題に対する,言語と視覚データに対する学習と推論の課題を扱う。
我々は,目的タスクの監督の下で,様々な入力モダリティのコンポーネント間の関連性表現を学習するために,エンドツーエンドフレームワークで使用される新しいクロスモーダル関連モジュールを設計する。
提案手法は,公開ベンチマークを用いた2つの異なる言語および視覚タスクの競合性能を示し,その結果を改良する。
論文 参考訳(メタデータ) (2020-05-12T20:17:25Z) - Object Relational Graph with Teacher-Recommended Learning for Video
Captioning [92.48299156867664]
本稿では,新しいモデルと効果的なトレーニング戦略の両方を含む完全なビデオキャプションシステムを提案する。
具体的には,オブジェクトリレーショナルグラフ(ORG)に基づくエンコーダを提案する。
一方,教師推薦学習(TRL)手法を設計し,成功した外部言語モデル(ELM)をフル活用し,豊富な言語知識をキャプションモデルに統合する。
論文 参考訳(メタデータ) (2020-02-26T15:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。