論文の概要: Understanding Attention for Vision-and-Language Tasks
- arxiv url: http://arxiv.org/abs/2208.08104v1
- Date: Wed, 17 Aug 2022 06:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-18 12:57:30.312003
- Title: Understanding Attention for Vision-and-Language Tasks
- Title(参考訳): 視覚・言語課題の意識理解
- Authors: Feiqi Cao, Soyeon Caren Han, Siqu Long, Changwei Xu, Josiah Poon
- Abstract要約: 本研究では,アテンションスコア計算手法を検討することで,アテンションアライメントの役割を理解するための包括的な分析を行う。
また、注目スコア計算機構がより(あるいはそれ以下)解釈可能な条件も分析する。
我々の分析は,VLタスクの学習段階に適用した場合の,各アテンションアライメントスコア計算の重要性に関する有用な知見を提供する。
- 参考スコア(独自算出の注目度): 4.752823994295959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention mechanism has been used as an important component across
Vision-and-Language(VL) tasks in order to bridge the semantic gap between
visual and textual features. While attention has been widely used in VL tasks,
it has not been examined the capability of different attention alignment
calculation in bridging the semantic gap between visual and textual clues. In
this research, we conduct a comprehensive analysis on understanding the role of
attention alignment by looking into the attention score calculation methods and
check how it actually represents the visual region's and textual token's
significance for the global assessment. We also analyse the conditions which
attention score calculation mechanism would be more (or less) interpretable,
and which may impact the model performance on three different VL tasks,
including visual question answering, text-to-image generation, text-and-image
matching (both sentence and image retrieval). Our analysis is the first of its
kind and provides useful insights of the importance of each attention alignment
score calculation when applied at the training phase of VL tasks, commonly
ignored in attention-based cross modal models, and/or pretrained models.
- Abstract(参考訳): 注意機構は視覚的特徴とテキスト的特徴のセマンティックギャップを埋めるために、視覚と言語(VL)タスク間の重要なコンポーネントとして使われてきた。
注意はVLタスクで広く用いられているが,視覚的手がかりとテキスト的手がかりのセマンティックギャップを埋める際,注意アライメントの計算能力の違いは検討されていない。
本研究では,注意スコア算出手法に着目して注意アライメントの役割を理解するための包括的分析を行い,グローバルアセスメントにおける視覚的領域とテキスト的トークンの意義を実際にどのように表現しているかを検証した。
また,視覚的質問応答,テキスト・ツー・イメージ生成,テキスト・アンド・イメージマッチング(文と画像検索の両方)を含む3種類のVLタスクにおいて,注目スコアの計算機構がより(あるいはより少ない)解釈可能であり,モデル性能に影響を及ぼす可能性のある条件も分析する。
我々の分析は、VLタスクのトレーニングフェーズで適用された各アテンションアライメントスコア計算の重要性についての有用な洞察を提供し、注意に基づくクロスモーダルモデルや/または事前訓練モデルで一般的に無視される。
関連論文リスト
- VISTA: A Visual and Textual Attention Dataset for Interpreting Multimodal Models [2.0718016474717196]
統合ビジョンと言語モデル(VLM)は、機械学習研究コミュニティ内のブラックボックスと見なされることが多い。
本稿では、画像領域と対応するテキストセグメント間の特定の関連をマッピングする画像テキスト整列人間の視覚的注意データセットを提案する。
次に、VLモデルによって生成された内部のヒートマップとこのデータセットを比較し、モデルの決定プロセスを分析し、よりよく理解できるようにします。
論文 参考訳(メタデータ) (2024-10-06T20:11:53Z) - Why context matters in VQA and Reasoning: Semantic interventions for VLM input modalities [18.859309032300402]
画像とテキストのモダリティからの情報の統合が視覚言語モデル(VLM)予測の性能と振舞いに与える影響について検討する。
本稿では,VQAタスクの解決に視覚的内容が不可欠である様々な構成において,テキストと画像のモダリティの相互作用について検討する。
この結果から,モダリティ間の相補的な情報によって解答や推論の質が向上し,矛盾する情報がモデルの性能や信頼性を損なうことが明らかとなった。
論文 参考訳(メタデータ) (2024-10-02T16:02:02Z) - Top-Down Visual Attention from Analysis by Synthesis [87.47527557366593]
我々は、古典的分析・合成(AbS)の視覚的視点からトップダウンの注意を考察する。
本稿では,AbSを変動的に近似したトップダウン変調ViTモデルであるAbSViT(Analytic-by-Synthesis Vision Transformer)を提案する。
論文 参考訳(メタデータ) (2023-03-23T05:17:05Z) - Alignment Attention by Matching Key and Query Distributions [48.93793773929006]
本稿では,各ヘッダ内のキーとクエリの分布を一致させる自己注意を促すアライメントアテンションアテンションアテンションアテンションアテンションを導入している。
事前学習したモデルを含む自己注意のモデルはすべて、提案したアライメントアテンションアテンションアテンションに変換することが簡単である。
様々な言語理解タスクにおいて, 精度, 不確実性推定, ドメイン間の一般化, 敵攻撃に対する堅牢性などの手法の有効性を示す。
論文 参考訳(メタデータ) (2021-10-25T00:54:57Z) - Variational Structured Attention Networks for Deep Visual Representation
Learning [49.80498066480928]
空間的注意マップとチャネル的注意の両方を原則的に共同学習するための統合的深層フレームワークを提案する。
具体的には,確率的表現学習フレームワークに注目度の推定と相互作用を統合する。
ニューラルネットワーク内で推論ルールを実装し,確率パラメータとcnnフロントエンドパラメータのエンドツーエンド学習を可能にする。
論文 参考訳(メタデータ) (2021-03-05T07:37:24Z) - Linguistically-aware Attention for Reducing the Semantic-Gap in
Vision-Language Tasks [9.462808515258464]
本稿では,汎用物体検出装置から得られた物体属性を利用する注意機構であるLingguistically-Aware Attention (LAT)を提案する。
LATは、共通の言語学的に豊かな空間における視覚的およびテキスト的モダリティを表し、注意プロセスに対する言語的認識を提供する。
我々は,VQA,VQA,画像キャプションという3つの視覚言語(V-L)タスクにおけるLATの有効性を適用し,実演する。
論文 参考訳(メタデータ) (2020-08-18T16:29:49Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z) - Cross-Modality Relevance for Reasoning on Language and Vision [22.41781462637622]
本研究は,視覚的質問応答(VQA)や視覚的推論(NLVR)などの下流課題に対する,言語と視覚データに対する学習と推論の課題を扱う。
我々は,目的タスクの監督の下で,様々な入力モダリティのコンポーネント間の関連性表現を学習するために,エンドツーエンドフレームワークで使用される新しいクロスモーダル関連モジュールを設計する。
提案手法は,公開ベンチマークを用いた2つの異なる言語および視覚タスクの競合性能を示し,その結果を改良する。
論文 参考訳(メタデータ) (2020-05-12T20:17:25Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。