論文の概要、ライセンス

# (参考訳) もう一度確認する: ビジュアルエンターテイメントによるプログレッシブなビジュアル質問回答 [全文訳有]

Check It Again: Progressive Visual Question Answering via Visual Entailment ( http://arxiv.org/abs/2106.04605v1 )

ライセンス: CC BY 4.0
Qingyi Si, Zheng Lin, Mingyu Zheng, Peng Fu, Weiping Wang(参考訳) 高度なVisual Question Answeringモデルは驚くほど成功したが、彼らは質問と回答の間の表面的相関によってのみ質問に答える傾向にある。 この言語に先立つ問題に対処するために、近年いくつかのアプローチが開発されている。 しかし、そのほとんどは、解答の正しさを確かめることなく、最良の出力に従って正しい解答を予測する。 さらに、彼らは画像と疑問の間の相互作用のみを探求し、候補解のセマンティクスを無視した。 本稿では,視覚インテリメントに基づくsar(select-and-reran k)プログレッシブフレームワークを提案する。 具体的には、まず、質問や画像に関連する候補回答を選択し、その候補回答を視覚的詳細タスクで再ランクし、その画像が質問の合成文と各候補回答を意味的に含むかどうかを検証する。 実験の結果, 7.55%改善したvqa-cp v2において, 新たな最先端精度を確立するためのフレームワークの有効性が示された。

While sophisticated Visual Question Answering models have achieved remarkable success, they tend to answer questions only according to superficial correlations between question and answer. Several recent approaches have been developed to address this language priors problem. However, most of them predict the correct answer according to one best output without checking the authenticity of answers. Besides, they only explore the interaction between image and question, ignoring the semantics of candidate answers. In this paper, we propose a select-and-rerank (SAR) progressive framework based on Visual Entailment. Specifically, we first select the candidate answers relevant to the question or the image, then we rerank the candidate answers by a visual entailment task, which verifies whether the image semantically entails the synthetic statement of the question and each candidate answer. Experimental results show the effectiveness of our proposed framework, which establishes a new state-of-the-art accuracy on VQA-CP v2 with a 7.55% improvement.
公開日: Tue, 8 Jun 2021 18:00:38 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Check It Again: Progressive Visual Question Answering もう一度見てみよう:プログレッシブなビジュアル質問回答 0.50
via Visual Entailment ビジュアル・エンターテイメントを通して 0.37
Qingyi Si1,2, Zheng Lin1∗, Mingyu Zheng1,2, Peng Fu1, Weiping Wang1 Qingyi Si1,2, Zheng Lin1∗, Mingyu Zheng1,2, Peng Fu1, Weiping Wang1 0.74
1Institute of Information Engineering, Chinese Academy of Sciences, Beijing, China 2School of Cyber Security, University of Chinese Academy of Sciences, Beijing, China {siqingyi,linzheng,zh engmingyu,fupeng,wan gweiping}@iie.ac.cn 1institute of information engineering, china academy of sciences, beijing, china 2 school of cyber security, university of china academy of sciences, beijing, china {siqingyi,linzheng,zh engmingyu,fupeng,wan gweiping}@iie.ac.cn 0.90
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] V C . 8 ] 略称はC。 0.73
s c [ 1 v 5 0 6 4 0 sc [ 1 v 5 0 6 4 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract While sophisticated Visual Question Answering models have achieved remarkable success, they tend to answer questions only according to superficial correlations between question and answer. 概要 高度なVisual Question Answeringモデルは驚くほど成功したが、彼らは質問と回答の間の表面的相関によってのみ質問に答える傾向にある。
訳抜け防止モード: 概要 高度なVisual Question Answeringモデルは素晴らしい成功を収めた。 答えは 質問と答えの 表面的相関によってのみ 答える傾向があります
0.62
Several recent approaches have been developed to address this language priors problem. この言語に先立つ問題に対処するために、近年いくつかのアプローチが開発されている。 0.51
However, most of them predict the correct answer according to one best output without checking the authenticity of answers. しかし、そのほとんどは、解答の正しさを確かめることなく、最良の出力に従って正しい解答を予測する。 0.67
Besides, they only explore the interaction between image and question, ignoring the semantics of candidate answers. さらに、彼らは画像と疑問の間の相互作用のみを探求し、候補解のセマンティクスを無視した。 0.64
In this paper, we propose a select-and-rerank (SAR) progressive framework based on Visual Entailment. 本稿では,視覚インテリメントに基づくsar(select-and-reran k)プログレッシブフレームワークを提案する。 0.73
Specifically, we first select the candidate answers relevant to the question or the image, then we rerank the candidate answers by a visual entailment task, which verifies whether the image semantically entails the synthetic statement of the question and each candidate answer. 具体的には、まず、質問や画像に関連する候補回答を選択し、その候補回答を視覚的詳細タスクで再ランクし、その画像が質問の合成文と各候補回答を意味的に含むかどうかを検証する。 0.71
Experimental results show the effectiveness of our proposed framework, which establishes a new state-of- the-art accuracy on VQA-CP v2 with a 7.55% improvement.1 実験の結果, 7.55%改善したvqa-cp v2における最先端精度を新たに確立する提案フレームワークの有効性が示された。 0.67
Introduction 1 Visual Question Answering (VQA) task is a multimodal problem which requires the comprehensive understanding of both visual and textual information. はじめに 1 Visual Question Answering (VQA)タスクは、視覚情報とテキスト情報の総合的な理解を必要とするマルチモーダル問題である。 0.71
Presented with an input image and a question, the VQA system tries to determine the correct answer in the large prediction space. 入力画像と質問で提示されたVQAシステムは、大きな予測空間における正しい答えを判定しようとする。 0.83
Recently, some studies (Jabri et al , 2016; Agrawal et al , 2016; Zhang et al , 2016; Goyal et al , 2017) demonstrate that VQA systems suffer from the superficial correlation bias (i.e. 最近、いくつかの研究 (Jabri et al , 2016; Agrawal et al , 2016; Zhang et al , 2016; Goyal et al , 2017) は、VQA系が表面相関バイアス(すなわち、表面相関バイアス)に悩まされていることを示した。 0.73
language priors) caused by accidental correlations between answers and questions. 言語優先) 答えと質問の間の偶然の相関によって引き起こされる。 0.58
As a result, traditional VQA models always output the その結果、従来のVQAモデルは常に出力される。 0.75
∗Corresponding author: Zheng Lin. * 著者: zheng lin。 0.49
1The code is available at https://github.com/ 1 コードはhttps://github.com/で入手できる。 0.53
PhoebusSi/SAR PhoebusSi/SAR 0.59
Figure 1: (a) We evaluate the performance of UpDn, LMH, SSL on the VQA-CP v2 test. 図1: (a) VQA-CP v2テストにおけるUpDn, LMH, SSLの性能を評価する。 0.86
topN represents the topN accuracy. topN は topN の精度を表す。 0.84
(b) Visual verification utilizing answer semantics. b)応答意味論を利用した視覚的検証 0.70
most common answer(Selvaraju et al , 2019) of the input sample’s question category, no matter what image is given. 入力されたサンプルの質問カテゴリの最も一般的な回答(Selvaraju et al , 2019)は、どんな画像が与えられたとしても。 0.76
To address this language priors problem, various approaches have been developed. この言語優先問題に対処するために、様々なアプローチが開発されている。 0.63
However, through exploring the characteristics of the existing methods, we find that whether the general VQA models such as UpDn(Anderson et al , 2018) and LXMERT(Tan and Bansal, 2019) or models carefully designed for language priors, as LMH(Clark et al , 2019) and SSL(Zhu et al , 2020), yield a non-negligible problem. しかし,既存の手法の特徴を探究した結果,UpDn(Anderson et al ,2018)やLXMERT(Tan and Bansal, 2019)のような一般的なVQAモデルや,LMH(Clark et al , 2019)やSSL(Zhu et al , 2020)のように,言語事前に慎重に設計されたモデルが,非無視の問題をもたらすかどうかが判明した。 0.79
Both models predict the correct answer according to one best output without checking the authenticity of answers. どちらのモデルも、解答の正しさを確かめることなく、最良の出力に従って正しい解答を予測する。 0.64
Besides, these models have not made good use of the semantics information of answers that could be helpful for alleviating the language-priors. さらに、これらのモデルは、言語プライヤを緩和するのに役立つ答えのセマンティクス情報をうまく利用していない。 0.69
As presented in Figure 1(a), quite a few correct answers usually occur at top N candidates rather than top one. 図1(a)に示すように、ごく少数の正解は通常トップn候補ではなくトップn候補で発生する。 0.75
Meanwhile, if the top N candidate answers are given, the image can further verify the visual presence/absence of concepts based on the combination of the question and the candidate 一方、トップN候補回答が与えられた場合、画像は質問と候補の組み合わせに基づいて概念の視覚的存在/存在を更に検証することができる。 0.79
英語(論文から抽出)日本語訳スコア
answer. As shown in Figure 1(b), the question is about the color of the bat and two candidate answers are “yellow” and “black”. 答えろ 図1(b)に示すように、質問はコウモリの色についてであり、2つの候補回答は「黄色」と「黒」である。 0.59
After checking the correctness of candidate answers, the wrong answer “yellow” which is contradicted with the image can be excluded and the correct answer “black” which is consistent with the image is confirmed. 候補回答の正しさを確認した後、画像と矛盾する誤答「黄色」を除外し、画像と一致した正解「黒」を確認する。
訳抜け防止モード: 候補の答えの正しさを確認した後、間違った答えは"黄色"で、それは正しい答えです。 イメージと矛盾しています 除外できるし 画像と一致する正しい答え「黒」が確認される。
0.74
Nevertheless, this visual verification, which utilizes answer semantics to alleviate language priors, has not been fully investigated. それにもかかわらず、この視覚的検証は、解答のセマンティクスを利用して言語先行を緩和するものであり、完全には研究されていない。 0.48
In this paper, we propose a select-and-rerank (SAR) progressive framework based on Visual Entailment. 本稿では,視覚インテリメントに基づくsar(select-and-reran k)プログレッシブフレームワークを提案する。 0.73
The intuition behind the proposed framework comes from two observations. 提案フレームワークの背景にある直感は2つの観察から来ている。 0.51
First, after excluding the answers unrelated to the question and image, the prediction space is shrunken and we can obtain a small number of candidate answers. まず、質問や画像とは無関係な回答を除外した後、予測空間は縮小され、少数の候補解が得られる。 0.69
Second, on the condition that a question and one of its candidate answer is bridged into a complete statement, the authenticity of this statement can be inferred by the content of the image. 第二に、質問とその答えの1つが完全な文に橋渡しされた場合、この文の真正性は画像の内容によって推測できる。
訳抜け防止モード: 第二に、その条件で 質問とその候補の答えの1つは、完全な声明にブリッジされます。 この文の真偽は、画像の内容によって推測できる。
0.70
Therefore, after selecting several possible answers as candidates, we can utilize the visual entailment, consisting of image-text pairs, to verify whether the image semantically entails the synthetic statement. そこで,複数の可能な回答を候補として選択した後,画像とテキストのペアからなる視覚的包含を利用して,画像が合成文を意味的に包含するかどうかを検証する。 0.60
Based on the entailment degree, we can further rerank candidate answers and give the model another chance to find the right answer. 厳密な度合いに基づいて、候補の回答をさらに振り返り、モデルに正しい答えを見つける機会を与えることができる。 0.67
To summarize, our contributions are as follows: まとめると、私たちの貢献は次のとおりです。 0.65
1. We propose a select-and-rerank progressive framework to tackle the language priors problem, and empirically investigate a range of design choices for each module of this framework. 1. 本稿では,言語優先の問題に対処する,選択と再帰のプログレッシブフレームワークを提案し,このフレームワークの各モジュールの設計選択範囲を実験的に検討する。 0.80
In addition, it is a generic framework, which can be easily combined with the existing VQA models and further boost their abilities. さらに、既存のVQAモデルと簡単に組み合わせて、その能力をさらに強化できる汎用フレームワークである。
訳抜け防止モード: 加えて、汎用的なフレームワークである。 既存のVQAモデルと簡単に組み合わせて、その能力をさらに強化することができます。
0.72
2. We highlight the verification process between text and image, and formulate the VQA task as a visual entailment problem. 2. 本稿では,テキストと画像間の検証プロセスを強調し,視覚的包絡問題としてVQAタスクを定式化する。 0.79
This process makes full use of the interactive information of image, question and candidate answers. このプロセスは、画像、質問、候補者の回答のインタラクティブな情報を完全に活用する。 0.70
3. Experimental results demonstrate that our framework establishes a new state-of-the-art accuracy of 66.73%, outperforming the existing methods by a large margin. 3. 実験により,本フレームワークは66.73%の精度を新たに確立し,既存の手法よりも大きなマージンを達成できた。 0.77
2 Related Work Language-Priors Methods To address the language prior problem of VQA models, a lot of approaches have been proposed, which can be roughly categorized into two lines: (1) Design- 2 関連作業 言語-パラメータ手法 VQAモデルの言語以前の問題に対処するために、多くのアプローチが提案され、大まかに2つのラインに分類できる。
訳抜け防止モード: 2 関連作業 言語 - 事前メソッド VQAモデルの言語前の問題に対処する。 多くのアプローチが提案され 概ね2つの線に分類できる: (1 ) 設計
0.79
ing Specific Debiasing Models to Reduce Biases. バイアスを減らすための特異なバイアスモデル。 0.66
Most works of this line are ensemble-based methods (Ramakrishnan et al , 2018; Grand and Belinkov, 2019; Belinkov et al , 2019; Cadene et al , 2019; Clark et al , 2019; Mahabadi and Henderson, 2019), among these, LMH(Clark et al , 2019) reduces all biases between question-answer pairs by penalizing the samples that can be answered without utilizing image content. アンサンブルベースの方法(Ramakrishnan et al , 2018; Grand and Belinkov, 2019; Belinkov et al , 2019; Cadene et al , 2019; Clark et al , 2019; Mahabadi and Henderson, 2019)で、LMH(Clark et al , 2019)では、イメージコンテンツを活用することなく答えられるサンプルをペナル化することで、問合せペア間のすべてのバイアスを低減している。 0.83
(2) Data Augmentation to Reduce Biases. (2)バイアスを減らすためのデータ拡張。 0.78
The main idea of such works (Zhang et al , 2016; Goyal et al , 2017; Agrawal et al , 2018) is to carefully construct more balanced datasets to overcome priors. このような作業の主な考え方(Zhang et al , 2016; Goyal et al , 2017; Agrawal et al , 2018)は、事前を克服するために、よりバランスのとれたデータセットを慎重に構築することである。 0.70
For example, the recent method SSL(Zhu et al , 2020) first automatically generates a set of balanced question-image pairs, then introduces an auxiliary self-supervised task to use the balanced data. 例えば、最近のSSL(Zhu et al , 2020)は、まずバランスの取れた質問と画像のペアを自動生成し、バランスの取れたデータを使用するための補助的な自己監督タスクを導入する。 0.65
CSS(Chen et al , 2020a) balances the data by adding more complementary samples which are generated by masking objects in the image or some keywords in the question. CSS(Chen et al , 2020a)は、イメージ内のオブジェクトや質問のキーワードをマスキングすることによって生成される、補完的なサンプルを追加することで、データのバランスをとる。 0.65
Based on CSS, CL(Liang et al , 2020) forces the model to utilize the relationship between complementary samples and original samples. cssに基づき、cl(liang et al , 2020)はモデルに補完的なサンプルとオリジナルのサンプルの関係を利用するよう強制する。 0.75
Unlike SSL and CSS which do not use any extra manual annotations, MUTANT(Gokhale et al , 2020) locates critical objects in the image and critical words in the question by utilizing the extra object-name labels, which directly helps the model to ground the textual concepts in the image. 追加のマニュアルアノテーションを使用しないSSLやCSSとは異なり、MUTANT(Gokhale et al , 2020)は、画像内の重要なオブジェクトと重要な単語を、追加のオブジェクト名ラベルを使用することで、問題内のクリティカルなオブジェクトを特定する。 0.68
However, above methods only explore the interaction between the image and the question, ignoring the semantics of candidate answers. しかし、上記の手法は画像と質問の間の相互作用のみを探索し、候補の回答の意味を無視する。 0.71
In this paper, we propose a progressive VQA framework SAR which achieves better interaction among the question, the image and the answer. 本稿では,質問,画像,回答の対話性を向上するプログレッシブVQAフレームワークSARを提案する。
訳抜け防止モード: 本稿では,プログレッシブVQAフレームワークSARを提案する。 質問と画像と答えの間の より優れた相互作用を実現します
0.80
Answer Re-ranking Although Answer Reranking is still in the infancy in VQA task, it has been widely studied for QA tasks like open-domain question answering, in which models need to answer questions based on a broad range of opendomains knowledge sources. アンサー再ランク アンサー再ランクは、VQAタスクの初期段階にあるが、オープンドメインの質問応答のようなQAタスクでは、モデルが幅広いオープンドメインの知識ソースに基づいて質問に答える必要があることが広く研究されている。
訳抜け防止モード: Answer Re - rank Answer Re rankはVQAタスクの初期段階にある。 オープンなドメイン質問応答のようなQAタスクのために広く研究されている。 様々なオープンドメインの知識ソースに基づいて モデルが質問に答える必要があります
0.77
Recent works (Wang et al , 2018b,a; Kratzwald et al , 2019) address this task in a two-stage manner: extract candidates from all passages, then focus on these candidate answers and rerank them to get a final answer. 最近の研究(Wang et al , 2018b,a; Kratzwald et al , 2019)では、この課題を2段階の方法で解決している。
訳抜け防止モード: 最近の作品(Wang et al, 2018b, a ; Kratzwald et al) 2019年) この課題を2段階に分けて解決し、全ての項目から候補を抽出する。 では 候補者の答えに 焦点を合わせ 最終回答を 取り替えてみましょう。
0.74
RankVQA(Qiao et al , 2020) introduces Answer Re-ranking method to VQA task. RankVQA (Qiao et al , 2020) は、VQAタスクにアンサー再ランク法を導入している。 0.62
They design an auxiliary task which reranks candidate answers according to their matching degrees with the input image and off-line generated image captions. 入力画像とオフライン生成画像キャプションとの一致度に応じて候補回答をランク付けする補助タスクをデザインする。 0.73
However, RankVQA still predicts the final answer from しかし RankVQA は依然として最終回答を予測している。 0.66
英語(論文から抽出)日本語訳スコア
Figure 2: Overview of the progressive framework SAR. 図2: プログレッシブフレームワークSARの概要。 0.62
the huge prediction space rather than selected candidate answers. 候補の答えではなく 巨大な予測空間です 0.69
3 Method Figure 2 shows an overview of the proposed selectand-rerank (SAR) framework, which consists of a Candidate Answer Selecting module and an Answer Re-ranking module. 3方法 図2は、候補Answer SelectingモジュールとAnswer Re- rankモジュールからなる提案されたSARフレームワークの概要を示す。 0.76
In the Candidate Answer Selecting module, given an image and a question, we first use a current VQA model to get a candidate answer set consisting of top N answers. 画像と質問を与えられた候補Answer Selectingモジュールでは、まず現在のVQAモデルを用いてトップNの回答からなる候補解集合を得る。 0.80
In this module, the answers irrelevant to the question can be filtered out. このモジュールでは、問題に無関係な回答をフィルタリングすることができる。 0.78
Next, we formulate the VQA as a VE task in the Answer Re-ranking module, where the image is premise and the synthetic dense caption(Johnson et al , 2016) (combination of the answer and the question ) is hypothesis. 次に,VQA を Answer Re- rank module のVEタスクとして定式化し,画像は前提であり,合成された高密度キャプション (Johnson et al , 2016) は仮説である。 0.67
We use the cross-domain pre-trained model LXMERT(Tan and Bansal, 2019) as VE scorer to compute the entailment score of each image-caption pair, and thus the answer corresponding to the dense caption with the highest score is our final prediction. クロスドメイン事前学習モデルlxmert(tan and bansal, 2019)をveスコアとして,各画像キャプチャペアの補足スコアを算出し,高得点の高密度字幕に対応する回答を最終予測とした。 0.64
3.1 Candidate Answer Selecting The Candidate Answer Selector (CAS) selects several answers from all possible answers as candidates and thus shrinks the huge prediction space. 3.1 候補Answer Selecting The Candidate Answer Selector (CAS) は、可能なすべての回答から候補としていくつかの答えを選択し、巨大な予測空間を縮小する。 0.69
Given a VQA dataset D = {Ii, Qi}M i=1 with M samples, where Ii ∈ I, Qi ∈ Q are the image and question of the ith sample and A is the whole prediction space consisting of thousands of answer categories. VQAデータセット D = {Ii, Qi}Mi=1 と M のサンプルが与えられたとき、Ii ∈ I, Qi ∈ Q は i 番目のサンプルの画像と疑問であり、A は数千の解圏からなる予測空間である。 0.86
Essentially, the VQA model applied as CAS is a |A|-class classifier, and is a free choice in our framework. 本質的に、CASとして適用されるVQAモデルは|A|クラス分類子であり、我々のフレームワークでは自由に選択できる。 0.68
Given an image Ii and a question Qi, CAS first gives the regression scores over all optional answers: P (A|Qi, Ii). 画像 Ii と質問 Qi が与えられたとき、CAS はまず任意の全ての答えに対して回帰スコアを与える: P (A|Qi, Ii)。 0.73
Then CAS chooses N answers A∗ i with top N scores as candidates, which is concluded as follows: その後、CASはトップNのスコアを候補として N の解 A∗ i を選択する。 0.72
i = topN (argsort(P (A|Qi, Ii))) A∗ i = topN (argsort(P (A|Qi, Ii))) A∗ 0.99
(1) i , A2 N (hyper-parameter) candidate answers A∗ i = i ] are selected for each (Ii, Qi) [A1 i , ..., AN (cid:48) pair by CAS, = i=1,n=1 with M ∗ N instances, where {Ii, Qi, An i }M ,N i ∈ A∗ i , for the next Answer Re-ranking module. (1) i,A2 それぞれの (ii, qi) [a1 i , ..., an (cid:48) pair by cas, = i=1,n=1 with m ∗ n instance, where {ii, qi, an i }m ,n i ∈ a∗ i に対して、n (hyper-parameter) candidate answers a∗ i = i ] が選択される。 0.85
An In this paper, we mainly use SSL as our CAS. 本稿では、主にSSLをCASとして使用します。 0.78
We also conduct experiments to analyze the impact of different CAS and different N. また,異なるCASと異なるNの影響を分析する実験を行った。 0.80
forming a dataset D データセットDを形成する 0.74
3.2 Answer Re-ranking 3.2.1 Visual Entailment Visual Entailment (VE) task is proposed by Xie et al (2019), where the premise is a real-world image, denoted by Pimage, and the hypothesis is a text, denoted by Htext. 3.2 回答再ランキング 3.2.1 visual entailment visual entailment (ve) タスクは xie et al (2019) によって提案され、前提は実世界イメージであり、pimage で示され、仮説は htext で示されるテキストである。 0.74
Given a sample of (Pimage, Htext), the goal of VE task is to determine whether the Htext can be concluded based on the information of Pimage. VEタスクの目的は、(Pimage, Htext) のサンプルを与えられた場合、Pimage の情報に基づいて Htext を終了できるかどうかを決定することである。 0.77
According to following protocols, the label of the sample is assigned to (1) Entailment, if there is enough evidence in Pimage to conclude Htext is true. 以下のプロトコルによれば、サンプルのラベルは (1) に割り当てられ、pimage に htext が真であると結論付ける十分な証拠がある場合である。 0.85
(2) Contradiction, if there is enough evidence in Pimage to conclude Htext is false. 2) 対照的に,Htext が偽であると結論付ける十分な証拠が Pimage に存在する場合。 0.77
(3) Neutral, if there is no sufficient evidence in Pimage to give a conclusion about Htext. 3) 中性、pimage に htext に関する結論を与える十分な証拠がない場合。 0.66
3.2.2 VQA As Visual Entailment A question Qi and each of its candidate answers A∗ i can be bridged into a complete statement, and then the image could verify the authenticity of each statement. 3.2.2 vqa as visual entailment a question qi and their candidate answer a∗ i は完全なステートメントに橋渡しでき、画像は各ステートメントの真正性を検証することができる。 0.81
More specifically, the visual presence of concepts (e g “black bat”/“yellow bat”) based on the combination of the question and the correct/wrong candidate answer can be entailed/contradicte d by the content of the image. より具体的には、質問と正解/解答の組み合わせに基づく概念(例えば「ブラックバット」/「イエローバット」)の視覚的存在を、画像の内容によって含意/含意することができる。 0.74
In this way, we achieve better interaction among question, image and answer. このようにして,質問,画像,回答の対話性が向上する。 0.69
Therefore, we formulate VQA as a VE problem, in which the image Ii is premise, and the synthetic statement of an answer An i and i question Qi, represented as (Qi,An i ), is hypothesis. したがって、画像 Ii が前提となる VE 問題として VQA を定式化し、答え An i と i question Qi の合成ステートメントは (Qi, An i ) として表される。 0.68
For an image, synthetic statements of different 画像について,異なる合成文 0.67
in A∗ A∗ において 0.45
英語(論文から抽出)日本語訳スコア
to represent the An questions describe different regions of the same image. anを表すために 疑問は同じ画像の異なる領域を記述します 0.82
Following Johnson et al (2016), we also refer to the synthetic statement as “dense caption”. johnson et al (2016) に続いて、合成文を "dense caption" と呼ぶこともある。 0.69
We use A+ i is the correct answer of Qi, use A− i i otherwise. 我々は A+ i を Qi の正解とし、そうでなければ A− i i を用いる。 0.75
There is enough evidence in Ii to prove (Qi,A+ the visual linguistic semantically entails (Qi,A+ i ). ii には (qi,a+ the visual language semantically entails (qi,a+ i ) を証明する十分な証拠がある。 0.81
And there is enough evidence in Ii to prove (Qi, A− i ) is false, i.e. そして、Ii には (Qi, A− i ) が偽であることを示す十分な証拠がある。 0.81
the visual linguistic semantically contradicts (Qi, A− i ). 視覚言語的意味論は矛盾する(Qi, A− i )。 0.68
Note that, there is no Neutral label in our VE task and we only have two labels: Entailment and Contradiction. veタスクには中立的なラベルはなく、補足と矛盾という2つのラベルしかありません。
訳抜け防止モード: 注: veタスクには中立的なラベルはありません 制約と矛盾という2つのラベルしかありません
0.71
i ) is true, i.e. i if An I)は真実、I. I if An 0.76
3.2.3 Re-Ranking based on VE We re-rank dense captions by contrastive learning, that is, (Qi,A+ i ) should be more semantically similar to Ii than (Qi,A− i ). 3.2.3 リランキング ve に基づいて、(qi,a+ i ) は (qi,a− i ) よりもii より意味的に似ているべきである。
訳抜け防止モード: 3.2.3 re - ve we re - コントラスト学習による密集キャプションのランク付け すなわち (qi, a+ i ) は (qi, a− i ) よりも ii と意味的に似ている。
0.75
The right part of Figure 2 illustrates this idea. 図2の右部分は、この考えを示しています。 0.68
The more semantically similar Ii to (Qi,An i ), the deeper the visual entailment degree is. Ii と (Qi, Ani ) が意味的に類似しているほど、視覚的含意度はより深い。 0.74
We score the visual entailment degree of i ) ∈ (Qi,A∗ Ii to each (Qi,An i ) and rerank the candidate answers A∗ i by this score. i ) ∈ (Qi,A∗ Ii) の各 (Qi,An i ) の視覚的包含度をスコアし、このスコアにより候補答え A∗ i をリランクする。 0.77
The ranking-first answer is our final output. ランキングファーストの答えは最終結果です。 0.59
Question-Answer Combination Strategy The answer information makes sense only when combine it with the question. 質問-回答 組み合わせ戦略 回答情報は、質問と組み合わせた場合にのみ意味がある。 0.69
We encode the combination of question and answer text to obtain the joint concept. 質問文と回答文の組み合わせをエンコードして,共同概念を得る。 0.72
We design three question-answer combination strategies: R, C and R→C to combine question and answer into synthetic dense caption Ci: R, C, R→Cの3つの問合せ戦略を設計し, 問合せと解答を合成密接な字幕Ciに組み合わせる。 0.73
R: Replace question category prefix with answer. R: 質問カテゴリプレフィックスを回答に置き換える。 0.76
The prefix of each question is the question category such as “are there”, “what color”, etc. 各質問の接頭辞は、「そこにいる」や「色がある」といった質問カテゴリである。 0.74
For instance, given a question “How many flowers in the vase?”, its answer “8” and its question category “how many”, the resulting dense caption is “8 flowers in the vase”. 例えば、花瓶の中の花の数」、その答え「8」、そして質問のカテゴリー「どのくらいの数」という質問をすると、その結果、密集したキャプションは「花瓶の中の8つの花」となる。 0.76
Similarly, “No a crosswalk” is the result of question “ Is this a crosswalk?” and answer “No”. 同様に、“No a crosswalk”は“これは横断歩道か?”という質問の結果であり、“No”と答える。 0.88
We build a dictionary of all question categories of the train set, then we adopt a Forward Maximum Matching algorithm to determine the question category for every test sample. 列車の全ての問合せカテゴリの辞書を構築し,各試験試料の問合せカテゴリを決定するために,前方最大マッチングアルゴリズムを採用する。 0.72
C: Concatenate question and answer directly. C: 質問と回答を直接結合する。 0.83
For two cases above, the resulting dense captions are “8 How many flowers in the vase?” and “No Is this a crosswalk?”. 上の2つのケースでは、濃いキャプションは「花瓶の中の花は8個?」と「これは横断歩道ですか?」です。 0.74
The resulting dense captions after concatenation are actually rhetorical questions. 連結後の高密度キャプションは、実際は修辞的な問題である。 0.38
We deliberately add answer text to the front of question text in order to avoid the answer being deleted when trimming dense captions to the same length. 質問文の先頭に質問文を追加して,質問文の字幕を同じ長さに絞り込む際,回答が削除されるのを避ける。 0.68
i (cid:48)(cid:48) 私は (cid:48)(cid:48) 0.64
i }M ,N R→C: We first use strategy R at training, which is aimed at preventing the model from excessively focusing on the co-occurrence relation between question category and answer, and then use strategy C at testing to introduce more information for inference. i }M ,N r→c: まず、トレーニングでストラテジrを使用し、モデルが質問カテゴリと回答の共起関係に過度に焦点を合わせないようにし、その後、テストでストラテジcを使用して推論のさらなる情報を導入します。
訳抜け防止モード: i }M ,N R→C : モデルが質問カテゴリーと回答の共起関係に過度に焦点を合わせるのを防ぐための訓練で最初に戦略Rを使用する。 テストに戦略Cを使い 推論のための より多くの情報を紹介します
0.87
Adopting any strategy above, we combine Qi and each answer in A∗ i to derive the dense captions C∗ . 上記の戦略を採用すると、Qi と A∗ i の各解を組み合わせて、高密度なキャプション C∗ を導出する。
訳抜け防止モード: 上記の戦略を採用すること qi と a∗ i の各答えを組み合わせると 濃密なキャプション c∗ を導出する。
0.62
And thus we have a dataset D = i=1,n=1with M ∗ N instances for VE task. したがって、veタスク用のデータセット d = i=1,n=1 と m ∗ n インスタンスがある。 0.64
{Ii, Cn VE Scorer We use the pre-trained model LXMERT to score the visual entailment degree of (Ii, Cn i ). Ii, Cn VE Scorer 事前学習したモデル LXMERT を用いて視覚的包含度(Ii, Cn i )を評価する。 0.67
LXMERT separately encodes image and caption text in two streams. LXMERTは画像とキャプションのテキストを2つのストリームで別々にエンコードする。 0.62
Next, the separate streams interact through co-attentional transformer layers. 次に、分離されたストリームは、コアテンショナルトランスフォーマー層を介して相互作用する。 0.50
In the textual stream, the dense caption is encoded into a high-level concept. テキストストリームでは、濃密なキャプションが高レベルな概念にエンコードされる。 0.77
Then the visual representations from visual stream can verify the visual presence/absence of the high-level concept. 次に、視覚的ストリームからの視覚的表現は、ハイレベルな概念の視覚的存在/存在を検証できる。 0.58
the ith caption as: image and its nth is sigmoid(T rm(Ii, Cn T rm() the 1-demensional output from the dense layers following LXMERT, δ() denotes the sigmoid function. image and its nth is sigmoid(T rm(Ii, Cn T rm()) the 1-demensional output from the dense layer following LXMERT, δ() represent the sigmoid function。
訳抜け防止モード: 画像としてのith字幕とそのnthはsigmoid(T rm(Ii))である Cn T rm ( ) LXMERT に続く高密度層からの1次元出力。 δ ( ) はシグモノイド関数を表す。
0.84
The larger score represents higher entailment degree. より大きなスコアは、より高い含意度を表す。 0.60
We optimize parameters by minimizing the multi-label soft loss: マルチラベルソフトロスを最小化してパラメータを最適化する。 0.69
the VE score for VE (複数形 VEs) 0.40
candidate where We represent i )), 候補者は 私たちは I)。 0.58
−1 M ∗ N + (1 − tn −1 M ∗ N + (1 − tn) 0.97
N(cid:88) M(cid:88) i )log(1 − δ(T rm(Ii, Cn N(cid:88) M(cid:88) i )log(1 − δ(T rm(Ii, Cn) 0.96
[tn i log(δ(T rm(Ii, Cn [tn i log(δ(T rm(Ii, Cn) 0.90
n=1 i=1 i )))] n=1 i=1 i (複数形 is) 0.54
i ))) i (複数形 is) 0.42
where tn (2) i is the soft target score of the nth answer. どこで 2) iはn番目の答えのソフトターゲットスコアである。 0.74
Combination with Language-Priors Method After Candidate Answer Selecting, the amount of candidate answers decreases from all possible answers to top N. Although some unrelated answers are filtered out, the dataset D for VE system is still biased. 質問票選択後の言語パラメータ法と組み合わせることで、候補回答の量がトップNまで減少し、いくつかの無関係な回答がフィルタリングされるが、VEシステムのデータセットDはいまだ偏っている。 0.71
Therefore, we can optionally apply existing language-priors methods to our framework for further reducing language priors. したがって、既存の言語プライヤメソッドをフレームワークに任意に適用して、言語優先順位をさらに下げることができる。 0.62
Take the SSL as an example, we apply the loss function of its self-supervised task to our framework by adjusting the loss function to: SSLを例に挙げると、損失関数を調整することで、自己監督タスクの損失関数を我々のフレームワークに適用する。 0.72
(cid:48)(cid:48) (cid:48)(cid:48) 0.75
LV E = M(cid:88) LV E = m(cid:88) 0.81
N(cid:88) i=1 n(cid:88) i=1 0.68
n=1 Lssl = n=1 Lssl = 0.72
α M ∗ N P (I(cid:48) α M∗N P(I(Icid:48) 0.83
i, Cn i ) (3) I, Cn i)。 (3) 0.85
where (I(cid:48) imagecaption pairs, α is a down-weighting coefficients. I(cid:48)イメージカプセル対の場合、αは下降係数である。 0.67
i ) denotes the irrelevant i, Cn i)無関係を表す i, Cn 0.78
英語(論文から抽出)日本語訳スコア
The probability P (I(cid:48) the confidence of (I(cid:48) can reformulate the overall loss function: 確率 p(i(cid:48) (i(cid:48) の信頼度は全体の損失関数を再構成することができる。 0.75
i ) could be considered as i ) being a relevant pair. i)が関連するペアであると考えることができる。 0.70
We i, Cn i, Cn 私たち i, Cn i, Cn 0.75
L = LV E + Lssl L = LV E + Lssl 0.85
(4) Inference Process (4) 推論プロセス 0.77
3.3 Question Type Discriminator Intuitively, most “Yes/No” questions can be answered by the answer “Yes” or “No”. 3.3 question type discriminator 直感的には、ほとんどの "yes/no" 質問は "yes" か "no" で答えられる。 0.78
There is no need to provide too many candidate answers for “Yes/No” questions at the test stage. テストステージで “yes/no” という質問に対して,候補からの回答が多すぎる必要はない。
訳抜け防止モード: 必要ない テストステージで “yes / no” という質問に対する候補回答を多すぎるようにする。
0.80
Therefore, we propose a Question Type Discriminator(QTD) to determine the question type and then correspondingly set different numbers of candidate answers, denoted as N(cid:48). そこで我々は,質問型判別器(qtd)を提案し,質問型を判定し,n(cid:48)と表記される候補回答の数を対応付けた。 0.70
Specifically, we roughly divided question types (including “Yes/No”, “Num” and “Other”) into yes/no and non-yes/no. 具体的には,質問タイプ(「Yes/No」,「Num」,「Other」を含む)を「yes/no」と「non-yes/no」に大別した。 0.64
A GRU binary classifier is trained with cross-entropy loss and evaluated with 5-fold cross-validation on the train split of each dataset. GRUバイナリ分類器は、クロスエントロピー損失で訓練され、各データセットの列車分割に対して5倍のクロスバリデーションで評価される。
訳抜け防止モード: GRUバイナリ分類器はクロス-エントロピー損失で訓練される 5倍のクロス – 各データセットの列車分割の検証。
0.75
Then, the trained QTD model with an accuracy about 97% is implemented as an off-line module during the test stage. そして、テスト段階では、約97%の精度でトレーニングされたQTDモデルをオフラインモジュールとして実装する。 0.73
We will further investigate the effect of N(cid:48) on each question type in the next section. 次の節では、各質問タイプに対するn(cid:48)の効果をさらに調査する。 0.67
Final Prediction In the inference phase, we search for the best dense caption ˆCi among all candidates C∗ 推測段階における最終予測では、全ての候補c∗の中で最も密接なキャプションを探索する。 0.69
i for the ith image. ithのイメージに賛成です。 0.55
ˆCi = argmax Ci = argmax 0.70
n∈N(cid:48) nftpn(cid:48) 0.65
δ(T rm(Ii, Cn δ(T rm(Ii, Cn) 0.93
i )) (5) The answer ˆAi corresponding to ˆCi is the final prediction. I) (5) ジシに対応する答えは最終予測である。 0.64
4 Experiments 4.1 Setting Datasets Our models are trained and evaluated on the VQA-CP v2(Agrawal et al , 2018) dataset, which is well-crafted by re-organizing VQA v2(Goyal et al , 2017) training and validation sets such that answers for each question category (65 categories according to the question prefix) have different distributions in the train and test sets. 4 実験 4.1 データセットの設定 我々のモデルは、VQA-CP v2(Agrawal et al , 2018)データセットでトレーニングされ、評価され、VQA v2(Goyal et al , 2017)トレーニングと検証セットを再編成することで、各質問カテゴリ(質問プレフィックスに従って65のカテゴリ)の回答が列車とテストセットに異なる分布を持つようにした。 0.77
Therefore, VQA-CP v2 is a natural choice for evaluating VQA model’s generalizability. したがって、VQA-CP v2 は VQA モデルの一般化性を評価する自然な選択である。 0.71
The questions of VQA-CP v2 include 3 types: “Yes/No”, “Num” and “Other”. VQA-CP v2の質問には、"Yes/No"、"Num"、"他"の3つのタイプが含まれている。 0.66
Note that the question type and question category (e g “what color”) are different. 質問の種類と質問のカテゴリ(例えば“どの色”)が違うことに注意してください。 0.76
Besides, we also evaluate our models on the VQA v2 validation set for completeness, and compare the accuracy difference between two datasets さらに、完全性のためのVQA v2検証セットのモデルも評価し、2つのデータセット間の精度差を比較する。 0.76
with the standard VQA evaluation metric(Antol et al , 2015). 標準VQA評価基準(Antol et al , 2015)で。 0.67
Baselines We compare our method with the following baseline methods: UpDn(Anderson et al , 2018), AReg(Ramakrishnan et al , 2018), RUBi(Cadene et al , 2019), LMH(Clark et al , 2019), RankVQA(Qiao et al , 2020), SSL(Zhu et al , 2020), CSS(Chen et al , 2020a), CL(Liang et al , 2020) and LXMERT(Tan and Bansal, 2019). UpDn(Anderson et al , 2018), AReg(Ramakrishnan et al , 2018), RUBi(Cadene et al , 2019), LMH(Clark et al , 2019), RankVQA(Qiao et al , 2020), SSL(Zhu et al , 2020a), CSS(Chen et al , 2020a), CL(Liang et al , 2020), LXMERT(Tan and Bansal, 2019)。
訳抜け防止モード: ベースライン 私たちのメソッドと以下のベースラインメソッドを比較します: UpDn(Anderson et al, 2018)、AReg(Ramakrishnan et al, 2018)、RUBi(Cadene et al, 2019)。 LMH (Clark et al, 2019 ), RankVQA (Qiao et al, 2020 ) SSL(Zhu et al, 2020a)、CSS(Chen et al, 2020a) CL(Liang et al, 2020 )とLXMERT(Tan and Bansal, 2019 )。
0.81
Most of them are designed for the language priors problem, while LXMERT represents the recent trend towards utilizing BERT-like pre-trained models(Li et al , 2019; Chen et al , 2020b; Li et al , 2020) which have top performances on various downstream vision and language tasks (including VQA-v2). LXMERTはBERTのような事前訓練モデル(Li et al , 2019; Chen et al , 2020b; Li et al , 2020)の利用に向けた最近のトレンドを表現している。
訳抜け防止モード: LXMERTは、事前訓練されたモデル(Li et al, 2019 ; Chen et al, 2020b ; Li et al, 2020 )のようなBERTの利用に向けた最近のトレンドを表している。 さまざまなダウンストリームビジョンと言語タスク(VQA - v2 など)で最高のパフォーマンスを持つ。
0.74
Note that MUTANT(Gokhale et al , 2020) uses the extra object-name label to ground the textual concepts in the image. MUTANT(Gokhale et al , 2020)は、画像のテキスト概念を基盤として、余分なオブジェクト名ラベルを使用する。 0.77
For fair comparison, we do not compare with MUTANT. 公平な比較として、MUTANTとの比較はしない。 0.74
Implementation Details 4.2 In this paper, we mainly choose SSL as our CAS and set N=12 and N=20 for training. 実施内容 4.2 この論文では、SSLを主にCASとして選択し、トレーニング用にN=12とN=20を設定します。 0.50
To extract image features, we follow previous work and use the pre-trained Faster R-CNN to encode each image as a set of fixed 36 objects with 2048-dimensional feature vectors. 画像の特徴を抽出するために,事前訓練された高速r-cnnを用いて,各画像を2048次元特徴ベクトルを持つ36個の固定オブジェクトの集合として符号化する。 0.65
We use the tokenizer of LXMERT to segment each dense caption into words. 我々はLXMERTのトークン化器を用いて,各字幕を単語に分割する。 0.56
All the questions are trimmed to the same length of 15 or 18, respectively for R or C question-answer combination strategy. すべての質問は、rとcの質問と回答の組み合わせ戦略でそれぞれ同じ長さの15または18にトリミングされる。 0.74
In the Answer Re-ranking Module, we respectively incorporate two languagepriors methods, SSL and LMH, into our proposed framework SAR, which is dubbed as SAR+SSL and SAR+LMH. In the Answer Re- rank Module, we includes two languagepriors method, SSL and LMH, into our framework SAR, which is called SAR+SSL and SAR+LMH。 0.81
Our models are trained on two TITAN RTX 24GB GPUs. 我々のモデルは2つのTITAN RTX 24GB GPUで訓練されている。 0.62
We train SAR+SSL for 20 epochs with batch size of 32, SAR and SAR+LMH for 10 epochs with batch size of 64. バッチサイズ32, SAR, SAR+LMHの20エポックに対して, バッチサイズ64の10エポックに対してSAR+SSLをトレーニングする。 0.67
For SAR+SSL, we follow the same setting as the original paper(Zhu et al , 2020), except that we don’t need to pre-train the model with the VQA loss before fine-tuning it with the self-supervised loss. SAR+SSLについては、オリジナルの論文(Zhu et al , 2020)と同じ設定に従っていますが、自己監督的な損失で微調整する前に、VQA損失でモデルを事前トレーニングする必要はありません。 0.70
The Adam optimizer is adopted with the learning rate 1e–5. adamオプティマイザは学習率1e〜5で採用される。 0.54
For Question Type Discriminator, we use 300dimensional Glove(Pennington et al , 2014) vectors to initialize word embeddings and feed them into a unidirectional GRU with 128 hidden units. 問合せ型判別器では,300次元グローブ(ペニントン等,2014)ベクトルを用いて単語の埋め込みを初期化し,それを128個の隠蔽単位を持つ一方向GRUに供給する。 0.71
When testing on the VAQ-CP v2, N(cid:48) ranges from 1-2 for yes/no questions and 5-15 for non-yes/no questions. vaq-cp v2 でテストする場合、n(cid:48) は yes/no の 1-2 と非yes/no の 5-15 である。
訳抜け防止モード: VAQ-CP v2, N(cid:48 )上での試験 質問は1から2、質問は5から15まで。
0.74
As for VQA v2, N(cid:48) ranges from 1-2 for yes/no VQA v2 について、N(cid:48) は yes/no に対して 1-2 の範囲である。 0.55
英語(論文から抽出)日本語訳スコア
Model UpDN(Anderson et al , 2018) Areg(Ramakrishnan et al , 2018) RUBI(Cadene et al , 2019) LMH(Clark et al , 2019) RankVQA(Qiao et al , 2020) LXMERT(Tan and Bansal, 2019) SSL(Zhu et al , 2020) CSS(Chen et al , 2020a) CL(Liang et al , 2020) Top12-SAR(R→C) Top20-SAR(R→C) Top12-SAR+SSL(R→C) (Ours) Top20-SAR+SSL(R→C) (Ours) (Ours) Top12-SAR+LMH(R) (Ours) Top20-SAR+LMH(R) モデル updn(anderson et al , 2018) areg(ramakrishnan et al , 2018) rubi(cadene et al , 2019) lmh(clark et al , 2019) rankvqa(qiao et al , 2020) lxmert(tan and bansal, 2019) ssl(zhu et al , 2020) css(chen et al , 2020a) cl(liang et al , 2020) top12-sar(r→c) top12-sar+ssl(r→c) (ours) top20-sar+ssl(r→c) (ours) top12-sar+lmh(r→c) (ours) top12-sar+lmh(r→c) (ours) top12-sar+lmh(r→c) (ours) top12-sar+lmh(r) (ours) top20+sar(r)
訳抜け防止モード: モデル UpDN (Anderson et al, 2018 ) Areg (Ramakrishnan et al, 2018 ) RUBI (Cadene et al, 2018) LMH(Clark et al, 2019) RankVQA(Qiao et al, 2019) 2020年) LXMERT(Tan and Bansal, 2019 )SSL(Zhu et al, 2020 ) CSS(Chen et al, 2020a ) CL(Liang et al。 2020 ) Top12-SAR(R→C ) Top20-SAR+SSL(R→C ) ( Ours ) Top20-SAR+SSL(R→C ) ( Ours ) ( Ours ) Top12-SAR+LMH(R ) ( Ours ) Top20-SAR+LMH(R ) ( Ours ) Top20-SAR+LMH(R )
0.81
(Ours) (Ours) VQA-CP v2 test(%)↑ (うち)(うち) VQA-CP v2 test(%) 0.71
ALL Yes/No Num Other All 39.74 41.17 47.11 52.45 43.05 46.23 57.59 58.95 59.18 64.55 65.44 64.29 65.32 65.93 66.73 ALL Yes/No Num Other All 39.74 41.17 47.11 52.45 43.05 46.23 57.59 58.95 59.18 64.55 65.44 64.29 65.32 65.93 66.73 0.47
11.93 15.48 20.28 44.46 13.91 18.91 29.87 49.42 49.89 50.05 54.52 51.98 54.32 62.30 62.34 11.93 15.48 20.28 44.46 13.91 18.91 29.87 49.42 49.89 50.05 54.52 51.98 54.32 62.30 62.34 0.41
42.27 65.49 68.65 69.81 42.53 42.84 86.53 84.37 86.99 83.03 83.13 82.86 83.41 85.38 86.00 42.27 65.49 68.65 69.81 42.53 42.84 86.53 84.37 86.99 83.03 83.13 82.86 83.41 85.38 86.00 0.41
46.05 35.48 43.18 45.54 51.32 55.51 50.03 48.21 47.16 58.8 59.16 57.94 58.85 56.73 57.84 46.05 35.48 43.18 45.54 51.32 55.51 50.03 48.21 47.16 58.8 59.16 57.94 58.85 56.73 57.84 0.41
63.48 62.75 61.16 61.64 65.42 74.16 63.73 59.9170.41 70.63 69.84 70.03 69.13 69.22 63.48 62.75 61.16 61.64 65.42 74.16 63.73 59.9170.41 70.63 69.84 70.03 69.13 69.22 0.39
VQA-v2 val(%)↑ Yes/No Num Other 55.66 81.18 55.16 79.8477.85 55.04 45.35 82.51 65.14 89.3155.11 73.2561.38 87.87 61.64 87.91 60.70 87.22 87.47 60.85 60.03 87.61 87.46 60.12 VQA-v2 val(%)↑ Yes/No Num Other 55.66 81.18 55.16 79.8477.85 55.04 45.35 82.51 65.14 89.3155.11 73.2561.38 87.87 61.64 87.91 60.70 87.22 87.47 60.85 60.03 87.61 87.46 60.12 0.43
42.14 42.3540.03 57.75 56.8539.7754.34 54.93 54.41 54.59 50.43 51.20 42.14 42.3540.03 57.75 56.8539.7754.34 54.93 54.41 54.59 50.43 51.20 0.35
GAP (%)↓ 23.74 21.58 14.05 9.19 22.37 27.93 6.14 0.965.86 5.19 5.55 4.71 3.20 2.49 GAP (%)↓ 23.74 21.58 14.05 9.19 22.37 27.93 6.14 0.965.86 5.19 5.55 4.71 3.20 2.49 0.48
Table 1: Results on VQA-CP v2 test and VQA-v2 validation set. 表1: VQA-CP v2テストとVQA-v2検証セットの結果。 0.75
Overall best scores are bold, our best are underlined. 全体的なベストスコアは大胆で、最善は下線です。 0.66
The gap represents the accuracy difference between VQA v2 and VQA-CP v2. このギャップは、VQA v2とVQA-CP v2の精度差を表す。 0.69
questions and 2-5 for non-yes/no questions. 質問はyes/noでない質問は2-5です。 0.48
4.3 Results and Analysis 4.3.1 Main Results Performance on two benchmarks VQA-CP-v2 and VQA-v2 is shown in Table 1. 4.3 結果と分析 4.3.1 VQA-CP-v2 と VQA-v2 の2つのベンチマークの主な結果が表1に示されている。 0.56
We report the best results of SAR, SAR+SSL and SAR+LMH among 3 question-answer combination strategies respectively. SAR, SAR+SSL, SAR+LMHの3つの質問と回答の組み合わせ戦略について検討した。 0.60
“TopN-” represents that N candidate answers (selected by CAS) feed into the Answer Reranking Module for training. TopN-”は、N候補の回答(CASによって選択される)がトレーニングのためにAnswer Re rank Moduleにフィードされることを示す。 0.62
Our approach is evaluated with two settings of N (12 and 20). アプローチはN(12,20)の2つの設定で評価される。 0.75
From the results on VQA-CP v2 shown in Table 1, we can observe that: (1) Top20-SAR+LMH establishes a new state-of-the-art accuracy of 66.73% on VQA-CP v2, beating the previous bestperforming method CL by 7.55%. 表1に示すVQA-CP v2の結果から,(1)Top20-SAR+LMHは,VQA-CP v2上で66.73%の新たな最先端精度を確立し,CLを7.55%上回った。 0.80
Even without combining language-priors methods in Answer Re-ranking module, our model Top20-SAR outperforms CL by 6.26%. 応答再ランキングモジュールにおける言語優先メソッドを組み合わせることなくも,top20-sarはclを6.26%上回っている。 0.51
These show the outstanding effectiveness of our proposed SAR framework. これらの結果は,提案したSARフレームワークの有効性を示す。 0.63
(2) SAR+SSL and SAR+LMH achieve much better performance than SSL and LMH, which demonstrates that SAR is compatible with current language-priors methods and could realize their full potential. 2) SAR+SSL と SAR+LMH は SSL と LMH よりもはるかに優れた性能を実現している。
訳抜け防止モード: (2 ) SAR+SSL と SAR+LMH は SSL と LMH よりもはるかに優れた性能を達成する。 SARが現在の言語と互換性があることを実証する。
0.78
(3) Compared with another reranking-based model RankVQA, our method elevates the performance by a large margin of 23.68%. (3)別のランク付けモデルである RankVQA と比較して,提案手法は23.68%の差で性能を向上する。 0.71
This shows the superiority of our proposed progressive select-and-rerank framework over RankVQA which only uses the answer reranking as an auxiliary task. このことは, 補助課題として再ランク付けされた回答のみを使用するRandVQAよりも, プログレッシブな選択・参照フレームワークの方が優れていることを示している。 0.42
(4) Previous models did not generalize well on all question types. (4) 先行モデルは全ての質問タイプでうまく一般化しなかった。 0.75
CL is the previ- CL は previ- 0.82
ous best on the “Yes/No”, “Num” questions and LXMERT on the “Other” questions. Yes/No” や “Num” の質問,その他” の質問では LXMERT がベストです。 0.75
In comparison, our model not only rivals the previous best model on the “Yes/No” questions but also improves the best performance on the “Num” and “Other” questions by 12.45% and 3.65%. 比較すると、我々のモデルは、"Yes/No" の質問で以前の最高のモデルと競合するだけでなく、"Num" と "その他" の質問で最高のパフォーマンスを 12.45% と 3.65% 向上させる。 0.69
The remarkable performance on all question types demonstrates that our model makes a significant progress toward a truly comprehensive VQA model. 全ての質問タイプにおける顕著なパフォーマンスは、我々のモデルが真に包括的なVQAモデルに向けて大きな進歩を遂げていることを示している。 0.58
We also evaluate our method on the VQA v2 which is deemed to have strong language biases. また,言語バイアスの強いVQA v2についても検討した。 0.51
As shown in Table 1, our method achieves the best accuracy of 70.63% amongst baselines specially designed for overcoming language priors, and is the closest to the SOTA established by LXMERT which is trained explicitly for the biased data setting. 表1に示すように,本手法は,言語先行を克服するために特別に設計されたベースラインのうち,70.63%の精度を達成し,バイアスデータ設定のために明示的に訓練されたLXMERTが確立したSOTAに最も近い。 0.72
For completeness, the performance gap between two datasets is also compared in Table 1 with the protocol from Chen et al (2020a). 完全性については、2つのデータセット間のパフォーマンスギャップをテーブル1でChen et al (2020a)のプロトコルと比較する。 0.73
Compared with most previous models which suffer severe performance drops between VQA v2 and VQA-CP v2 (e g , 27.93% in LXMERT), the Top20-SAR+LMH significantly decreases the performance drop to 2.49%, which demonstrates the effectiveness of our framework to further overcome the language biases. VQA v2 と VQA-CP v2 (例えば LXMERT では 27.93% ) の間に深刻な性能低下を被る従来のモデルと比較して、Top20-SAR+LMH はパフォーマンス低下を2.49% に減少させ、我々のフレームワークが言語バイアスを克服する効果を示した。 0.71
Though CSS achieves a better performance gap, it sacrifices the performance on the VQA v2. cssはパフォーマンスのギャップが大きくなるが、vqa v2のパフォーマンスは犠牲になる。 0.73
Meanwhile, as N rises from 12 to 20, our models achieve better accuracy on both datasets along with a smaller performance gap. 一方、Nが12から20に上昇するにつれて、我々のモデルは、パフォーマンスのギャップを小さくして、両方のデータセットでより良い精度を達成する。 0.59
This demonstrates that, unlike previous methods, our method can alleviate language priors while maintaining an excellent capability of answering questions. これは,従来の手法とは異なり,質問に優れた回答能力を維持しつつ,事前の言語処理を緩和できることを示す。 0.68
Nonetheless, we それでも私たちは 0.59
英語(論文から抽出)日本語訳スコア
Top N Model Top12 トップNモデル トップ12 0.74
Top20 R 59.51 SAR SAR+SSL 62.12 SAR+LMH 65.93 SAR 60.43 SAR+SSL 62.29 SAR+LMH 66.73 トップ20 R 59.51 SAR+SSL 62.12 SAR+LMH 65.93 SAR 60.43 SAR+SSL 62.29 SAR+LMH 66.73 0.60
C 60.24 62.87 65.23 61.86 63.94 65.19 C 60.24 62.87 65.23 61.86 63.94 65.19 0.47
R→C 64.55 64.29 65.14 65.44 65.32 66.71 R→C 64.55 64.29 65.14 65.44 65.32 66.71 0.43
Figure 3: Results from model SAR+SSL(R→C) in VQA-CP v2 with different N during training. 図3:トレーニング中に異なるNを持つVQA-CP v2のモデルSAR+SSL(R→C)の結果。 0.68
Model/CAS UpDn LMH SSL w/o SAR∗ 41.04 57.66 64.55 61.71 SAR 63.52 SAR+SSL 64.29 65.14 SAR+LMH 64.98 Model/CAS UpDn LMH SSL w/o SAR∗ 41.04 57.66 64.55 61.71 SAR 63.52 SAR+SSL 64.29 65.14 SAR+LMH 64.98 0.49
53.03 61.65 61.78 62.72 53.03 61.65 61.78 62.72 0.45
Table 2: Results based on different CAS in VQA-CP v2. 表2: VQA-CP v2の異なるCASに基づく結果。 0.80
We set N=12. ∗ indicates the results come from our reimplementation using official released codes. N=12とする。 ∗は、公式リリースコードを使った再実装の結果を示しています。 0.57
believe that, how to improve the model’s generality and further transform the trade-off between eliminating language priors and answering questions into win–win outcomes, is a promising research direction in the future. モデルの汎用性を改善し、言語の優先順位を取り除き、質問に答えてwin-winの結果にする方法は、将来有望な研究の方向性であると信じています。
訳抜け防止モード: 信じろ どうやったら モデルの一般性を改善する 言語の先行きをなくすための貿易をさらに変えます そして、疑問に答える – 成果を得る – は、将来有望な研究方向である。
0.68
4.3.2 The Effect of N From Figure 3, we can observe that the overall performance is getting better as N increases. 4.3.2 図3からのnの影響 nが増加するにつれて全体的なパフォーマンスが向上していることがわかります。 0.67
The performance improvement on the “Num” and “Other” questions is especially obvious, and there is a very slight drop on the “Yes/No” questions. 数値” と “その他の” の質問のパフォーマンス改善は特に明確であり,“yes/no” の質問はわずかに低下している。 0.74
We believe that SAR can further get better performance by properly increasing N. Due to the resource limitation, the largest N we use is 20 in this paper. 我々は,資源制限のため,SARがNを適切に増やすことにより,より優れた性能が得られると考えている。 0.63
4.3.3 The Effect of Different CAS To find out the potential performance limitation of CAS models, we show the accuracy of 3 CAS models on the VQA-CP v2 test set. 4.3.3 異なるCASの効果 CASモデルの潜在的な性能限界を明らかにするため、VQA-CP v2テストセット上での3つのCASモデルの精度を示す。 0.81
As shown in Figure 1 (a), the Top3 accuracy (acc) of 3 models is about 70% and Top6 acc is 80%, which guarantees that sufficient correct answers are recalled by CAS. 図1(a)に示すように、3モデルのトップ3の精度(acc)は約70%、トップ6のaccは80%であり、CASが十分な正しい回答をリコールすることを保証している。 0.71
And thus, the performance limitation of CAS is negligible. したがって、CASの性能制限は無視できる。 0.58
We also conduct experiments to investigate the effect of different CAS on SAR. また,異なるCASがSARに与える影響を調べる実験を行った。 0.80
From the results shown in Table 2, we can observe that: (1) Choosing a better VQA model as CAS does not guarantee a better performance, e g performance based on 表2に示す結果から,(1)より優れたVQAモデルをCASとして選択することは,例えばパフォーマンスに基づいたパフォーマンスを保証するものではない。 0.77
Table 3: Results on the VQA-CP v2 test set based on different question-answer combination strategies: R, C and R→C. 表3: 異なる問合せの組み合わせ戦略(R, C, R→C)に基づくVQA-CP v2テストセットの結果。 0.82
The major difference between R and C is whether keeping question prefix which includes 65 categories. RとCの主な違いは65のカテゴリを含む質問プレフィックスを保持するかどうかである。 0.74
UpDn outperforms that based on LMH, but LMH is a better VQA model in overcoming language priors compared with UpDn. UpDn は LMH に基づく性能よりも優れていますが、 LMH は UpDn と比較すると、言語先行を克服する上で優れた VQA モデルです。 0.68
This is because a good Candidate Answer Selector has two requirements: (a) It should be able to recall more correct answers. これは、よい候補の回答セレクタには2つの要件があるためである: (a) より正確な回答を思い出せるべきである。 0.74
(b) Under the scenario of language biases, wrong answers recalled by CAS at training time should have superficial correlations with the question as strong as possible. b) 言語バイアスのシナリオでは, トレーニング時にCASがリコールした誤った回答は, できるだけ強く, 表面的相関を持つべきである。 0.81
However, the ensemble methods, such as LMH, are trained to pay more attention to the samples which are not correctly answered by the question-only model. しかし、LMHのようなアンサンブル法は、疑問のみのモデルで正しく答えられていないサンプルにもっと注意を払うように訓練されている。 0.59
This seriously reduces the recall rate of those language-priors wrong answers, which leads to the training data for VE is too simple and thus hurts the model’s capability of reducing language priors. これにより、これらの言語優先の誤った回答のリコール率が大幅に削減されるため、VEのトレーニングデータは単純すぎるため、言語優先の削減というモデルの能力が損なわれる。 0.76
(2) If CAS is the general VQA model UpDn rather than LMH and SSL, the improvement brought from the combination with language-priors method in Answer Re-ranking module is more obvious. 2) CAS が LMH や SSL よりも一般的な VQA モデル UpDn である場合,Answer Re-level モジュールにおける言語-プライアメソッドの組み合わせによる改善はより明確である。 0.88
(3) Even we choose the UpDn, a backbone model of most current works, as our CAS and do not involve any language-priors methods, SAR still achieves a much better accuracy than the previous SOTA model CL by 2.53%, which shows that our basic framework already possesses outstanding capability of reducing language priors. 3) 現在のほとんどの作業のバックボーンモデルであるupdnをcasとして選択し、言語優先のメソッドは一切含んでいませんが、sarは以前のsomaモデルclよりも2.53%高い精度を実現しています。
訳抜け防止モード: (3) 現在の作品のバックボーンモデルであるUpDnも選択します。 CASとして、いかなる言語も含まない。 SARは以前のSOTAモデルCLよりも2.53%精度が高い。 これは、私たちの基本的なフレームワークが、すでに言語事前の削減に優れた能力を持っていることを示している。
0.69
4.3.4 The Effect of Question-Answer 4.3.4 質問応答の効果 0.63
Combination Strategies From the results shown in Table 3, we can observe that: (1) From overall results, R→C achieves or rivals the best performance on three models. 組み合わせ戦略 表3に示す結果から、(1)総合結果から、R→Cは3つのモデルで最高のパフォーマンスを達成または競合する。 0.75
On average, R→C outperforms C by 2.02% which demonstrates avoiding the co-occurrence of question category and answer during training time could effectively alleviate language priors; R→C outperforms R by 2.41% which indicates that the informa- 平均して、R→CはCを2.02%上回り、学習時間における質問カテゴリと回答の共起を避けることは言語先行を効果的に緩和する。 0.61
英語(論文から抽出)日本語訳スコア
All Model 46.23 42.84 LXM 53.09 55.07 LXM+SSL 55.58 70.91 CAS+LXM(R) 59.41 76.60 CAS+LXM+SSL(R) CAS+LXM+QTD(R) 59.51 83.20 CAS+LXM+SSL+QTD(R) 62.12 85.14 All Model 46.23 42.84 LXM 53.09 55.07 LXM+SSL 55.58 70.91 CAS+LXM(R) 59.41 76.60 CAS+LXM+SSL(R) CAS+LXM+QTD(R) 59.51 83.20 CAS+LXM+SSL+QTD(R) 62.12 85.14 0.52
Yes/No Num Other 18.91 55.51 29.60 58.50 29.14 54.81 40.81 55.51 29.17 55.42 41.63 55.68 yes/no num other 18.91 55.51 29.60 58.50 29.14 54.81 40.81 55.51 29.17 55.42 41.63 55.68 0.43
Table 4: Ablation study to investigate the effect of each component of Top12-SAR+SSL: Candidate Answer Selector (CAS), LXMERT (LXM), Question Type Discriminator (QTD) and SSL. 表4:Top12-SAR+SSL: Candidate Answer Selector (CAS), LXMERT (LXM), Question Type Discriminator (QTD) およびSSLの各コンポーネントの効果について検討した。 0.82
tion of question category is useful in inference. 質問カテゴリーの割当は推論に有用である。 0.67
(2) On the SAR and SAR+SSL, C consistently outperforms R, but on the SAR+LMH, we see opposite results. 2) SARとSAR+SSLでは、Cは一貫してRより優れていますが、SAR+LMHでは反対の結果が得られます。
訳抜け防止モード: (2 ) SAR と SAR+SSL では、C は R, しかし、SAR+LMHでは、反対の結果が見られます。
0.68
This is probably because our method and the balancing-data method SSL could learn the positive bias resulted from the superficial correlations between question category and answer, which is useful for generalization, but the ensemble-based method LMH will attenuate positive bias during de-biasing process. これは,我々の手法とバランスデータ手法であるSSLが,質問カテゴリと回答の表層的相関から正のバイアスを学習し,一般化に有用であると考えられるが,アンサンブルに基づく手法であるLMHは,デバイアス処理中に正のバイアスを減衰させる。 0.68
(3) Even without language priors method, SAR with R→C rivals or outperforms the SAR+SSL and SAR+LMH with R or C, which shows that R→C strategy could help the model to alleviate language priors. (3) 言語先行メソッドがなくても,R→C と SAR+SSL と SAR+LMH を R と C で比較した場合,R→C の戦略が言語先行を緩和する上で有効であることを示す。 0.73
As a result, compared with R or C, our framework with R→C only gains a slight performance improvement after using the same language-priors methods. その結果、R や C と比較して、R→C のフレームワークは、同じ言語-プライヤ法を用いて、若干の性能改善しか得られなかった。 0.62
4.3.5 Ablation Study “CAS+” represents we use the select-and-rerank From Table 4, we can find framework. 4.3.5 Ablation Study “CAS+” は表 4 から選択して参照するフレームワークである。 0.80
that: (1) LXM+SSL represents directly applying SSL to LXMERT. 1) LXM+SSL は LXMERT に直接SSLを適用します。 0.88
Its poor performance shows that the major contribution of our framework does not come from the combination of the language-priors method SSL and pre-trained model LXMERT. パフォーマンスの低さから、我々のフレームワークの主な貢献は、言語-プライヤメソッドSSLと事前訓練されたモデルLXMERTの組み合わせによるものではないことが分かる。 0.63
(2) Compared with LXM and LXM+SSL, CAS+LXM and CAS+LXM+SSL respectively gain prominent performance boost of 9.35% and 6.32%, which demonstrates the importance and effectiveness of our proposed selectand-rerank procedure. 2) LXM と LXM+SSL と比較すると, CAS+LXM と CAS+LXM+SSL はそれぞれ 9.35% と 6.32% の顕著な性能向上を示した。 0.76
(3) CAS+LXM+QTD(R) and CAS+LXM+SSL+QTD(R) respectively outperform CAS+LXM(R) and CAS+LXM+SSL(R) by 3.93% and 2.71%, which shows the contribution of QTD module. (3) CAS+LXM+SSL+QTD(R) と CAS+LXM+SSL+QTD(R) はそれぞれ CAS+LXM(R) と CAS+LXM+SSL(R) を3.93%、および 2.71% で上回り、QTDモジュールの寄与を示す。 0.67
This further demonstrates that choosing appropriate N(cid:48) for different question types is a useful step for model performance. このことは、異なる質問型に対して適切なN(cid:48)を選択することが、モデルパフォーマンスの有用なステップであることを示している。
訳抜け防止モード: これはさらに 異なる質問型に対する適切な n(cid:48 ) の選択 モデルのパフォーマンスにとって有用なステップです。
0.77
(4) CAS+LXM+SSL+QTD improves the performance of CAS+LXM+QTD by 2.61%, which shows that (4) CAS+LXM+SSL+QTDはCAS+LXM+QTDの性能を2.61%向上させる。 0.64
Figure 4: Results from SAR(R), SAR+SSL(R), SAR(R→C) and SAR+LMH(R) with different N(cid:48) during test. 図4:テスト中に異なるN(cid:48)を持つSAR(R)、SAR+SSL(R)、SAR(R→C)、SAR+LMH(R)の結果。 0.82
To better investigate the impact of N(cid:48) on each question type, we report the results without Question Type Discriminator. N(cid:48)が各質問タイプに与える影響をよりよく調査するため,質問タイプ判別器を使わずに結果を報告する。 0.65
Figure 5: Qualitative comparison between our Top20SAR(R→C) and the baseline SSL. 図5: トップ20SAR(R→C)とベースラインSSLの質的な比較。 0.82
The green/red bounding boxes indicate the most important regions resulting from ours/SSL. 緑/赤のバウンディングボックスは、wes/sslから生じる最も重要な領域を示しています。 0.51
G-T is ground-truth. G-Tは地道である。 0.50
current language-priors methods fit our framework well and could further improve performance. 現在の言語優先のメソッドは、フレームワークに適しており、パフォーマンスをさらに改善できます。 0.58
4.3.6 The Effect of N(cid:48) From Figure 4, we can find that: (1) The best N(cid:48) for yes/no questions is smaller than that for nonyes/no questions due to the nature of yes/no question. 4.3.6 図4から n(cid:48) の効果は次のようになる: (1) yes/no 質問に対する最高の n(cid:48) は yes/no 質問の性質から、非yes/no 質問の場合よりも小さい。 0.74
(2) As N(cid:48) increases, the accuracy of “Num” and “Other” questions rises first and then decreases. 2) N(cid:48) が増加するにつれて, 「Num」 と「他」 の質問の精度が上昇し, その後減少する。 0.77
There is a trade-off behind this phenomenon: when N(cid:48) is too small, the correct answer may not be recalled by CAS; when N(cid:48) is too large, the distraction from wrong answers makes it more difficult for model to choose the correct answer. この現象にはトレードオフがある: N(cid:48) が小さすぎると、正しい解がCASによってリコールされないかもしれない; N(cid:48) が大きすぎると、間違った解の混乱により、モデルが正しい解を選択するのが難しくなる。 0.75
4.3.7 Qualitative Examples We qualitatively evaluate the effectiveness of our framework. 4.3.7 質的な例 フレームワークの有効性を質的に評価する。 0.59
As shown in Figure 5, compared with SSL, SAR performs better not only in question answering but also in visual grounding. 図5に示すように、SSLと比較すると、SARは質問応答だけでなく、視覚的な接地でもパフォーマンスが向上する。 0.70
With the 0.37
英語(論文から抽出)日本語訳スコア
help of answer semantics, SAR can focus on the region relevant to the candidate answer and further use the region to verify its correctness. 回答セマンティクスの助けにより、SARは候補回答に関連する領域に集中し、その正確性を検証するためにその領域をさらに活用することができる。 0.66
5 Conclusion In this paper, we propose a select-and-rerank (SAR) progressive framework based on Visual Entailment. 5 結論 本稿では,視覚インテリメントに基づくsar(select-and-reran k)プログレッシブフレームワークを提案する。 0.72
Specifically, we first select candidate answers to shrink the prediction space, then we rerank candidate answers by a visual entailment task which verifies whether the image semantically entails the synthetic statement of the question and each candidate answer. 具体的には、まず候補回答を選択して予測空間を縮小し、その画像が問題の合成文と各候補回答を意味的に含むかどうかを検証する視覚的細分化タスクによって候補回答を再現する。 0.73
Our framework can make full use of the interactive information of image, question and candidate answers. 私たちのフレームワークは、画像、質問、候補者の回答のインタラクティブな情報をフルに活用できます。 0.66
In addition, it is a generic framework, which can be easily combined with the existing VQA models and further boost their abilities. さらに、既存のVQAモデルと簡単に組み合わせて、その能力をさらに強化できる汎用フレームワークである。
訳抜け防止モード: 加えて、汎用的なフレームワークである。 既存のVQAモデルと簡単に組み合わせて、その能力をさらに強化することができます。
0.72
We demonstrate advantages of our framework on the VQA-CP v2 dataset with extensive experiments and analyses. VQA-CP v2データセット上でのフレームワークの利点を実証し,広範な実験と分析を行った。 0.64
Our method establishes a new state-of-the-art accuracy of 66.73% with an improvement of 7.55% on the previous best. 提案手法では,66.73%の精度を新たに確立し,前年より7.55%向上した。 0.74
Acknowledgments This work was supported by National Natural Science Foundation of China (No. 承認 この研究は中国国立自然科学財団が支援した(No。 0.61
61976207, No. 6 1976207、なし。 0.75
61906187) References Aishwarya Agrawal, Dhruv Batra, and Devi Parikh. 61906187) Aishwarya Agrawal, Dhruv Batra, Devi Parikhなどを参照。 0.80
2016. Analyzing the behavior of visual question answering models. 2016. 視覚的質問応答モデルの行動分析 0.72
In EMNLP. Aishwarya Agrawal, Dhruv Batra, Devi Parikh, and Aniruddha Kembhavi. EMNLP。 Aishwarya Agrawal、Dhruv Batra、Devi Parikh、Aniruddha Kembhavi。 0.60
2018. Don’t just assume; look and answer: Overcoming priors for visual question answering. 2018. look and answer: 視覚的な質問に答える優先事項を克服する。 0.73
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4971–4980. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 4971–4980。 0.89
Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang 0.74
2018. Bottom-up and top-down attention for image captioning and visual question answering. 2018. 画像キャプションと視覚的質問応答におけるボトムアップとトップダウンの注意 0.73
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6077–6086. Proceedings of the IEEE conference on computer vision and pattern recognition, page 6077–6086。 0.83
Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, Devi Parikh 0.70
2015. Vqa: Visual question answering. 2015. Vqa: 視覚的な質問応答。 0.81
In Proceedings of the IEEE international conference on computer vision, pages 2425–2433. Proceedings of the IEEE International Conference on computer vision, page 2425–2433。 0.83
Yonatan Belinkov, Adam Poliak, Stuart M Shieber, Benjamin Van Durme, and Alexander M Rush. Yonatan Belinkov、Adam Poliak、Stuart M Shieber、Benjamin Van Durme、Alexander M Rush。 0.67
2019. Don’t take the premise for granted: Mitigating artifacts in natural language inference. 2019. 当然の前提にしてはいけない。 自然言語推論におけるアーティファクトの緩和。 0.75
In ACL (1). acl (1) において。 0.70
Remi Cadene, Corentin Dancette, Matthieu Cord, Devi Parikh, et al 2019. Remi Cadene, Corentin Dancette, Matthieu Cord, Devi Parikh, et al 2019 0.77
Rubi: Reducing unimodal biases for visual question answering. Rubi: 視覚的質問応答における一助バイアスの低減。 0.66
Advances in Neural Information Processing Systems, 32:841–852. ニューラル情報処理システムの進歩, 32:841–852。 0.68
Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, and Yueting Zhuang. Long Chen, Xin Yan, Jun Xiao, Hanwang Zhang, Shiliang Pu, Yueting Zhuang 0.67
2020a. Counterfactual samples synthesizing for robust visual question answering. 2020a 頑健な視覚的質問応答のための対実的サンプル合成 0.70
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10800–10809. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 10800–10809。 0.89
Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. YEN-Chun Chen、Linjie Li、Licheng Yu、Ahmed El Kholy、Faisal Ahmed、Zhe Gan、Yu Cheng、Jingjing Liu。
訳抜け防止モード: YEN-Chen Chen,Linjie Li,Licheng Yu,Ahmed El Kholy Faisal Ahmed氏、Zhe Gan氏、Yu Cheng氏、Jingjing Liu氏。
0.78
2020b. Uniter: Universal image-text representation learning. 2020年。 Uniter: ユニバーサルイメージテキスト表現学習。 0.78
In European Conference on Computer Vision, pages 104–120. 欧州コンピュータビジョン会議』104-120頁。 0.66
Springer. Christopher Clark, Mark Yatskar, and Luke Zettlemoyer. Springer Christopher Clark、Mark Yatskar、Luke Zettlemoyer。 0.60
2019. Don’t take the easy way out: Ensemble based methods for avoiding known dataset In Proceedings of the 2019 Conference on biases. 2019. 2019 conference on biasesの議事録で、既知のデータセットを避けるアンサンブルベースの方法が紹介されている。
訳抜け防止モード: 2019. 簡単に外へ出てはいけない 既知のデータセットを避けるためのアンサンブルに基づく手法 バイアスに関する2019年会議の成果
0.78
Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 4060–4073. 第9回自然言語処理国際共同会議(emnlp-ijcnlp)、4060-4073頁。 0.53
Tejas Gokhale, Pratyay Banerjee, Chitta Baral, and Yezhou Yang. Tejas Gokhale, Pratyay Banerjee, Chitta Baral, Yeshu Yang。 0.63
2020. Mutant: A training paradigm for out-of-distribution generalization in visual quesIn Proceedings of the 2020 Contion answering. 2020. mutant: a training paradigm for out-of-distribution generalization in visual quesin proceedings of the 2020 contion answering (英語) 0.81
ference on Empirical Methods in Natural Language Processing (EMNLP), pages 878–892. Empirical Methods in Natural Language Processing (EMNLP) 878-892ページを参照。 0.80
Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, Devi Parikh 0.75
2017. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. 2017. vqa の v を重要視する: 視覚的質問応答における画像理解の役割を高める。 0.83
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6904–6913. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 6904–6913。 0.89
Gabriel Grand and Yonatan Belinkov. ガブリエル・グランドとヨナタン・ベリンコフ 0.45
2019. Adversarial regularization for visual question answering: Strengths, shortcomings, and side effects. 2019. 視覚的質問応答に対する逆正則化:強さ、欠点、副作用 0.74
NAACL HLT 2019, page 1. NAACL HLT 2019, 1頁。 0.79
Allan Jabri, Armand Joulin, Allan Jabri, Armand Joulin 0.72
and Laurens Van Der Maaten. そしてローレン・ヴァン・デル・マタン。 0.46
2016. Revisiting visual question answering baselines. 2016. ベースラインに答える視覚的質問の再考。 0.71
In European conference on computer vision, pages 727–739. 欧州コンピュータビジョン会議 (european conference on computer vision) 727-739頁。 0.64
Springer. Justin Johnson, Andrej Karpathy, and Li Fei-Fei. Springer Justin Johnson、Andrej Karpathy、Li Fei-Fei。 0.68
2016. Densecap: Fully convolutional localization In Proceedings of networks for dense captioning. 2016. Densecap: 完全な畳み込みローカライゼーション 高密度キャプションのためのネットワークの証明。 0.75
the IEEE Conference on Computer Vision and Pattern Recognition. IEEE Conference on Computer Vision and Pattern Recognition に参加。 0.86
Bernhard Kratzwald, Anna Eigenmann, and Stefan Feuerriegel. Bernhard Kratzwald、Anna Eigenmann、Stefan Feuerriegel。 0.69
2019. Rankqa: Neural question answering with answer re-ranking. 2019. Rankqa: 答えを再ランク付けしたニューラルな質問。 0.74
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6076–6085. 計算言語学会第57回年次大会」6076-6085頁。
訳抜け防止モード: 第57回計算言語学会年次大会を終えて 6076-6085頁。
0.47
英語(論文から抽出)日本語訳スコア
Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, Kai-Wei Chang 0.81
2019. Visualbert: A simple and performant baseline for vision and language. 2019. Visualbert: 視覚と言語のためのシンプルでパフォーマンスの高いベースライン。 0.82
arXiv preprint arXiv:1908.03557. arXiv preprint arXiv:1908.03557 0.71
Ning Xie, Farley Lai, Derek Doran, and Asim Kadav. Ning Xie、Farley Lai、Derek Doran、Asim Kadav。 0.62
2019. Visual entailment: A novel task for fine-grained image understanding. 2019. visual entailment: きめ細かな画像理解のための新しいタスク。 0.80
arXiv preprint arXiv:1901.06706. arXiv preprint arXiv:1901.06706 0.71
Peng Zhang, Yash Goyal, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. Peng Zhang, Yash Goyal, Douglas Summers-Stay, Dhruv Batra, Devi Parikh 0.74
2016. Yin and yang: Balancing and answering binary visual questions. 2016. Yin and yang: バイナリ視覚的な質問のバランスと回答。 0.78
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5014–5022. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 5014–5022。 0.89
Xi Zhu, Zhendong Mao, Chunxiao Liu, Peng Zhang, Bin Wang, and Yongdong Zhang. Xi Zhu, Zhendong Mao, Chunxiao Liu, Peng Zhang, Bin Wang, Yongdong Zhang 0.70
2020. Overcoming language priors with self-supervised learning for visual question answering. 2020. 視覚的質問応答のための自己教師型学習による言語先行の克服 0.69
arXiv preprint arXiv:2012.11528. arXiv preprint arXiv:2012.11528 0.72
Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al 2020. Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al 2020 0.79
Oscar: Objectsemantics aligned pre-training for vision-language tasks. oscar: objectsemanticsは視覚言語タスクの事前トレーニングを調整しました。 0.53
In European Conference on Computer Vision, pages 121–137. European Conference on Computer Vision”. 121–137頁。 0.88
Springer. Zujie Liang, Weitao Jiang, Haifeng Hu, and Jiaying Zhu. Springer Zujie Liang, Weitao Jiang, Haifeng Hu, Jiaying Zhu 0.58
2020. Learning to contrast the counterfactual samples for robust visual question answering. 2020. 頑健な視覚的質問応答のための対物的サンプルの対比学習 0.77
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 3285–3292. The Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), page 3285–3292。 0.82
Rabeeh Karimi Mahabadi and James Henderson. ラビー・カリーミ・マハバディとジェームズ・ヘンダーソン。 0.56
2019. Simple but effective techniques to reduce biases. 2019. バイアスを減らすための単純だが効果的なテクニック。 0.71
arXiv preprint arXiv:1909.06321, 2(3):5. arXiv preprint arXiv:1909.06321, 2(3):5 0.84
Jeffrey Pennington, Richard Socher, and Christopher D Manning. ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・d・マニング。 0.57
2014. Glove: Global vectors for word representation. 2014. glove: 単語表現のためのグローバルベクトル。 0.84
In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543. 2014年のProceedings of the 2014 Conference on empirical methods in natural language processing (EMNLP)において、1532–1543頁。
訳抜け防止モード: 自然言語処理における経験的手法に関する2014年会議(EMNLP)のまとめ 1532-1543頁。
0.83
Yanyuan Qiao, Zheng Yu, and Jing Liu. Yanyuan Qiao、Zheng Yu、Jing Liu。 0.66
2020. Rankvqa: Answer re-ranking for visual question answering. 2020. Rankvqa: 視覚的な質問に対する回答に対する回答。 0.77
In 2020 IEEE International Conference on Multimedia and Expo (ICME), pages 1–6. 2020年、IEEE International Conference on Multimedia and Expo (ICME) 1-6頁。 0.76
IEEE. Sainandan Ramakrishnan, Aishwarya Agrawal, and Stefan Lee. IEEE。 Sainandan Ramakrishnan、Aishwarya Agrawal、Stefan Lee。 0.75
2018. Overcoming language priors in visual question answering with adversarial regularization. 2018. 逆正則化による視覚的質問応答における言語先行の克服 0.70
In NeurIPS. NeurIPSに登場。 0.80
Ramprasaath R Selvaraju, Stefan Lee, Yilin Shen, Hongxia Jin, Shalini Ghosh, Larry Heck, Dhruv Batra, and Devi Parikh. Ramprasaath R Selvaraju, Stefan Lee, Yilin Shen, Hongxia Jin, Shalini Ghosh, Larry Heck, Dhruv Batra, Devi Parikh 0.73
2019. Taking a hint: Leveraging explanations to make vision and language In Proceedings of the models more grounded. 2019. ヒントを引用する: ビジョンと言語を作るための説明を活用する モデルの証明はより根底にある。 0.74
IEEE/CVF International Conference on Computer Vision, pages 2591–2600. IEEE/CVF International Conference on Computer Vision, page 2591–2600。 0.82
Hao Tan and Mohit Bansal. Hao TanとMohit Bansal。 0.72
2019. Lxmert: Learning cross-modality encoder representations from transformers. 2019. lxmert: トランスフォーマーからのクロスモダリティエンコーダ表現の学習。 0.78
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 5103–5114. The 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), page 5103–5114。 0.84
Shuohang Wang, Mo Yu, Jing Jiang, Wei Zhang, Xiaoxiao Guo, Shiyu Chang, Zhiguo Wang, Tim Klinger, Gerald Tesauro, and Murray Campbell. Shuohang Wang, Mo Yu, Jing Jiang, Wei Zhang, Xiaoxiao Guo, Shiyu Chang, Zhiguo Wang, Tim Klinger, Gerald Tesauro, Murray Campbell 0.73
2018a. Evidence aggregation for answer re-ranking in openIn International Condomain question answering. 2018年。 OpenIn International Con domain Questioningで再ランクされた回答のエビデンスアグリゲーション。 0.61
ference on Learning Representations. Zhen Wang, Jiachen Liu, Xinyan Xiao, Yajuan Lyu, and Tian Wu. 学習表現を参照。 Zhen Wang, Jiachen Liu, Xinyan Xiao, Yajuan Lyu, Tian Wu 0.62
2018b. Joint training of candidate extraction and answer selection for reading comprehension. 2018年。 読解のための候補抽出と回答選択の合同学習 0.58
In ACL (1). acl (1) において。 0.70
                     ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。