論文の概要、ライセンス

# (参考訳) 視覚言語課題に対する因果注意 [全文訳有]

Causal Attention for Vision-Language Tasks ( http://arxiv.org/abs/2103.03493v1 )

ライセンス: CC0 1.0
Xu Yang, Hanwang Zhang, Guojun Qi, Jianfei Cai(参考訳) 本稿では,既存の注意に基づく視覚言語モデルにおいて,因果注意 (Causal Attention, CATT) という新たな注意機構を提案する。 この効果は有害なバイアスを引き起こし、アテンションモジュールはトレーニングデータの急激な相関に焦点を合わせ、モデルの一般化を損なう。 共同設立者が一般的に観察されていないため、私たちはフロントドアの調整を使って因果的介入を実現します。 具体的には,(1)IS-ATT(In-Sample Attention)と(2)CS-ATT(Cross-Samp le Attention)の組み合わせとして,CATTが実施される。 CATTはQ-K-V規約に従属するため、トランスフォーマーにおけるトップダウンアテンションや自己アテンションなどのアテンションモジュールを置き換えることができる。 CATTは、様々な注目に基づく視覚言語モデルを大幅に改善する。 特に、CATTは、より重いUNITER~\cite{chen2020uniter}に匹敵する少ないデータとより少ない計算能力を使用する軽量LXMERT~\cite{tan2019lxmert}を促進することができるなど、大規模な前訓練に大きな可能性を秘めていることを示しています。 コードは \url{https://github.com/y angxuntu/catt} で公開される。

We present a novel attention mechanism: Causal Attention (CATT), to remove the ever-elusive confounding effect in existing attention-based vision-language models. This effect causes harmful bias that misleads the attention module to focus on the spurious correlations in training data, damaging the model generalization. As the confounder is unobserved in general, we use the front-door adjustment to realize the causal intervention, which does not require any knowledge on the confounder. Specifically, CATT is implemented as a combination of 1) In-Sample Attention (IS-ATT) and 2) Cross-Sample Attention (CS-ATT), where the latter forcibly brings other samples into every IS-ATT, mimicking the causal intervention. CATT abides by the Q-K-V convention and hence can replace any attention module such as top-down attention and self-attention in Transformers. CATT improves various popular attention-based vision-language models by considerable margins. In particular, we show that CATT has great potential in large-scale pre-training, e.g., it can promote the lighter LXMERT~\cite{tan2019lxmert}, which uses fewer data and less computational power, comparable to the heavier UNITER~\cite{chen2020uniter}. Code is published in \url{https://github.com/y angxuntu/catt}.
公開日: Fri, 5 Mar 2021 06:38:25 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Causal Attention for Vision-Language Tasks 視覚言語課題に対する因果注意 0.69
1School of Computer Science and Engineering, Nanyang Technological University, Singapore, 1 school of computer science and engineering, nanyang technology university, singapore (英語) 0.88
Xu Yang1, Hanwang Zhang1, Guojun Qi2, Jianfei Cai3 Xu Yang1,Hanwang Zhang1,Guojun Qi2,Jianfei Cai3 0.87
3Faculty of Information Technology, Monash University, Australia, 3オーストラリア、モナッシュ大学情報技術学部 0.59
2Futurewei Technologies 2Futurewei技術 0.84
s170018@e.ntu.edu.sg , hanwangzhang@ntu.edu .sg, guojunq@gmail.com, Jianfei.Cai@monash.e du s170018@e.ntu.edu.sg , hanwangzhang@ntu.edu .sg, guojunq@gmail.com, Jianfei.Cai@monash.e du 0.57
1 2 0 2 r a M 5 ] V C . 1 2 0 2 r a m 5 ] v c である。 0.80
s c [ 1 v 3 9 4 3 0 . s c [ 1 v 3 9 4 3 0 . 0.85
3 0 1 2 : v i X r a 3 0 1 2 : v i X r a 0.85
Abstract We present a novel attention mechanism: Causal Attention (CATT), to remove the ever-elusive confounding effect in existing attention-based vision-language models. 概要 本稿では,既存の注意に基づく視覚言語モデルにおいて,因果注意 (Causal Attention, CATT) という新たな注意機構を提案する。 0.54
This effect causes harmful bias that misleads the attention module to focus on the spurious correlations in training data, damaging the model generalization. この効果は有害なバイアスを引き起こし、アテンションモジュールはトレーニングデータの急激な相関に焦点を合わせ、モデルの一般化を損なう。
訳抜け防止モード: この効果は有害なバイアスを引き起こす 注意モジュールを誤解させ トレーニングデータの 急激な相関に焦点を合わせ モデルの一般化を損なう
0.88
As the confounder is unobserved in general, we use the front-door adjustment to realize the causal intervention, which does not require any knowledge on the confounder. 共同設立者が一般的に観察されていないため、私たちはフロントドアの調整を使って因果的介入を実現します。 0.61
Specifically, CATT is implemented as a combination of 1) In-Sample Attention (IS-ATT) and 2) Cross-Sample Attention (CS-ATT), where the latter forcibly brings other samples into every IS-ATT, mimicking the causal intervention. 具体的には,(1)IS-ATT(In-Sample Attention)と(2)CS-ATT(Cross-Samp le Attention)の組み合わせとして,CATTが実施される。 0.69
CATT abides by the QK-V convention and hence can replace any attention module such as top-down attention and self-attention in Transformers. CATTはQK-V規約に従属するため、トランスフォーマーにおけるトップダウンアテンションや自己アテンションなどのアテンションモジュールを置き換えることができる。 0.56
CATT improves various popular attention-based vision-language models by considerable margins. CATTは、様々な注目に基づく視覚言語モデルを大幅に改善する。 0.62
In particular, we show that CATT has great potential in large-scale pre-training, e g , it can promote the lighter LXMERT [61], which uses fewer data and less computational power, comparable to the heavier UNITER [14]. 特に、CATTは、例えば、より重いUNITER [14]に匹敵する、より少ないデータとより少ない計算能力を使用する軽量LXMERT [61]を促進することができる大規模な事前トレーニングに大きな可能性を持っていることを示しています。 0.60
Code is published in https://github.com/y angxuntu/catt. コードはhttps://github.com/y angxuntu/cattで公開されている。 0.38
1. Introduction Stemming from the strong cognitive evidences in selective signal processing [64, 54], the attention mechanism has arguably become the most indispensable module in vision and language models [71, 5, 3, 16, 11, 39]. 1. はじめに 選択的信号処理 [64, 54] における強い認知的証拠から見れば、注意メカニズムは間違いなく視覚および言語モデル [71, 5, 3, 16, 11, 39] において最も不可欠なモジュールとなっている。 0.86
Although its idiosyncratic formulation varies from task to task, its nature can be summarized as the following common Q-K-V notation: given a query q, the attention mechanism associates q to each feature value vi by using the normalized attentive weight αi ∝ qT ki, where ki is the key function of the — is(cid:80) value; thus, the resultant selective feature value — attention i αivi. クエリqが与えられたとき、注意機構はqを各特徴値viに関連付け、正規化注意重み(正規化注意重み(英語版)(正規化注意重み(英語版)(remized attentive weight αi ) qt ki)を用いて、kiは---(cid:80) 値のキー関数であり、結果として選択的な特徴値—注意i αivi(英語版)(注意i αivi) となる。
訳抜け防止モード: その慣用的定式化はタスクごとに異なるが、その性質は以下の共通 Q - K - V 表記として要約できる。 注意機構は、正規化減衰重量 αi > qT Ki を用いて、q を各特徴値 vi に関連付ける。 ここで Ki は — (cid:80 ) 値のキー関数です。 結果として得られる選択的特徴値 - attention i αivi である。
0.78
In a modern view, the attention can be understood as a feature transformer that encodes input query 現代の見方では、注意は入力クエリをエンコードする特徴トランスとして理解することができる。 0.66
Figure 1. Top: an example of image captioner with a self-attention and a top-down attention modules. 図1。 Top: セルフアテンションとトップダウンの注意モジュールを備えたイメージキャプションの例。 0.73
Bottom: the corresponding causal graph. bottom: 対応する因果グラフ。 0.65
The reason why the prediction is “riding” but not “driving” is explained in Figure 3. q by using the given values V = {vi} [65]. 予測が"ライド"だが"運転"ではない理由は、与えられた値 v = {vi} [65] を用いて図3.qで説明されます。 0.78
Taking image captioning as an example in Figure 1, if q and V are both encoded from the input X, e g , the RoI features of an image, we call it self-attention; if q is changed to the sentence context, we call it top-down attention. 図1で、イメージキャプションを例に挙げると、qとVの両方が入力X、eg、画像のRoI特徴からエンコードされている場合、自己注意(self-attention)と呼ばれ、qが文コンテキストに変更された場合、トップダウンアテンション(top-down attention)と呼ばれる。 0.64
Intuitively, self-attention is usually viewed as a nonlocal [70] (or graph [7]) convolution network that enriches each local value with global relationship features; top downattention is used to enrich the context with the cross-domain relationship features [3]. 直感的には、自己注意は通常、グローバルな関係特徴によって各局所価値を豊かにする非局所[70](またはグラフ[7])畳み込みネットワークと見なされる。
訳抜け防止モード: 直感的に、自己 - 注意は通常、非ローカル [ 70 ] とみなされます。 またはグラフ [ 7 ] ) グローバルな関係機能で各ローカル値を豊かにする畳み込みネットワーク。 top downattentionは、クロスドメイン関係機能[3]でコンテキストを豊かにするために使用されます。
0.63
Both of them can be combined and stacked into deep networks, serving as powerful multimodal encoder-decoder transformer networks [35, 12]. どちらも結合してディープネットワークに積み重ねることができ、強力なマルチモーダルエンコーダ-デコーダトランスフォーマーネットワーク [35, 12] として機能する。 0.69
As a bridge connecting the input feature X and the output label Y , the quality of attention — how reasonable the attentive weight α is — plays a crucial role for the overall performance. 入力特徴Xと出力ラベルYを接続するブリッジとして、注意の質(注意度αがどれほど妥当か)が全体的な性能に重要な役割を果たす。 0.77
However, due to the fact that the attention weights are unsupervised, e g , there is no wordregion grounding for the top-down attention or relationship dependency annotation for the self-attention, the weights will be inevitably misled by the dataset bias. しかし、注意重みが教師なしであるという事実、例えば、トップダウン注意のための単語領域基底化や自己注意のための関係依存アノテーションがあるため、重み付けはデータセットバイアスによって必然的に誤解される。 0.61
For example, as shown in Figure 1, since there are many images captioned with “person riding horse” in the training data, self-attention learns to infer “riding” by building the dependency between “person” and “horse”. 例えば、図1に示すように、トレーニングデータには“人乗馬”とキャプションされた画像が多数存在するため、自己注意は“人”と“馬”の依存関係を構築することによって“ライディング”を推論する。 0.79
Then, given a test image with “person driving carriage”, this self-attention still そして「人走車」のテスト画像から、この自己意識は今でも残っています。 0.59
1 QKVATTKVQATTamanisam anisridingXZYSelf-To p-DownCausal Graph of Attention 1 qkvattkvqattamanisri dingxzyself-top-down causal graph of attention 0.57
英語(論文から抽出)日本語訳スコア
Figure 2. Before pre-training (e g , LXMERT [61]), attentions are correct (blue). 図2。 事前トレーニング(例えば、LXMERT [61])の前に、注意は正しい(青)。 0.71
After pre-training, attentions are wrong (red). 事前訓練の後、注意は間違っている(赤)。 0.63
This is because the co-occurrences of some concepts appear much more often than others, e g , “Sport+Man” appears 213 times more than “Sport+Screen” in the pre-training data. これは、いくつかの概念の共起が他の概念よりもはるかに頻繁に現れるためです。例えば、「Sport+Man」は、トレーニング前のデータで「Sport+Screen」の213倍に表示されます。
訳抜け防止モード: これは、ある概念が他の概念よりもずっと頻繁に現れるためである。 トレーニングデータでは,“Sport+Man ” は “Sport+Screen ” の 213 倍の頻度で表示される。
0.80
tends to relate “person” with “horse” to infer “riding”, but ignoring the “carriage”. 人」と「馬」を関連付けて「乗り」を推論する傾向がありますが、「輸送」を無視します。 0.58
Unfortunately, such bias cannot be mitigated by simply enlarging the dataset scale, as most of the bias abides by the data nature — Zipf’s law [51] and social conventions [19] — there are indeed more “red apple” than “green apple” or “person standing” than “person dancing”. 残念ながら、データセットのスケールを拡大するだけではそのようなバイアスを緩和することはできません。データの本質 - Zipfの法則[51]と社会慣習[19] - のほとんどは「人踊る」よりも「緑リンゴ」または「人立っている」よりも確かに多くの「赤リンゴ」があります。
訳抜け防止モード: 残念ながら、データセットの規模を拡大すれば、そのようなバイアスを軽減することはできない。 偏見はデータの性質に左右され Zipf の法則 [51 ] と社会慣例 [19 ] は、実は “Green apple ” よりも “ red apple ” の方が多い。 あるいは“ダンスをする人”よりも“立っている人”です。
0.75
Therefore, as shown in Figure 2, large-scale pretraining may lead to even worse attentions. したがって、図2に示すように、大規模な事前訓練は、さらに注意を引く可能性がある。 0.58
is esThe dataset bias sentially caused by the confounder, a common cause that makes X and Y correlated even if X and Y have no direct causation. これは、XとYが直接因果関係を持たない場合でもXとYが相関する共通の原因です。
訳抜け防止モード: データセットのバイアスは、共同創業者によって引き起こされます。 X と Y が直接因果関係を持たない場合でも X と Y は相関する。
0.74
We illustrate this crucial idea in Figure 3. この重要なアイデアを図3に示します。 0.75
Suppose that the confounder C is the common sense1 “person can ride horse”, C → X denotes that a visual scene is generated by such knowledge, e g , the dataset curator observes and captures the common sense; X → M denotes the fact that the objects M = {person, horse} can be detected (e g , Faster R-CNN [52]), whose object inventory is determined by C → M; M → Y denotes the language generation for “person riding horse”. 共同設立者 C が「乗馬できる人」であるとするならば、C → X はそのような知識によって視覚シーンが生成されること、例えばデータセットキュレーターが共通の感覚を観察して捉えていること、X → M は対象 M = {person, horse} が検出できるという事実(例えば、Faster R-CNN [52] )、その対象の在庫は C → M によって決定され、M → Y は「乗馬」の言語生成を表す。 0.84
Note that besides the legitimate causal path from image X via object M to Y , the “backdoor” path X ← C → M → Y also contributes an effect to Y . オブジェクトMを介して画像XからYへの正当な因果パスに加えて、 "バックドア"パスXは、C → M → YもYに効果をもたらすことに注意してください。 0.73
Therefore, if we only train the model based on the correlation P (Y |X) without knowing the confounding effect, no matter how large the amount of training data is, the model can never identify the true causal effect from X to Y [44, 56]. したがって、相関P(Y | X)に基づいてモデルのみを訓練する場合、どんなに大量のトレーニングデータであっても、モデルはXからYへの真の因果効果を特定することはできません[44, 56]。
訳抜け防止モード: したがって、相関P(Y | X )に基づいてモデルのみを訓練する場合、連結効果を知らない。 トレーニングデータの大きさに関係なく、モデルはXからYへの真の因果効果を特定することはできません[44, 56]。
0.78
For example, if the confounder distribution varies from training to testing, e g , the common sense “person can ride horse” is dominantly more often than the common sense “person can drive carriage” in training, but the latter is more often than the former in testing, then P (Y |X) based on “person can ride horse” in training will be no longer applicable in testing [45]. 例えば、共同創業者の分布がトレーニングからテストに異なる場合、例えば、「人は馬に乗ることができる」という常識は、トレーニングで「人は馬に乗ることができる」という常識よりも優勢ですが、後者はテストで前者よりも頻繁に、トレーニングで「馬に乗ることができる人」に基づいたP(Y | X)は、テストでもはや適用されません[45]。 0.79
In this paper, we propose a novel attention mechanism called: Causal Attention (CATT), which can help the mod1It is also well-known as the disentangled causal mechanism [60]. 本稿では,mod1itが不連続因果機構としても知られている「因果的注意」(catt)と呼ばれる新しい注意機構を提案する。
訳抜け防止モード: 本論文では、Causal Attention(CATT)と呼ばれる新しい注意メカニズムを提案する。 mod1を助けることができるもよく - 離角因果機構として知られている[ 60 ]。
0.75
Figure 3. This expands the causal of confounding path the X (cid:76)(cid:57)(cid :57)(cid:57)(cid:57) (cid:75) Y in Figure 1 図3。 これは、図 1 における x (cid:76)(cid:57)(cid :57)(cid:57)(cid:57) (cid:75) y の連結経路の因果を広げる。 0.69
links . els identify the causal effect between X and Y , and thus mitigates the bias caused by confounders. リンク . el は X と Y の間の因果関係を識別し、共同設立者によるバイアスを軽減する。 0.74
It is based on the front-door adjustment principle that does not require the assumption of any observed confounder [43], and thus CATT can be applied in any domain where the attention resides. これは、観測された共同設立者[43]の仮定を必要としない、フロントドア調整の原則に基づいており、注意が集まるあらゆる領域にCATTを適用することができる。 0.61
In this way, CATT is fundamentally different from existing deconfounding methods based on the backdoor adjustment [83, 69], which has to be domain-specific to comply with the observed-confounder assumption. このように、cattは、観察者の仮定に従うためにドメイン固有でなければならないバックドア調整 [83, 69] に基づいて、既存のデコンファウンディングメソッドと根本的に異なる。 0.63
Specifically, we first show that the conventional attention is indeed an improper approximation of the front-door principle, and then we show what is a proper one, which underpins CATT theoretically (Section 3.1). 具体的には、まず、従来の注意がフロントドア原理の不適切な近似であることを示し、次にCATTを理論的に支える適切なものを示す(第3章3)。 0.67
We build CATT on the proposed In-Sample attention (ISATT) and Cross-Sample attention (CS-ATT), which abides by the Q-K-V operations (Section 3.2). 本研究では,Q-K-V(Section 3.2)によるCross-Sample attention (CS-ATT)とCross-Sample attention (ISATT)を提案する。 0.72
In particular, the parameters of the Q-K-V operations can also be shared between both IS-ATT and CS-ATT to further improve the efficiency in some architectures. 特に、Q-K-V演算のパラメータをIS-ATTとCS-ATTの両方で共有することで、アーキテクチャの効率をさらに向上することができる。 0.65
We replace the the conventional attention with CATT in various vision-language models to validate its effectiveness, including the classic Bottom-Up Top-Down LSTM [3], Transformer [65], and a large-scale vision-language pre-training (VLP) model LXMERT [61]. 本稿では,従来の視覚言語モデルにおけるCATTを代替して,従来のボトムアップトップダウンLSTM[3],トランスフォーマー[65],大規模視覚言語事前学習(VLP)モデルLXMERT[61]などの有効性を検証する。 0.85
The experimental results demonstrate that our CATT can achieve consistent improvements for all of them. 実験の結果,CATTはこれらすべてに対して一貫した改善を達成できることがわかった。 0.62
Significantly, our light LXMERT+CATT outperforms the heavy UNITER [14] on VQA2.0, i.e., 73.04% vs. 72.91% on test-std split, and NLVR2, i.e., 76.0% vs. 75.80% on test-P split, while we require much fewer pretraining burdens: 624 vs. 882 V100 GPU hours. 我々の軽量LXMERT+CATTは、VQA2.0ではUNITER [14]、テストスプリットでは73.04%対72.91%、テストスプリットではNLVR2、テストPスプリットでは76.0%対75.80%、事前トレーニング時の負担は624対882 V100である。 0.69
Such comparisons show that our CATT has great potential in visionlanguage pre-training (VLP) tasks. このような比較から,我々のCATTは視覚言語前訓練(VLP)タスクにおいて大きな可能性を示唆している。 0.58
2. Related Work Attention Mechanism. 2. 関連作業注意機構。 0.79
Conventional top-down attentions generally include the classic single-guidance fashion [5, 71, 75, 77] and the co-guidance fashion [37, 79]. 従来のトップダウンは、クラシックなシングルガイドファッション [5, 71, 75, 77] とコガイドファッション [37, 79] が一般的である。 0.70
They can be summarized as the query, key, value (Q-K-V) operation that also generalizes to self-attention [65, 70], which even be applied in pure vision tasks such as visual recognition and generation [11, 12]. それらは、クエリ、キー、値(Q-K-V)演算で、また、自己注意[65,70]にも一般化し、視覚認識や生成[11,12]のような純粋な視覚タスクにも適用できる。 0.74
As the attention weight is unsupervised, it is easily misled by the confounders hidden in the dataset. 注意の重みは監視されていないため、データセットに隠された共同設立者によって容易に誤解される。 0.54
We exploit the causal inference to propose a novel CATT module to mitigate the confounding effect [47, 44]. 因果推論を利用して,新しいCATTモジュールを提案し,結束効果を緩和する [47, 44] 。 0.77
As our proposed CATT complies with the Q-K-V convention, it has great potential in any model that uses attention. 提案したCATTはQ-K-V規約に準拠するので,注目するモデルにおいても大きな可能性を秘めている。 0.66
Vision-Language Pre-Training. Vision-Language Pre-Training 0.59
Inspired by the success of large-scale pre-training for language modeling [16, 50], researchers have developed some multi-modal Transformerbased Vision-Language Pre-training (VLP) models to learn task-agnostic visiolinguistic representations [35, 61, 31, 14, 85, 32, 30]. 言語モデリングのための大規模なプリトレーニング [16, 50] の成功に触発されて、研究者はタスクに依存しない視覚言語表現を学ぶためのマルチモーダルトランスフォーマーベースのビジョン言語プリトレーニング (VLP) モデルを開発しました [35, 61, 31, 14, 85, 32, 30]。
訳抜け防止モード: 言語モデリングのための大規模プレトレーニングの成功 [16, 50] に触発された。 研究者は、タスクを学習するマルチモーダルトランスフォーマーベースビジョン-言語プレ-トレーニング(VLP)モデルを開発した。 61, 31, 14, 85, 32, 30 ] .
0.86
To discover the visiolinguistic relations across domains, a huge amount of data [57, 13, 28] are required ドメイン間の相互関係を発見するには,膨大なデータ[57,13,28]が必要である。 0.81
2 Q: What sport is being shown on the screen?A: Dancing (Bowling)Q: What color is the girl's necklace?A: Black (White)Q: What gender is the person standing up?A: Male (Female)#“Sport+Man” / #“Sport+Screen”=213#“Color+Girl” / #“Color+Necklace”=54#“Board+Man” / #“Board+Woman”=20CXMY 2 a: dancing (bowling)q: what color is the girl's neck?a: black (white)q: what gender is the person standing?a: male (female)# “sport+man” / # “sport+screen”=213# “color+girl” / ##color+necklace”=54# “board+man” / #“board+woman”=20cxmy
訳抜け防止モード: 2 Q : 画面に表示されているスポーツとは?A : ダンス(ボーリング)Q : 少女のネックレスの色は?A : 黒(白)Q : 立っている人は何?A : 男性(女性)#「スポーツ+マン」/ # “Sport+Screen”=213# “Color+Girl ” / # “ Color+Necklace”=54# “Board+Man ” / # “ Board+Woman”=20CXMY
0.87
英語(論文から抽出)日本語訳スコア
for VLP. However, just as the language pre-training models tend to learn or even amplify the dataset bias [29, 40], these VLP models may also overplay the spurious correlation. VLP用。 しかし、言語事前学習モデルがデータセットバイアス [29, 40] を学習または増幅する傾向にあるように、これらのvlpモデルもスプリアス相関をオーバープレイする可能性がある。 0.73
We use the proposed CATT to help VLP models confront the bias. 提案したCATTを用いて、VLPモデルがバイアスに直面するのを支援する。 0.56
Causal Inference. Causality [44, 56] provides researchers new methodologies to design robust measurements [60], discover hidden causal structures [9], generate counterfactual samples [62, 1, 27, 80], and confront various biases [67, 81, 83, 41, 20, 48]. 因果推論。 因果性 [44, 56] は、ロバストな測定 [60] を設計し、隠れた因果構造 [9] を発見し、反ファクトなサンプル [62, 1, 27, 80] を生成し、様々なバイアス [67, 81, 83, 41, 20, 48] に直面する新しい手法を提供する。 0.65
These bias removal methods usually assume that the confounder is observable [81, 83] or domain-specific [19, 10]. これらのバイアス除去法は通常、共同設立者は[81, 83]またはドメイン固有の[19, 10]を観測可能であると仮定する。 0.66
In general, the confounder is unobservable and elusive. 概して、共同設立者は観察不能であり、不可解である。 0.47
Compared with them, we exploit the front-door adjustment [43] with no observedconfounder assumption to mitigate the dataset bias. それらと比較して、我々はデータセットのバイアスを緩和するために、観察されていないフロントドア調整[43]を利用します。 0.51
To tackle the sampling challenge in the front-door adjustment, we propose two effective approximations called In-Sample Sampling and Cross-Sample Sampling. フロントドア調整におけるサンプリング課題に取り組むために,試料内サンプリングと試料間サンプリングという2つの効果的な近似を提案する。 0.66
3. Causal Attention 3.1. 3. 因果注意3.1。 0.72
Attention in the Front-Door Causal Graph We retrospect the attention mechanism in a front-door causal graph [47, 44] as shown in the bottom part of Figure 1, where the causal effect is passed from the input set X to the target Y through a mediator Z. 表裏因果グラフにおける注意は、図1の下部に示すように表裏因果グラフ[47,44]における注意機構を振り返り、入力集合xから目標yへ仲介者zを介して因果効果を伝達する。 0.69
By this graph, we can split the attention mechanism into two parts: a selector which selects suitable knowledge Z from X and a predictor which exploits Z to predict Y . このグラフにより、注意機構を X から適切な知識 Z を選択するセレクタと、Z を利用して Y を予測する予測器の2つに分割することができる。 0.78
Take VQA as the example, X is a multi-modality set containing an image and a question, then the attention system will choose a few regions from the image based on the question to predict the answer. VQAを例にとると、Xは画像と質問を含むマルチモダリティセットです。次に、アテンションシステムは、質問に基づいて画像からいくつかの領域を選択し、答えを予測します。 0.78
We usually use the observational correlation P (Y |X) as the (cid:88) target to train an attention-based model: (cid:123)(cid:122) (cid:125) (cid:124) P (Z = z|X) z IS-Sampling 通常、観測相関 P (Y |X) を (cid:88) ターゲットとし、注意に基づくモデルを訓練する。 (cid:123) (cid:122) (cid:125) (cid:124) P (Z = z|X) z IS-Sampling 0.77
P (Y |Z = z), P (Y | Z = z)。 0.88
P (Y |X) = P (Y | X) = 0.96
(1) where z denotes the selected knowledge and IS-Sampling denotes In-Sample sampling since z comes from the current input sample X. (1) z は選択した知識を表し、IS-Sampling は現在の入力サンプル X から来るため、インサンプルサンプリングを表す。 0.81
However, as discussed in Introduction, since the selection is an unsupervised process, the predictor may be misled by the dataset bias when training it by Eq (1). しかし、はじめに述べたように、選択は教師なしのプロセスであるため、eq(1)でトレーニングする場合、予測者はデータセットバイアスによって誤解される可能性がある。 0.59
In causal terms, this means that the predictor may learn the spurious correlation brought by the backdoor path Z ← X ↔ Y 1 instead of the true causal effect Z → Y , and thus the conventional attention mechanism is not a proper way of calculating the causal effect. これは因果関係において、予測子は真の因果効果 Z → Y の代わりに、バックドア経路 Z は X は Y 1 であり、従って従来の注意機構は因果効果を計算する適切な方法ではないことを意味する。 0.76
To eliminate the spurious correlation brought by the hidden confounders, we should block the backdoor path be1For convenience, we simplify the notation of the backdoor path X ← C → M → Y shown in Figure 3 to X ↔ Y . 隠れた共同設立者がもたらすスプリアス相関を排除するには、バックドアパスbe1をブロックする必要があります。便宜のために、図3に示すバックドアパスXの表記を単純化します。
訳抜け防止モード: 隠れた共同創設者が引き起こした急激な相関をなくすために、バックドアの経路をブロックすべきである。 図3に示すバックドアパス X > C → M → Y の表記を単純化する。
0.67
tween Z and Y : Z ← X ↔ Y . Z と Y : Z は X は Y である。 0.69
In this way, we can estimate the true causal effect between Z and Y , which is denoted as P (Y |do(Z)), where do(·) denotes the interventional operation [44]. このようにして、Z と Y の間の真の因果効果を推定することができる。これは P (Y |do(Z)) と表され、do(·) は介入操作 [44] を表す。 0.79
We can cut off the link X → Z to block this backdoor path by stratifying the input variable X into different cases {x} and then measuring the average causal effects of Z on Y by the following expectation [46]: (2) リンク X → Z を遮断して、入力変数 X を異なるケース {x} に成層化して、次の期待 [46] で Y 上の Z の平均因果効果を測定することで、このバックドアパスをブロックすることができます。 0.81
P (Y |X = x, Z), P (Y |X = x, Z) 0.83
P (Y |do(Z)) = P (Y |do(Z)) = 0.94
(cid:88) (cid:123)(cid:122) (cid:125) (cid:124) P (X = x) x CS-Sampling (cid:88) (cid:123)(cid:122) (cid:125) (cid:124) P (X = x) x CS-Sampling 0.78
where x denotes one possible input case. xは1つの可能な入力ケースを表します。 0.57
Here we denote it as Cross-Sample Sampling (CS-Sampling) since it comes from the other samples. ここでは、他のサンプルからのクロスサンプルサンプリング(csサンプリング)と表現する。 0.73
Intuitively, CS-Sampling approximates the “physical intervention” which can break the spurious correlation caused by the hidden confounder. 直感的には、cs-samplingは、隠れた共同設立者によって引き起こされる散発的な相関を破る“物理的介入”を近似する。 0.43
For example, the annotation “man-with-snowboard” is dominant in captioning dataset [19] and thus the predictor may learn the spurious correlation between the snowboard region with the word “man” without looking at the person region to reason what actually the gender is. 例えば,“man-with-snowboard”というアノテーションはキャプションデータセット [19] において支配的であり,スノーボード地域と“man”という単語との素早い相関関係を,人的領域に目を向けずに学習し,実際に性別が何であるかを判断することができる。 0.72
CS-Sampling alleviates such spurious correlation by combining the person region with the other objects from other samples, e g , bike, mirror, or brush, and inputting the combinations to the predictor. CS-Samplingは、人領域と他のサンプル、例えば、自転車、ミラー、またはブラシからの他のオブジェクトを組み合わせることで、そのようなスプリアス相関を緩和し、組み合わせを予測器に入力します。 0.63
Then the predictor will not always see “man-withsnowboard” but see “man” with the other distinctive objects and thus it will be forced to infer the word “man” from the person region. すると、予測者は常に「man-withsnowboard」を見るのではなく、他の特徴的なオブジェクトで「man」を見るため、人領域から「man」という単語を推論する必要があります。 0.72
With this deconfounded predictor, the selector will also be forced to select the legitimate evidence even we do not have any region-word supervisions. この非定型予測器では、地域語の監督がなくても、セレクターは正当な証拠を選択することを余儀なくされます。 0.53
By replacing P (Y |z) in Eq (1) by P (Y |do(Z)) in Eq. Eq (1) の P (Y |z) を Eq の P (Y |do(Z)) で置き換える。 0.84
(2), we can calculate the true causal effect between X and Y : (cid:88) P (Y |do(X)) (cid:123)(cid:122) (cid:125) (cid:124) [P (Y |Z = z, X = x)]. 2) X と Y の間の真の因果効果を計算することができる: (cid:88) P (Y |do(X)) (cid:123) (cid:125) (cid:124) [P (Y |Z = z, X = x)]。 0.89
P (Z = z|X) z IS-Sampling (3) This is also called the front-door adjustment, which is a fundamental causal inference technique for deconfounding the unobserved confounder [43]. P (Z = z|X) z IS-Sampling (3) これは、観測されていない共同設立者[43]を分解するための基本的な因果推論手法である、フロントドア調整とも呼ばれる。
訳抜け防止モード: P ( Z = z|X ) z IS - サンプリング ( 3 ) これは別名で呼ばれる。 正面 - ドアの調整 これは 根本的因果推論技術です 未確認の共同設立者[43]を
0.75
Since our novel attention module is designed by using Eq (3) as the training target, we name our attention module as Causal Attention (CATT). 当社の新しい注意モジュールはEq (3)をトレーニングターゲットとして設計されているため、注意モジュールをCausal Attention(CATT)と呼びます。 0.79
3.2. In-Sample and Cross-Sample Attentions To implement our causal attention (Eq. 3.2. In-Sample and Cross-Sample Attentions to implement our causal attention (Eq。 0.77
(3)) in a deep framework, we can parameterize the predictive distribution P (Y |Z, X) as a network g(·) followed by a softmax layer since most vision-language tasks are transformed into classification formulations [68, 4]: (3)) 深い枠組みでは, 予測分布P(Y |Z, X) をネットワーク g(·) として, 続いてソフトマックス層としてパラメータ化することができる。
訳抜け防止モード: (3 ) ) の深いフレームワークでは、予測分布 P (Y |Z) をパラメータ化できる。 X ) はネットワーク g ( · ) であり、その後ソフトマックス層が続く。 ほとんどのビジョン - 言語タスクは分類の定式化に変換されます [68, 4]
0.72
(cid:88) (cid:123)(cid:122) (cid:124) (cid:125) P (X = x) x CS-Sampling (cid:88) (cid:123) (cid:122) (cid:124) (cid:125) P (X = x) x CS-Sampling 0.78
= P (Y |Z, X) = Softmax[g(Z, X)]. = P (Y |Z, X) = Softmax[g(Z, X)] である。 0.88
(4) As can be seen in Eq (3), we need to sample X and Z, and feed them into the network to complete P (Y |do(X)). (4) Eq (3) で見られるように、X と Z をサンプリングし、それらをネットワークに供給して P (Y |do(X)) を完成させる必要がある。 0.86
3 3 0.85
英語(論文から抽出)日本語訳スコア
However, the cost of the network forward pass for all of these samples is prohibitively expensive. しかし、これらのサンプルすべてに対するネットワークフォワードパスのコストは、必然的に高価である。 0.67
To address this challenge, we apply Normalized Weighted Geometric Mean (NWGM) approximation [71, 58] to absorb the outer sampling into the feature level and thus only need to forward the “absorbed input” in the network for once. この課題に対処するために、NWGM(Normalized Weighted Geometric Mean)近似[71, 58]を適用して、外部サンプリングを機能レベルに吸収し、ネットワーク内の「吸収された入力」を1回だけ転送するだけです。 0.76
Specifically, by NWGM approximation, IS-Sampling and CS-Sampling in Eq (3) can be absorbed into the network as: P (Y |do(X)) ≈Softmax[g( ˆZ, ˆX)], 具体的には、nwgm近似により、eq (3) における is-sampling と cs-sampling は、ネットワークに p (y |do(x)) として吸収することができる。 0.61
IS-Sampling: CS-Sampling: IS-Sampling:CS-Sampl ing 0.68
ˆZ = ˆX = よって、Z は Z である。 0.41
P (Z = z|h(X))z, P (X = x|f (X))x. P (Z = z|h(X))z, P (X = x|f(X))x。 0.99
(5) (cid:88) (cid:88) (5) (cid:88)(cid:88) 0.80
z x where h(·) and f (·) denote query embedding functions which can transform the input X into two query sets. z x ここで、h(·) と f(·) は入力 x を 2 つのクエリ集合に変換できるクエリ埋め込み関数を表す。 0.82
Both of them can be parameterized as networks. どちらもネットワークとしてパラメータ化できる。 0.79
Note that in a network, the variable X and Z are represented by embedding vectors, e g , an image region becomes an RoI representation, so we use bold symbols to signify these embedding vectors, e g , z, x denote the embedding vectors of the variable z, x. ネットワーク上では、変数 X と Z は埋め込みベクトル、例えば、画像領域はRoI表現となるので、大胆な記号を用いてこれらの埋め込みベクトル、例えば、z, x は変数 z, x の埋め込みベクトルを表すことに注意されたい。 0.72
ˆX, ˆZ denote the estimations of the ISSampling and CS-Sampling, which can be packed into the matrix form [65]. X は ISS と CS-Sampling の推定を表し、これは行列形式 [65] に詰め込むことができる。 0.66
The derivation details of Eq (5) are given in the supplementary material. Eq(5)の導出の詳細は補足材料で与えられます。 0.69
Actually, the IS-Sampling estimation ˆZ is what a classic attention network calculates, which can be briefly expressed by the Q-K-V operation as the blue block in Figure 4: 実際、IS-Samplingの推定は、古典的な注意ネットワークが計算したもので、図4のブルーブロックとしてQ-K-V操作で簡単に表現できる。 0.68
Input: QI , KI , VI , Prob: AI = Softmax(QI Ouput: 入力: QI , KI , VI , Prob: AI = Softmax(QI Ouput:) 0.85
ˆZ = VI AI T KI ) Z = VI AI T KI) 0.79
(6) We denote Eq (6) as the In-Sample attention (IS-ATT) and the subscript “I” emphasizes that it is estimating ISSampling. (6) Eq (6) を In-Sample attention (IS-ATT) と呼び、サブスクリプト “I” は ISSampling を推定していることを強調している。 0.74
In this case, all the KI and VI come from the current input sample, e g , the RoI feature set. この場合、すべてのKIとVIは、現在の入力サンプル、例えば、RoI機能セットから来ています。 0.67
QI comes from h(X), e g , in top-down attention, the query vector qI is the embedding of the sentence context and in selfattention, the query set QI is also the RoI feature set. QIはh(X)から来ており、例えば、トップダウンの注意を払って、クエリベクトルqIは文コンテキストの埋め込みであり、セルフアテンションでは、クエリセットQIもRoI機能セットである。 0.76
For AI, each attention vector aI is the network estimation of the IS-Sampling probability P (Z = z|h(X)) and the output ˆZ is the estimated vector set of IS-Sampling in Eq (5). AI の場合、各注意ベクトル aI は IS-サンプリング確率 P (Z = z|h(X)) のネットワーク推定値であり、出力は Eq (5) における IS-サンプリングの推定ベクトル集合である。 0.86
Inspired by Eq (6), we can also deploy a Q-K-V operation to estimate ˆX and name it as Cross-Sample attention (CS-ATT), which is the red block in Figure 4: Eq (6) にインスパイアされた Q-K-V 操作をデプロイして,X を推定し,図 4 の赤いブロックである Cross-Sample attention (CS-ATT) と名付けることもできる。 0.80
Input: QC , KC , VC , Prob: AC = Softmax(QC Ouput: 入力: QC , KC , VC , Prob: AC = Softmax(QC Ouput:) 0.84
ˆX = VC AC tX = VC AC 0.72
T KC ), (7) T KC)。 (7) 0.77
where KC, VC come from the other samples in the training set, and QC comes from f (X). ここでは、KC、VCはトレーニングセットの他のサンプルから、QCはf(X)から来ます。 0.75
In this case, aC approximates P (X = x|f (X)) and ˆX is the CS-Sampling estimation in Eq (5). この場合、aC は P (X = x|f (X) ) を近似し、tX は Eq (5) における CS-サンプリング推定である。 0.76
In the implementations, we set KC and 実装では、KC と KC を設定します。 0.49
4 Figure 4. The sketch of a single causal attention module, which includes an IS-ATT (Eq. 4 図4。 IS-ATT(Eq)を含む単一の因果的注意モジュールのスケッチ。 0.76
(6)) and a CS-ATT (Eq. (6)およびCS-ATT(Eq。 0.71
(7)). After calculating ˆZ and ˆX, we can input them into the predictor for making decisions or more stacked attention layers for further embedding. (7)). Z と X を計算した後、それらを予測器に入力して決定を下したり、さらなる埋め込みのために注意層を積み重ねたりすることができる。 0.71
VC as the global dictionaries compressed from the whole training dataset since it is impossible to attend to all the samples in the training set. グローバルな辞書はトレーニングデータセット全体から圧縮されているため、トレーニングセットのすべてのサンプルに出席することは不可能である。 0.75
Specifically, we initialize this dictionary by using K-means over all the samples’ embeddings in training set, e g , all the images’ RoI features. 具体的には、トレーニングセット、例えば、すべての画像のRoI機能内のすべてのサンプルの埋め込みにK平均を使用して、この辞書を初期化します。 0.68
In this way, VC and VI stay in the same representation space, which guarantees that the estimations of IS-Sampling and CS-Sampling: ˆZ and ˆX in Eq (5) also have the same distribution. このように、VC と VI は同じ表現空間に留まり、IS-Sampling と CS-Sampling: Eq (5) の X と X の見積も同じ分布を持つことを保証している。 0.81
To sum up, as shown in Figure 4, our single causal attention module estimates ˆZ and ˆX respectively by IS-ATT in Eq. 図4に示すように、我々の単一の因果的注意加群は、それぞれ Eq の IS-ATT によって、Z と X を推定する。 0.58
(6) and CS-ATT in Eq (7). (6)およびEq(7)のCS-ATT。 0.79
After that, we can concatenate the outputs for estimating P (Y |do(X)) as in Eq (5). その後、P (Y |do(X)) を Eq (5) で推定する出力を連結することができる。 0.80
3.3. CATT in Stacked Attention Networks In practice, attention modules can be stacked as deep networks, e g , the classic Transformer [65] or BERT architectures [16]. 3.3. CATT in Stacked Attention Networks 実際には、注意モジュールは、例えば、古典的なトランスフォーマー[65]またはBERTアーキテクチャ[16]などのディープネットワークとして積み重ねることができます。
訳抜け防止モード: 3.3. CATT in Stacked Attention Networks 実際には、注意モジュールはディープネットワークとして積み重ねることができます。 e g, 古典的なトランスフォーマー [ 65 ] または BERT アーキテクチャ [ 16 ]。
0.75
Our CATT can also be incorporated into these stacked attention networks and we experiment with Transformer [65] and LXMERT [61] in this paper. 本稿では,これらの重畳された注意ネットワークにCATTを組み込んで,Transformer [65] と LXMERT [61] を実験する。 0.79
We briefly introduce their architectures here and discuss the implementation details in Section 4.2. 彼らのアーキテクチャを簡単に紹介し、実装の詳細をセクション4.2で論じる。 0.62
Generally, our CATT replaces the first attention layer of these architectures to get the estimations of IS-Sampling ˆZ and CS-Sampling ˆX, and then we input them into more attention layers for further embedding, as shown in Figure 4. 一般的に、これらのアーキテクチャの最初の注意層を置換し、IS-Sampling >ZとCS-Sampling >Xを推定し、図4に示すように、より注意層に入力してさらなる埋め込みを行う。 0.69
For convenience, in these stacked attention networks, we still use IS-ATT and CSATT as the names of the attention modules to signify that this attention layer is dealing with the representations of the IS-Sampling or CS-Sampling. 便宜上、これらのスタックされた注意ネットワークでは、この注意層がIS-SamplingまたはCS-Samplingの表現を扱うことを示すために、注意モジュールの名前としてIS-ATTとCSATTを使用しています。 0.56
Transformer+CATT. Transformer+CATT 0.83
Figure 5 shows the architecture of our vision-language Transformer+CATT. 図5は、視覚言語トランスフォーマー+CATTのアーキテクチャを示しています。 0.59
This architecture contains a vision encoder and a language decoder. このアーキテクチャはビジョンエンコーダと言語デコーダを含んでいる。 0.85
In im- ProbMatMulQI KIVIProbMatMulKCVCIS -ATTCS-ATTZ ^ X ^ QC Prediction or Stacked ATT im- ProbMatMulQI KIVIProbMatMulKCVCIS -ATTCS-ATTZ ^ X ^ QC Prediction or Stacked ATT 0.72
英語(論文から抽出)日本語訳スコア
Figure 5. The Transformer+CATT architecture, which contains a visual encoder and a language decoder. 図5。 transformer+cattアーキテクチャは、ビジュアルエンコーダと言語デコーダを含んでいる。 0.78
We only show two layers in both parts for demonstrating how they are connected. 接続方法を示すには、両方の部分で2つのレイヤーのみを示します。 0.67
In the implementations, both the encoder and decoder contain 6 layers. 実装では、エンコーダとデコーダの両方に6層が含まれている。 0.66
[VI ]E and [VC ]E denote the IS-ATT and CS-ATT outputs of the encoder, which are used as the inputs to the decoder. VI ]E と [VC ]E は、デコーダへの入力として使用されるエンコーダの IS-ATT と CS-ATT 出力を表します。 0.86
ˆZ and ˆX are the IS-ATT and CS-ATT outputs of the decoder, which are the estimations of IS-Sampling and CS-Sampling, respectively. XはIS-ATTとCS-ATTの出力であり、それぞれIS-SamplingとCS-Samplingの推定値である。 0.69
plementations, both the encoder and decoder contain 6 blue and purple blocks. エンコーダとデコーダは6つの青と紫のブロックを含んでいる。 0.79
The inputs of the encoder include the embedding set of the current image and a global image embedding dictionary. エンコーダの入力には、現在の画像の埋め込みセットと、グローバル画像埋め込み辞書が含まれる。 0.73
The IS-ATT and CS-ATT outputs of the encoder are input into the decoder for learning visiolinguistic representations. エンコーダのIS-ATTおよびCS-ATT出力は、視覚言語表現を学ぶためのデコーダに入力される。 0.68
For the decoder, the inputs of the first IS-ATT and CS-ATT are respectively the current sentence embedding set and a global sentence embedding dictionary. デコーダの場合、最初のIS-ATTとCS-ATTの入力は、それぞれ現在の文埋め込みセットとグローバル文埋め込み辞書である。 0.72
The outputs of the decoder include two parts which respectively correspond to IS-Sampling ˆZ and CSSampling ˆX, which will be concatenated and input into the final predictor. デコーダの出力は、それぞれIS-Sampling ^Z と CSSampling ^X に対応する2つの部分を含み、結合して最終的な予測子に入力される。 0.67
Importantly, by stacking many CATT layers, the estimated ˆZ and ˆX may not stay in the same representation space due to the non-convex operations in each attention module, e g , the position-wise feed-forward Networks [65]. 重要なことは、多くの CATT 層を積み重ねることによって、各注意モジュールの非凸操作、例えば位置方向フィードフォワードネットワーク [65] により、推定される「Z」と「X」が同じ表現空間にとどまらない可能性があることである。 0.60
To avoid this, we share the parameters of IS-ATT and CS-ATT in each CATT and then the outputs of them will always stay in the same representation space, where the detail formations are given in Eq (8). これを避けるために、各CATTでIS-ATTとCS-ATTのパラメータを共有し、その出力は常に同じ表現空間に留まり、詳細は Eq (8) で与えられる。
訳抜け防止モード: これを避けるため。 私たちは各 CATT で IS - ATT と CS - ATT のパラメータを共有します。 出力は常に同じ表現空間に留まります ここで、詳細形成は Eq (8) で与えられる。
0.75
As a result, the additional attention computation of CATT in LXMERT is O(K ∗ n)/O(n ∗ n) at the first/other layer, where K is the size of the global dictionary and n is the number of word/image sequence. その結果、LXMERT における CATT の追加注意度計算は、K がグローバル辞書のサイズであり、n が単語/画像シーケンスの数である第 1/第 2 層における O(K, n)/O(n, n) である。 0.79
LXMERT+CATT. LXMERT+CATT 0.81
Figure 6 demonstrates the architecture of our LXMERT+CATT, which contains three parts, a vision encoder with 5 self-CATT modules, a language encoder with 9 self-CATT modules, and a visiolinguistic decoder with 5 blocks where each one contains two crossmodality CATT (CM-CATT) and two self-CATT modules. 図6は,5つの自己CATTモジュールを持つ視覚エンコーダ,9つの自己CATTモジュールを持つ言語エンコーダ,および2つの相互モダリティCATT(CM-CATT)と2つの自己CATTモジュールを含む5ブロックの視覚言語デコーダの3つの部分を含むLXMERT+CATTのアーキテクチャを実証する。 0.83
For convenience, we merge the inputs (outputs) of IS-ATT and CS-ATT into one single line in (c). 利便性のため、IS-ATTとCS-ATTの入力(出力)を1行(c)にマージする。 0.68
For example, the image inputs contain two parts which are the current image and a global image embedding dictionary. 例えば、画像入力は、現在の画像である2つの部分と、グローバルな画像埋め込み辞書を含む。 0.77
[V ]V ([V ]L) denotes the visual (language) signal which also includes two V ]V ([V ]L) は2つを含む視覚(言語)信号を表します。 0.80
Figure 6. The architecture of LXMERT+CATT, which contains one visual encoder, one language encoder, and one visiolinguistic decoder. 図6。 1つの視覚エンコーダ、1つの言語エンコーダ、1つの視覚言語デコーダを含むLXMERT+CATTのアーキテクチャ。 0.72
Note that each line in (c) contains two parts which respectively correspond to IS-ATT and CS-ATT. c)の各行は、それぞれIS-ATTとCS-ATTに対応する2つの部分を含むことに注意。 0.69
[V ]V and [V ]L denote the visual and language signals, respectively. V]Vと[V]Lはそれぞれ視覚信号と言語信号を表します。 0.81
parts [VI ]V and [VC]V ([VI ]L and [VC]L) corresponding to IS-ATT and CS-ATT, respectively. IS−ATTとCS−ATTに対応する部品[VI]Vと[VC]V([VI]Lと[VC]L)をそれぞれ設ける。 0.77
Figure 6(b) sketches one cross-modality module used in the top part of the decoder in (c), where the visual signals are used as the queries in both IS-ATT and CS-ATT. 図6(b)はデコーダの上部で使用される1つのモダリティモジュールをスケッチし、IS-ATTとCS-ATTの両方のクエリとして視覚信号を使用する。 0.73
Similar as the original LXMERT [61], we concatenate the outputs of both vision and language streams and input them into various predictors for solving different vision-language tasks. 元のLXMERT [61]と同様に、視覚と言語の両方のストリームの出力を結合し、異なる視覚言語タスクを解くために様々な予測子に入力する。 0.68
In implementations, we share the parameters of IS-ATT and CS-ATT in each causal attention module to force their outputs to have the same distributions. 実装では、各因果注意モジュールにIS-ATTとCS-ATTのパラメータを共有し、出力に同じ分布を強制する。 0.71
4. Experiments We validated our Causal Attention (CATT) in three architectures for various vision-language tasks: BottomUp Top-Down (BUTD) LSTM [3] for Image Captioning (IC) [13, 38] and Visual Question Answering (VQA) [4], Transformer [65] for IC and VQA, and a large scale visionlanguage pre-training framework LXMERT [61] for VQA, Graph Question Answering (GQA) [22], and Natural Language for Visual Reasoning (NLVR) [59]. 4. BottomUp Top-Down (BUTD) LSTM [3] for Image Captioning (IC) [13, 38] and Visual Question Questioning (VQA) [4], Transformer [65] for IC and VQA, and a large vision language pre-training framework LXMERT [61] for VQA, Graph Question Answering (GQA) [22] and Natural Language for Visual Reasoning (NLVR) [59] である。
訳抜け防止モード: 4. 実験 私たちは、さまざまなビジョン - 言語タスクのための3つのアーキテクチャで因果的注意(CATT)を検証しました:ボトムアップトップ - ダウン(BUTD)LSTM [3]イメージキャプション(IC)のための[13, 38]。 そして視覚質問の答え(VQA) [4]、ICおよびVQAのための変圧器 [65]、。 VQAのための大規模なビジョン言語プリトレーニングフレームワークLXMERT [61]。 グラフ質問回答(GQA)[22]、視覚的推論のための自然言語(NLVR)[59]。
0.83
4.1. Datasets MS COCO [13] has 123,287 images and each image is assigned with 5 captions. 4.1. データセットMS COCO[13]は123,287個の画像を持ち、各画像には5つのキャプションが割り当てられる。 0.66
This dataset has two popular splits: the Karpathy split [24] and the official test split, which divide the whole dataset into 113, 287/5, 000/5, 000 and 82, 783/40, 504/40, 775 for training/validation/ test, respectively. このデータセットには2つの一般的な分割がある: Karpathy 分割 [24] と公式テスト分割で、データセット全体をそれぞれ 113, 287/5, 000/5, 000 と 82, 783/40, 504/40, 775 のトレーニング/バリデーション/テストに分割する。
訳抜け防止モード: このデータセットには2つの一般的な分割がある: Karpathy split [24 ] 公式なテストは データセット全体を113に分割しました 287/5, 000/5, 000 and 82, 783/40, 504/40, 775であった。
0.76
We used the Karpathy split to train the BUTD and Transformer based captioners and evaluate. 我々は、Karpathyスプリットを用いて、BUTDとTransformerベースのキャプタを訓練し、評価した。 0.59
VQA2.0 [18] collects the images from MS COCO and assigns 3 questions for each image and 10 answers for each question. VQA2.0[18]はMS COCOから画像を収集し、各画像に3つの質問、各質問に10の回答を割り当てる。 0.72
There are 80k/40k training/validation images available offline. 80k/40kのトレーニング/評価画像がオフラインで利用できる。 0.46
We exploited the training set to train our 私たちはトレーニングセットを利用してトレーニングしました 0.62
5 Language DecoderVIVIIS-ATTKIK IQIVCVCCS-ATTKCKCQCQ CCurrent SentenceSentence DictVIVIIS-ATTKIKIQI VCVCCS-ATTKCKCQCQCVI VIIS-ATTKIKIQIVCVCCS -ATTKCKCQCQCVIVIIS-A TTKIKIQIVCVCCS-ATTKC KCQCQCVisual EncoderCurrent ImageImage DictVIVIIS-ATTKIKIQI VCVCCS-ATTKCKCQCQCVI VIIS-ATTKIKIQIVCVCCS -ATTKCKCQCQC[VI ]E[VC ]E[VI ]E[VC ]EZ Z ^ Z ^ X X ^ X ^ (a) Self-CATT(b) CM-CATT(c) LXMERT+CATTVIVIIS-ATTKIKIQI VCVCCS-ATTKCKCQCQC[VI ]L[VI ]V[VC ]L[VC ]VVIIS-ATTKIQIVCCS-AT TKCQC[VI ]L[VI ]V[VC ]L[VC ]VCurrent SampleGlobal DictVIVIIS-ATTKIKIQI VCVCCS-ATTKCKCQCQCVI VC Self-CATTImage InputsCM-CATTSelf-CA TTSentence InputsCM-CATTSelf-CA TTSelf-CATT5  9  5  [V ]V[V ]L[V ]V[V ]LLanguage EncoderVIsiolinguist ic Decoder[V ]V[V ]LVisual Encoder 5 Language DecoderVIVIIS-ATTKIK IQIVCVCCS-ATTKCKCQCQ CCurrent SentenceSentence DictVIVIIS-ATTKIKIQI VCVCCS-ATTKCKCQCQCVI VIIS-ATTKIKIQIVCVCCS -ATTKCKCQCQCVIVIIS-A TTKIKIQIVCVCCS-ATTKC KCQCQCVisual EncoderCurrent ImageImage DictVIVIIS-ATTKIKIQI VCVCCS-ATTKCKCQCQCVI VIIS-ATTKIKIQIVCVCCS -ATTKCKCQCQC[VI ]E[VC ]E[VI ]E[VC ]EZ Z ^ Z ^ X X ^ X ^ (a) Self-CATT(b) CM-CATT(c) LXMERT+CATTVIVIIS-ATTKIKIQI VCVCCS-ATTKCKCQCQC[VI ]L[VI ]V[VC ]L[VC ]VVIIS-ATTKIQIVCCS-AT TKCQC[VI ]L[VI ]V[VC ]L[VC ]VCurrent SampleGlobal DictVIVIIS-ATTKIKIQI VCVCCS-ATTKCKCQCQCVI VC Self-CATTImage InputsCM-CATTSelf-CA TTSentence InputsCM-CATTSelf-CA TTSelf-CATT5  9  5  [V ]V[V ]L[V ]V[V ]LLanguage EncoderVIsiolinguist ic Decoder[V ]V[V ]LVisual Encoder 0.82
英語(論文から抽出)日本語訳スコア
BUTD and Transformer based VQA systems, and then evaluated the performances on three different splits: offline validation, online test-development, and online test-standard. BUTDとTransformerベースのVQAシステム、オフライン検証、オンラインテスト開発、オンラインテスト標準の3つの異なる分割のパフォーマンスを評価しました。 0.69
Pre-training and Fine-tuning Datasets for VLP. VLPの事前トレーニングと微調整データセット。 0.63
We followed LXMERT [61] to collect a large-scale visionlanguage pre-training dataset from the training and development sets of MS COCO, VQA2.0, GQA [22], and Visual Genome [28]. 我々はLXMERT [61]に従い、MS COCO、VQA2.0、GQA [22]、Visual Genome [28]のトレーニングおよび開発セットから大規模視覚言語事前学習データセットを収集した。 0.73
After collecting, this dataset contained 180K distinct images and 9.18M image-sentence pairs. 収集後、このデータセットには180Kの異なる画像と9.18Mの画像文ペアが含まれていた。 0.44
We fine-tuned our VLP model on three tasks, which were VQA, GQA, and NLVR2 [59] and evaluated the performances on various test splits of them. VQA, GQA, NLVR2[59]の3つのタスクでVLPモデルを微調整し, 各種テスト分割の性能評価を行った。 0.75
4.2. Implementation Details The implementation details of BUTD+CATT and Transformer+CATT are given in C.4 of the supplementary material. 4.2. BUTD+CATTとTransformer+CATTの実装詳細は補充材料のC.4に記載されている。 0.68
Here we provide the details of LXMERT+CATT, which is the most significant experiments in this paper. ここでは、本論文で最も重要な実験であるLXMERT+CATTの詳細について説明します。 0.64
LXMERT + CATT. LXMERT + CATT。 0.82
We used the architecture in Figure. アーキテクチャは図で使用しました。 0.70
6 for large-scale vision-language pre-training. 6 大規模視覚言語事前学習を行う。 0.57
In this architecture, all IS-ATT and CS-ATT were deployed by 12-head scaled dot-product [65]: このアーキテクチャでは、すべての IS-ATT と CS-ATT を 12 ヘッドスケールのドット製品 [65] で展開しました。 0.59
Input: Q, K, V Prob: Ai = Softmax( Single-Head : Hi = AiV W V i , 入力: Q, K, V Prob: Ai = Softmax(シングルヘッド : Hi = AiV W V i , 0.84
QW Q i (KW K i )T √ QW Q i (KW K i ) T 。 0.80
d ) (8) ˆV = Embed([H1, ..., H12]W H ), d ) (8) V = Embed([H1, ..., H12]W H ) 0.82
Ouput: where W ∗ i and W H are all trainable matrices; Ai is the soft attention matrix for the i-th head; [·] denotes the concatenation operation, and Embed(·) means the feed-forward network and the residual operation as in [65]. Ouput: W の i および W H がすべて訓練可能な行列であるところ; Ai は i 番目の頭部のための柔らかい注意のマトリックスです; [·] は連結操作を表し、 Embed(·) は [65] のようにフィードフォワードネットワークと残りの操作を意味します。 0.81
The hidden size was set to 768. 隠された大きさは768に設定された。 0.62
Importantly, we shared the parameters between IS-ATT and CS-ATT in each CATT to make the outputs stay in the same representation space. 重要なことは、各CATTでIS-ATTとCS-ATTのパラメータを共有し、出力が同じ表現空間に留まるようにした。 0.69
In this case, we also applied K-means to get the initializations and set the size of both dictionaries to 500. この場合、k-means を適用して初期化を行い、両方の辞書のサイズを 500 に設定する。 0.77
We extracted 36 RoI object features from each image by a Faster-RCNN [52] pre-trained on VG as in [3]. 我々は,VGで事前学習したFaster-RCNN[52]により,各画像から36個のRoIオブジェクトの特徴を抽出した。 0.69
We followed the original LXMERT [61] to pre-train our LXMERT+CATT architecture by four tasks: masked cross-modality language modeling, masked object prediction, cross-modality image sentence matching, and image question answering. 我々は,LXMERT+CATTアーキテクチャを,マスク型クロスモーダル言語モデリング,マスク型オブジェクト予測,クロスモーダル画像文マッチング,イメージ質問応答の4つのタスクで事前訓練するために,オリジナルのLXMERT [61]に従った。
訳抜け防止モード: 我々は LXMERT [61 ] のオリジナルの LXMERT+CATT アーキテクチャを 4 つのタスクでトレーニングした。 マスクされたオブジェクト予測、クロス-モダリティ画像文マッチング、 イメージ質問に答えます
0.70
We used Adam optimizer with a lineardecayed learning rate schedule [16] where the peak learning rate was set to 5e−5. ピーク学習率を5e−5に設定した線形化学習率スケジュール [16] でadam optimizerを用いた。 0.80
We pre-trained the model 20 epochs on 4 GTX 1080 Ti with a batch size of 192. モデル20エポックを4 GTX 1080 Tiで、バッチサイズは192で事前トレーニングしました。 0.75
The pretraining cost 10 days. プレトレーニングは10日かかります。 0.67
To fairly compare the pre-training GPU hours with UNITER [14], we also carried an experiment by 4 V100 with batch size as 256 and it cost 6.5 days for pre-training. 事前トレーニングGPU時間をUNITER [14]とかなり比較するために、バッチサイズが256の4 V100による実験も実施し、事前トレーニングには6.5日かかります。 0.72
When fine-tuning the pre-trained model on VQA2.0, GQA, and NLVR2, the batch size was 32, training VQA2.0, GQA, NLVR2における事前学習モデルの微調整時, バッチサイズは32。 0.72
6 R 57.3 58.4 58.3 58.6 58.6 58.4 − 58.8 58.6 58.9 6 R 57.3 58.4 58.3 58.6 58.6 58.4 − 58.8 58.6 58.9 0.66
CHs↓ 13.5 10.7−2.8 12.1 9.7−2.4 13.5 10.7−2.8 12.1 9.7−2.4 0.31
CHi↓ 8.9 7.2−1.7 8.1 6.5−1.6 8.9.2−1.7.1.5−1.6 0.31
M 27.5 28.5 28.5 28.4 28.5 28.5 − 29.2 29.2 29.3 M 27.5 28.5 28.5 28.4 28.5 28.5 − 29.2 29.2 29.3 0.47
B@4 37.2 38.3 38.2 38.4 38.6 38.6 39.5 38.9 39.1 39.4 B@4 37.2 38.3 38.2 38.4 38.6 38.6 39.5 38.9 39.1 39.4 0.48
C 125.3 127.6 127.6 127.8 128.3 128.5 129.3 129.8 131.2 131.7 C 125.3 127.6 127.6 127.8 128.3 128.5 129.3 129.8 131.2 131.7 0.44
Table 1. The performances of various captioners on Karpathy split. 表1。 カルパシーの様々なキャプションの演技は分裂した。 0.64
Models S BUTD [3] 21.1 LBPF [49] 22.0 GCN-LSTM [76] 22.0 SGAE [73] 22.1 BUTD+CATT 21.9 Transformer 22.0 VLP [85] 23.2 AoANet [21] 22.4 M2Transformer [15] 22.6 Transformer+CATT 22.8 Table 2. S BUTD [3] 21.1 LBPF [49] 22.0 GCN-LSTM [76] 22.0 SGAE [73] 22.1 BUTD+CATT 21.9 Transformer 22.0 VLP [85] 23.2 AoANet [21] 22.4 M2 Transformer [15] 22.6 Transformer+CATT 22.8 Table 2 0.75
The bias degree of different models: “↑” and “↓” mean the higher the better and the lower the better, respectively. 異なるモデルのバイアス度: 「 」と「 」は、それぞれ、より高いほど高くなり、より低いことを意味します。 0.63
Red numbers denote the improvements after using our CATT modules. 赤数字はCATTモジュールを使用した後の改善を表します。 0.68
A@Gen↑ A@Attr↑ A@Act↑ Models 41% BUTD 77% 52% 51%+10% 60%+8% BUTD+CATT 85%+8% Transformer 82% 47% 55% Transformer+CATT 64%+9% 56%+9% 92%+10% epochs was 4, and the learning rates were set to 5e−5, 1e−6, and 5e−5, respectively. A@Gen' A@Attr モデル 41% BUTD 77% 51% 51% +10% 60% +8% BUTD+CATT 85% +8% Transformer 82% 47% 45% Transformer+CATT 64% +9% 56% +9% 92% +10% epochs was 4, and the learning rate were set to 5e−5, 1e−6, 5e−5。 0.93
4.3. Results and Analysis. 4.3. 結果と分析。 0.71
4.3.1 Image Captioning (IC) Similarity Measurements. 4.3.1 Image Captioning (IC) similarity Measurements 0.85
The results are reported in Table 1, where the top and bottom parts list various models which respectively deploy LSTM and Transformer as the backbones. 結果が表1で報告され、トップ部とボトム部はそれぞれLSTMとTransformerをバックボーンとしてデプロイするさまざまなモデルをリストアップしている。 0.72
In this table, B, M, R, C, and S denote BLEU [42], METEOR[6], ROUGE [33], CIDEr-D [66], and SPICE [2], respectively, which evaluate the similarities between the generated and the ground-truth captions. この表では、B, M, R, C, SはBLEU [42], METEOR[6], ROUGE [33], CIDEr-D [66], SPICE [2]をそれぞれ表し、生成した地殻キャプションと地殻キャプションの類似性を評価する。 0.66
Compared with two baselines BUTD and Transformer, we can find that BUTD+CATT and Transformer+CATT respectively achieve 3.0-point and 3.2-point improvements on CIDEr-D. More importantly, after incorporating our CATT modules into BUTD and Transformer, they have higher CIDEr-D scores than certain state-of-the-art captioners which deploy more complex techniques. BUTDとTransformerの2つのベースラインと比較すると,BUTD+CATTとTransformer+CATTはそれぞれ,CIDEr-Dの3.0ポイントと3.2ポイントの改善を実現していることがわかった。 0.64
For example, SGAE exploits scene graphs to transfer language inductive bias or M2Transformer learns multi-level visual relations though additional meshed memory networks. たとえば、SGAEはシーングラフを利用して言語インダクティブバイアスを転送したり、M2Transformerは追加のメッシュメモリネットワークを使用してマルチレベルのビジュアルリレーションを学びます。 0.58
These comparisons suggest that our CATT module is a more powerful technique compared with the techniques used in these stateof-the-art captioners. これらの比較から,cattモジュールは最先端のキャプション技術よりも強力な技術であることが示唆された。 0.63
Bias Measurements. We measured the bias degree of the generated captions in Table 2 to validate that whether our CATT module can alleviate the dataset bias or not. バイアス測定。 表2で生成されたキャプションのバイアス度を測定し,CATTモジュールがデータセットバイアスを軽減することができるかどうかを検証した。 0.69
In this table, CHs and CHi denote CHAIRs and CHAIRi [55], which are designed to measure the object bias. この表では、CHsとCHiは、対象バイアスを測定するように設計されたCHAIRsとCHAIRi [55]を表す。 0.67
Apart from them, we also analyze three more specific biases: gender bias, action bias, and attribute bias by calculating the accuracy of these words, which are denoted as A@Gen, A@Attr, それとは別に,a@gen,a@attrと表記される単語の正確性を計算することにより,性別バイアス,行動バイアス,属性バイアスの3つの特定のバイアスを解析した。 0.69
英語(論文から抽出)日本語訳スコア
to the hand region to generate the word “hand”. 手」という言葉を生成するために手領域に。 0.80
4.3.2 Visual Question Answering (VQA) The top and bottom parts of Table 3 respectively report the performances of various LSTM and Transformer based VQA models, where loc-val, test-dev, and test-std denote the offline local validation, online test-development, and online test-standard splits. 4.3.2 visual question answering (vqa) 表3の上層と下層はそれぞれ様々なlstmおよびtransformerベースのvqaモデルのパフォーマンスを報告している。loc-val、test-dev、test-stdはオフラインのローカル検証、オンラインテスト開発、オンラインテスト標準分割を表す。 0.64
From this table, we can observe that after deploying our CATT module into BUTD and Transformer, the accuracies are consistently improved. この表から、CATTモジュールをBUTDおよびTransformerにデプロイした後、精度が一貫して改善されることを観察できます。 0.65
More importantly, the deconfounded BUTD and Transformer outperform certain state-of-the-art models which are better than the original BUTD and Transformer. さらに重要なことは、BUTDとTransformerは、オリジナルのBUTDやTransformerよりも優れた、最先端のモデルよりも優れています。 0.59
Table 4 reports the accuracies of different question types on test-std split. 表4は、テストスタッド分割に関するさまざまな質問タイプの精度を報告します。 0.59
It can be found that the accuracy of number has the largest improvements after using CATT modules, i.e., 4.75-point and 2.75-point for BUTD and Transformer, respectively. 数値の精度はCATTモジュール、すなわちBUTDとTransformerでそれぞれ4.75点と2.75点を使用した後で最も改善されている。 0.70
Significantly, Transformer+CATT has a higher number accuracy than the large-scale pre-training model LXMERT: 53.45 vs. 52.63. トランスフォーマー+CATTは、大規模なプリトレーニングモデルLXMERT(53.45対52.63)よりも精度が高い。 0.60
As analyzed in [84], the counting ability depends heavily on the quality of the attention mechanism that a VQA model cannot correctly answer number questions without attending to all the queried objects. 84] で解析されたように, 計数能力は, vqaモデルではすべての問合せ対象に従わずに, 問題に正しく答えることができない注意機構の品質に大きく依存する。 0.81
Thus the consistent improvements in number support that our CATT modules can largely ameliorate the quality of the conventional attention mechanism. したがって、CATTモジュールが従来の注意メカニズムの品質を大幅に改善できるという、一貫した番号サポートの改善。 0.68
The second row of Figure 7 shows that after incorporating CATT, BUTD and Transformer based VQA models can attend to the right regions for answering the questions. 図7の第2列は、CATT、BUTD、TransformerベースのVQAモデルを組み込んだ後、質問に答えるために適切なリージョンに出席できることを示しています。
訳抜け防止モード: 図7の2番目の列は、 CATT、BUTDおよびTransformerベースのVQAモデルの導入 質問に答えるために 適切な地域へ 出席できます。
0.74
4.3.3 Vision-Language Pre-training (VLP) Table 5 shows the training burdens and the performances of various large-scale pre-training models on VQA2.0, GQA, and NLVR2. 4.3.3 Vision-Language Pre-Training (VLP) Table 5は、VQA2.0、GQA、NLVR2における様々な大規模事前トレーニングモデルの訓練負担と性能を示す。 0.67
Note that LXMERT† and LXMERT respectively denote the results got from the officially released code and from the published paper. LXMERT と LXMERT はそれぞれ、公式にリリースされたコードと公開された論文から得られた結果を示していることに注意してください。 0.55
For ERNIE-VIL [78] and UNITER [14], they both have a BASE version and a LARGE version where BASE (LARGE) uses 12 (16) heads and 768 (1024) hidden units in multi-head product operations. ERNIE-VIL [78] と UNITER [14] はどちらも、BASE (LARGE) が 12 (16) のヘッドと 768 (1024) の隠蔽ユニットをマルチヘッド製品運用に使用する BASE バージョンと LARGE バージョンを持っている。 0.90
We report the performances of their BASE versions since our model used 12 heads and 768 hidden units. モデルでは12ヘッドと768隠しユニットを使用しており、BASEバージョンのパフォーマンスを報告しています。 0.63
For NLVR2, we report the performances of UNITER with the same Pair setting as our model.2 From this table, we can see that compared with LXMERT†, our LXMERT†+CATT respectively achieves 0.86, 1.23, 1.6-point improvements on the test-std splits of VQA2.0 and GQA and the test-P split of NLVR2. NLVR2 では,我々のモデルと同一のペア設定による UNITER の性能を報告した。2 この表から,LXMERT と比較して,VQA2.0 と GQA の試行分割と NLVR2 のテスト-P 分割に対してそれぞれ 0.86, 1.23, 1.6 点の改善が達成されていることが分かる。 0.71
For example, compared with UNITER which uses fp16, our LXMERT†+CATT uses fewer GPU hours and the pre-training data, while we have higher performances on 2The details of NLVR2 setting can be found in Table 5 of UNITER [14]. 例えば、fp16を使用するUNITERと比較して、LXMERT+CATTはGPU時間と事前トレーニングデータが少ないが、2ではパフォーマンスが向上している NLVR2設定の詳細は、UNITERのテーブル5に記載されている [14]。 0.67
7 Figure 7. Six examples show that our CATT can correct different models to focus on the suitable regions. 7 図7。 6つの例は私達のCATTが適した地域に焦点を合わせるために異なったモデルを訂正できることを示します。 0.74
TF denotes Transformer. TF は Transformer を表す。 0.73
For BUTD, we show the region with the highest attention weight. BUTDでは、最も注目度の高い領域を示します。 0.61
For Transformer and VLP, the red region has the highest attention weight in top-down attention and the green region is the one most related to the red region in self-attention. トランスフォーマーおよびVLPの場合、赤色領域はトップダウンの注目度が最も高く、緑色領域は自己注目の赤色領域に最も関連しています。 0.66
Table 3. Accuracy of various VQA models on different splits. 表3。 異なる分割における様々なVQAモデルの精度。 0.77
test-std 65.67 66.38 66.62 67.26 69.82 70.34 70.90 71.20 71.27 test-std 65.67 66.38 66.62 67.26 69.82 70.34 70.90 71.20 71.27 0.42
Models BUTD [3] MUTAN [8] MLB [25] BUTD+CATT Transformer DFAF [17] MCAN [79] TRRNet [72] Transformer+CATT モデル BUTD [3] MUTAN [8] MLB [25] BUTD+CATT 変圧器 DFAF [17] MCAN [79] TRRNet [72] Transformer+CATT 0.97
test-dev 65.32 66.01 66.27 67.13 69.53 70.22 70.63 70.80 70.95 test-dev 65.32 66.01 66.27 67.13 69.53 70.22 70.63 70.80 70.95 0.42
loc-val 63.2065.07 65.12 66.29 66.21 67.2067.33 loc-val 63.2065.07 65.12 66.29 66.21 67.2067.33 0.36
Number 44.21 48.96+4.75 50.7 53.45+2.75 52.63 55.48+2.85 Number 44.21 48.96+4.75 50.7 53.45+2.75 52.63 55.48+2.85 0.29
Table 4. Accuracy of different question types on test-std split. 表4。 テストstd分割における異なる質問タイプの精度 0.79
Red numbers denote the improvements after using our CATT modules. 赤数字はCATTモジュールを使用した後の改善を表します。 0.68
Yes/No Other Models 81.82 BUTD 56.05 BUTD+CATT 83.42+1.6 57.3+1.25 86.25 Transformer 59.9 Transformer+CATT 87.40+1.15 61.3+1.4 LXMERT† 88.17 62.73 LXMERT+CATT 88.6+0.43 63.39+0.66 and A@Act, respectively. yes/No Other Models 81.82 BUTD 56.05 BUTD+CATT 83.42+1.6 57.3+1.25 86.25 Transformer 59.9 Transformer+CATT 87.40+1.15 61.3+1.4 LXMERT 88.17 62.73 LXMERT+CATT 88.6+0.43 63.39+0.66およびA@Act。 0.40
From the results, we can see that after incorporating our CATT module, both BUTD and Transformer generate less biased captions, e g , the accuracies of gender, attribute, and action are respectively improved by 10%, 9%, and 9% when CATT is used in Transformer. その結果、CATTモジュールを組み込んだ後、BUTDとTransformerの両方がバイアスの少ないキャプションを生成していることが分かります。例えば、TransformerでCATTが使用されると、性別、属性、アクションの精度がそれぞれ10%、9%、9%向上します。 0.68
The first row of Figure 7 shows two examples where BUTD and Transformer respectively attend to unsuitable regions and then generate incorrect captions, e g , BUTD attend to the remote region and infer the word “man” due to the dataset bias, while our CATT corrects this by attending 図7の最初の行は、BUTD と Transformer がそれぞれ不適当な領域に到達し、次に不適切なキャプション、例えば、BUTD がリモートの領域に到達し、データセットバイアスによって "man" という単語を推測する2つの例を示します。 0.70
IC:VQA:VLP:BUTD: a man holding a remoteCATT: a hand holding a remoteTF: a bird flying in the skyCATT: a bird sitting on the treeQ: What is gender of the players?BUTD: maleCATT: femaleQ: What is the girl doing?TF: playing frisbeeCATT: fallingQ: How many people are shown?LXMERT: twoCATT: threeQ: What is behind the hydrant?LXMERT: roadCATT: fence ic:vqa:vlp:butd: a man holding a remotecatt: a hand holding a remotetf: a bird flying in the skycatt: a bird sitting in the skycatt: what is gender of the players?butd: malecatt: femaleq: what are the girl doing?tf: playing frisbeecatt: fallingq: many people are shown? lxmert: twocatt: threeq: what is behind the hydrant?lxmert: roadcatt: fence
訳抜け防止モード: IC : VQA : VLP : BUTD : リモートCATTを握る男 : リモートTFを握る手 : 空を飛ぶ鳥CATT : 木の上に座っている鳥Q:何? 性別はプレイヤーの性別ですか? : maleCATT : femaleQ : 女の子は何をしていますか?TF : フリスビーキャットをプレイ : FallQ : 何人表示されますか?LXMERT : 2CATT : threeQ : 水和剤の背後にあるものは何ですか?
0.82
英語(論文から抽出)日本語訳スコア
test-std 72.54 72.18 72.85 72.91 72.92 73.04 73.63 test-std 72.54 72.18 72.85 72.91 72.92 73.04 73.63 0.42
test-std 60.30 59.9461.17 62.07 test-std 60.30 59.9461.17 62.07 0.39
- 960 (1080Ti), 624 (V100) 1536 (1080Ti), 1056 (V100) - 960(1080Ti)、624(V100)1536(1080Ti )、1056(V100) 0.89
Training Burdens VQA2.0 バーデンの訓練 VQA2.0 0.53
GQA test-dev 60.00 59.9060.48 60.84 61.87 GQA test-dev 60.00 59.9060.48 60.84 61.87 0.62
Table 6. The performances of various CATT ablation studies on the local validation sets. 表6。 ローカルバリデーションセットに関する様々なCATTアブレーション研究のパフォーマンス。 0.71
IC denotes Image Captioning and we report the CIDEr-D score of these IC methods. ICは画像キャプションを示し,これらのIC手法のCIDEr-Dスコアを報告する。 0.65
For the other tasks, we report their accuracies. 他のタスクについては、その精度を報告します。 0.49
The left and right parts respectively show the ablation studies of the Transformer and LXMERT architectures. 左右の部分はそれぞれトランスフォーマーとLXMERTアーキテクチャのアブレーション研究を示しています。 0.67
LXMERT GQA NLVR2 59.82 74.80 60.14 75.22 60.41 75.78 75.94 60.62 76.26 60.77 60.90 76.40 LXMERT GQA NLVR2 59.82 74.80 60.14 75.22 60.41 75.78 75.94 60.62 76.26 60.90 76.40 0.49
Transformer VQA IC 128.5 66.29 129.8 66.56 130.6 66.94 67.02 131.1 67.21 131.4 131.7 67.33 トランスフォーマーVQA IC 128.5 66.29 129.8 66.56 130.6 66.94 67.02 131.1 67.21 131.4 131.7 67.33 0.43
VQA 69.52 69.81 70.05 70.12 70.29 70.40 VQA 69.52 69.81 70.05 70.12 70.29 70.40 0.47
GPU Hours 960 (titan xp) 816 (1080Ti) 882 (V100) 960 (V100) GPU Hours 960 (Titan xp) 816 (1080Ti) 882 (V100) 960 (V100) 0.97
Image / Text test-dev 0.18M / 9.18M 72.42 0.18M / 9.18M 71.96 4.20M / 9.58M 72.62 4.20M / 9.58M 72.80 5.40M / 7.48M0.18M / 9.18M 72.81 0.18M / 9.18M 73.54 Image / Text test-dev 0.18M / 9.18M 72.42 0.18M / 9.18M 71.96 4.20M / 9.58M 72.62 4.20M / 9.58M 72.80 5.40M / 7.48M0.18M / 9.18M 72.81 0.18M / 9.18M 73.54 0.41
Table 5. Training burdens and performances of different large-scale vision-language pre-training models. テーブル5。 異なる大規模視覚言語前訓練モデルのトレーニング負担とパフォーマンス。 0.78
“M” denotes million. m」は百万を意味する。 0.67
NLVR2 (Pair) Models test-P loc-val LXMERT [61] 74.9 74.5 LXMERT† [61] 74.8 74.4 ERNIE-VIL [78]UNITER [14] 75.80 75.8512IN1 [36] LXMERT†+CATT 76.00 76.40 LXMERT†+CATT↑ 77.27 77.23 VQA2.0: 73.04 vs. 72.91, and NLVR2: 76.0 vs. 75.80. NLVR2 (ペア) Models test-P loc-val LXMERT [61] 74.9 74.5 LXMERT [61] 74.8 74.4 ERNIE-VIL [78]UNITER [14] 75.80 75.8512IN1 [36] LXMERT 76.00 76.40 LXMERT 76.40 LXMERT 76.27 77.23 VQA2.0: 73.04 vs.72.91, NLVR2: 76.0 vs. 75.80。 0.58
Furthermore, inspired by UNITER [14], we enhanced our model and named this one as LXMERT+CATT↑ by using conditional masking and more RoI features. さらに, UNITER [14] に触発されて, モデルを拡張し, 条件付きマスキングとRoI機能によりLXMERT+CATT!と命名した。 0.64
Specifically, we extracted 64 RoI features from each image to guarantee that our model can be trained on 4 1080 Ti GPUs. 具体的には、各画像から64のRoI機能を抽出し、モデルが4 1080 Ti GPUでトレーニングできることを保証します。 0.75
It can be found that after using two insights from UNITER, our LXMERT+CATT↑ can achieve higher performances than UNITER, even though we do not extract 100 RoI features for each image as them. UNITERの2つの知見を用いて、各画像に対して100のRoI機能を抽出していないにも関わらず、我々のLXMERT+CATTは、UNITERよりも高い性能を達成できることが分かる。
訳抜け防止モード: UNITERから2つの洞察を得た後、それが分かる。 LXMERT+CATT は UNITER よりも高いパフォーマンスを実現できますが 画像ごとに100のRoI機能を抽出しません。
0.76
These comparisons suggest that our CATT has great potential in large-scale VLP. これらの比較により、CATTは大規模VLPに大きな可能性を秘めています。 0.56
Also, as shown in Table 4, after incorporating CATT into LXMERT, we can observe that the accuracy of Number is further improved: 55.48 vs. 52.63, which suggests that our CATT improves the quality of the attention modules in VLP models. また、表4に示すように、cattをlxmertに組み込んだ後、数字の精度がさらに向上しているのが観察できる: 55.48対52.63 これは、cattがvlpモデルのアテンションモジュールの品質を改善していることを示唆している。
訳抜け防止モード: また、表4に示すように、CATTをLXMERTに組み込んだ後である。 観察できます 数値の精度がさらに向上する 55.48対52.63。 我々のCATTはVLPモデルのアテンションモジュールの品質を向上させることを示唆している。
0.69
The third row of Figure 7 shows two examples where CATT modules correct LXMERT to focus on the right regions for answering the questions. 図7の3行目は、CATTモジュールがLXMERTを正しい領域に集中して質問に答える2つの例を示している。 0.66
4.4. Ablation Studies We carried exhaustive ablation studies to validate three variants of our causal attention module: K-means initialization, dictionary size, parameter sharing. 4.4. アブレーション研究は,k-means初期化,辞書サイズ,パラメータ共有という3つの因果的注意モジュールの変種を検証するために,徹底的なアブレーション研究を行った。 0.63
In particular, we deployed these ablation studies in Transformer+CATT and LXMERT+CATT architectures. 特に、これらのアブレーション研究をTransformer+CATTおよびLXMERT+CATTアーキテクチャに展開しました。 0.55
Comparing Methods. Base: We denote the original Transformer and LXMERT architectures as Base. 比較方法。 Base: 最初のTransformerとLXMERTアーキテクチャをBaseと表現します。 0.71
CATT w/o Init: We use CATT to denote the architectures which deploy the CATT modules as in Section 3.3. CATT w/o Init: セクション3.3のようにCATTモジュールをデプロイするアーキテクチャを表すためにCATTを使用します。 0.75
We did not use the K-means algorithm to initialize the global dictionaries but randomly initialized them. 我々はK平均アルゴリズムをグローバル辞書の初期化に使用せず、ランダムに初期化する。 0.69
We shared the parameters between IS-ATT and CS-ATT in these models. これらのモデルではIS-ATTとCS-ATTのパラメータを共有した。 0.57
CATT w/o Share: We did not share the parameters between IS-ATT and CS-ATT. CATT w/o Share: IS-ATTとCS-ATTのパラメータは共有していません。 0.68
Here we used the K-means algorithm to initialize the dictionaries. ここでは、辞書の初期化にK-meansアルゴリズムを用いた。 0.67
CATT+D#K: We set the size of the global image and word embedding dictionaries to K by the K-means algorithm and shared the parameters between ISATT and CS-ATT. CATT+D#K: K-meansアルゴリズムによりグローバル画像と単語埋め込み辞書のサイズをKに設定し,ISATTとCS-ATTのパラメータを共有した。 0.82
Results and Analysis. Table 6 reports the performances of the ablation studies on the local validation sets of different tasks. 結果と分析。 表6は、異なるタスクの局所検証セットに関するアブレーション研究のパフォーマンスを報告する。 0.75
Firstly, we can observe that after using our CATT architecture, even without K-means initialization or parameter sharing, the performances are better than Base models. まず、CATTアーキテクチャを使用した後、K平均初期化やパラメータ共有がなくても、性能がベースモデルより優れていることが観察できる。 0.67
Also, we can observe that both K-means initial- また、k-means のイニシャルも観察できる。 0.65
Models Base CATT w/o Init CATT w/o Share CATT+D#100 CATT+D#200 CATT+D#500 ization and parameter sharing are useful for improving the performances. モデルベース CATT w/o Init CATT w/o Share CATT+D#100 CATT+D#200 CATT+D#500 化とパラメータ共有は性能向上に有用である。 0.80
For example, in LXMERT+CATT, after using K-means and sharing the parameters, the performances of VQA are respectively boosted: 70.40 vs. 69.81 and 70.40 vs. 70.05. 例えば、LXMERT+CATTでは、K平均を用いてパラメータを共有すると、VQAはそれぞれ70.40対69.81と70.40対70.05である。 0.66
Such observation suggests that both strategies encourage the estimated IS-Sampling and CS-Sampling to stay in the same representation space, which is indeed beneficial in improving the performances. このような観察は、両方の戦略が推定IS-サンプリングとCS-サンプリングを同じ表現空間にとどまるように奨励することを示唆しています。 0.70
Also, by comparing the performances with different dictionary sizes, we can find that bigger dictionaries have better performances. また、異なる辞書サイズのパフォーマンスを比較することで、より大きな辞書の方がパフォーマンスが良いことが分かる。 0.76
5. Conclusion In this paper, we exploited the causal inference to analyze why the attention mechanism is easily misled by the dataset bias and then attend to unsuitable regions. 5. 結論本論文では,注意メカニズムがデータセットバイアスによって容易に誤解される理由を解析し,不適切な領域に出席する因果推論を応用した。 0.79
We discovered that the attention mechanism is an improper approximation of the front-door adjustment and thus fails to capture the true causal effect between the input and target. その結果,注意機構は正面調整の不適切な近似であり,入力と目標の間の真の因果効果を捉えることができないことがわかった。 0.77
Then a novel attention mechanism: causal attention (CATT) was proposed based on the front-door adjustment, which can improve the quality of the attention mechanism by alleviating the ever-elusive confounding effect. 新たな注意メカニズムが提案された: 因果的注意(CATT)は、正面ドアの調整に基づいて提案され、常に緩和された結束効果を緩和することにより、注意メカニズムの品質を向上させることができる。
訳抜け防止モード: そして,新しい注意機構 : 前ドア調整に基づく因果的注意(catt)の提案を行った。 常に解明され続ける効果を和らげることで、アテンションメカニズムの質を向上させることができる。
0.67
Specifically, CATT contains In-Sample and Cross-Sample attentions to estimate In-Sample and Cross-Sample samplings in the front-door adjustment and both of two attention networks abide by the Q-K-V operations. 特に,CATTは,Q-K-V操作に係わる2つの注意ネットワークのうち,前ドア調整におけるインサンプルとクロスサンプルのサンプリングを推定するために,インサンプルとクロスサンプルの注意を含む。 0.60
We implemented CATT into various popular attention-based vision-language models and the experimental results demonstrate that it can improve these models by considerable margins. 我々はCATTを様々な注目度に基づく視覚言語モデルに実装し,実験結果から,これらのモデルをかなりのマージンで改善できることが示されている。 0.66
In particular, CATT can promote a light VLP model comparable to a heavy one, which demonstrates its great potential in largescale pre-training. 特に、CATTは重いVLPモデルに匹敵する軽量なVLPモデルを推進でき、大規模な事前学習においてその大きな可能性を示す。 0.56
8 8 0.85
英語(論文から抽出)日本語訳スコア
Figure 8. Two Structural Causal Models which are (a) a backdoor model and (b) a front-door model. 図8。 a)バックドアモデルと(b)フロントドアモデルである2つの構造因果モデル。 0.76
This supplementary document will further detail the following aspects in the submitted manuscript: A. Causal Preliminaries, B. 本補足文書は,提出された原稿において,次の点をさらに詳述する: a.causal preliminaries, b。 0.66
Formula Derivations, C. More results D. Implementation Details. 公式導出, C. さらなる結果 D. 実装の詳細 0.79
6. Causal Preliminaries 6.1. 6. 因果前科6.1。 0.72
Structural Causal Model In Causality [46, 47], a Structural Causal Model (SCM) is used to describe the causal relationships. 構造因果モデル [46, 47] では、因果関係を記述するために構造因果モデル (Structure Causal Model, SCM) を用いる。 0.82
Such a graph connects different variables by directed edges which denote the causal directions. そのようなグラフは、因果方向を表す有向エッジによって異なる変数を接続する。 0.67
For example, as shown in Figure 8(a), X → Y denotes that X is the cause of Y . 例えば、図8(a)に示すように、X → Y は X が Y の原因であることを意味する。 0.82
In an SCM, if a variable is the common cause of two variables, it is called the confounder. scmでは、変数が2つの変数の共通の原因である場合、それは共起者(confounder)と呼ばれる。
訳抜け防止モード: SCM の場合。 変数は2つの変数の共通の原因です。 それは共同設立者と呼ばれます。
0.80
For example, C is the cause of both X and Y , thus it is a confounder which will induce spurious correlation between X and Y to disturb the recognition of the causal effect between them. 例えば、CはXとYの両方の原因であるため、XとYの間の散発的な相関を引き起こし、それら間の因果効果の認識を妨害する共創者です。 0.78
In particular, such spurious correlation is brought by the backdoor path created by the confounder. 特に、このようなスプリアス相関は、共同設立者が作成したバックドアパスによってもたらされる。 0.51
Formally, a backdoor path between X and Y is defined as any path from X to Y that starts with an arrow pointing into X. 形式的には、X と Y の間のバックドアパスは、X を指す矢印で始まる X から Y への任意のパスとして定義される。 0.75
For example, in Figure 8(a), the path X ← C → Y is a backdoor path. 例えば、図8(a) において、経路 X > C → Y はバックドアパスである。 0.77
Here we use another two examples for helping understand this concept, as in Figure 8(b), X ← C → Y ← Z and Z ← X ← C → Y are two backdoor paths between X and Z and Z and Y , respectively. ここでは、図8(b) に示すように、この概念を理解するのに役立つ別の2つの例を用いており、X > C → Y > Z と Z > X > C → Y は、それぞれ X と Z と Z と Y の間のバックドアパスである。 0.73
In an SCM, if we want to deconfound two variables X and Y to calculate the true causal effect, we should block every backdoor path between them [47]. scmでは、2つの変数 x と y を分離して真の因果効果を計算する場合は、それらの間のすべてのバックドアパスをブロックする必要があります [47]。 0.70
For example, in Figure 8(a), we should block X ← C → Y to get the causal effect between X and Y . 例えば、図8(a)では、XとYの間の因果効果を得るために、X → C → Yをブロックする必要があります。 0.77
6.2. Blocking Three Junctions In an SCM, there are three elemental “junctions” which construct the whole graph and we have some basic rules to block them. 6.2. 3つのジャンクションをブロックする SCMには、グラフ全体を構成する3つの要素的"ジャンクション"があり、それらをブロックするための基本的なルールがあります。
訳抜け防止モード: 6.2. scmで3つの接合をブロックし グラフ全体を構成する3つの要素 "ジャンクション" が存在する それらをブロックする基本的なルールがあります
0.75
In particular, three junctions are given as follows: 1. 特に3つの接合は次のとおりである。 0.65
X → Z → Y . X → Z → Y 。 0.79
This is called chain junction, which constructs a front-door path between X and Y , as shown in Figure 8(b). これはチェーンジャンクションと呼ばれ、図8(b)に示すように、X と Y の間の玄関通路を構成する。 0.78
In this junction, once we know the value of the mediator Z, learning about X will not give us any information to raise or lower our belief about Y . このジャンクションでは、メディエーターZの値を知ると、Xについて学ぶことは、Yについての信念を上昇または低下させるいかなる情報も与えません。 0.70
Thus, if we したがって、我々 なら。 0.66
9 know what Z is or directly intervene it as a specific value, we block this chain junction. 9 Zが何であるかを知るか、または特定の値として直接介入するか、このチェーンジャンクションをブロックします。 0.71
2. X ← C → Y . 2. X は C → Y である。 0.80
This is called confounding junction which induces spurious correlation between X and Y , as shown in Figure 8(a). これは、図8(a)に示すように、X と Y の間の急な相関を誘導する共起接合と呼ばれる。 0.70
In this junction, once we know what the value of C is or directly intervene it to a specific value, there is no spurious correlation between X and Y and thus we block this junction. このジャンクションでは、Cの値が何であるか、または直接特定の値に干渉するかを知ると、XとYの間にスプリアス相関がないため、このジャンクションをブロックします。 0.73
3. Z → Y ← C. This is called “collider” which works in an exactly opposite way from the above chain and confounding junctions. 3. これは「コリダー(collider)」と呼ばれ、上述の鎖と連結した接合とは全く反対の方向に作用する。 0.75
Once we know what the value of Y is, Z and C are correlated. Y の値が何であるかが分かると、Z と C は相関する。 0.81
However, if we do not know what Y is or do not intervene it, Z and C are independent and this junction is naturally blocked. しかし、もし Y が何であるかがわからなければ、Z と C は独立であり、この接合は自然にブロックされる。 0.72
To sum up, if we want to block a path between two variables, we should intervene the middle variables in the chain and confounding junctions and should not intervene in the collider junction. まとめると、2つの変数間の経路をブロックしたい場合は、チェーン内の中間変数を介入し、ジャンクションを結合し、衝突器ジャンクションに干渉してはならない。 0.73
To block a long path, we only need to block a junction of it, e g , for X ← C → Y ← Z in Figure 8(b), we can block X ← C → Y by intervening C or block C → Y ← Z by not intervening Y . 長い経路を塞ぐためには、図 8(b) の X と C → Y と Z の接合をブロックする(例えば、図 8(b) のとき、X と C → Y をインターベントしたり、Y を介さずに C → Y と Z をブロックする)必要がある。 0.74
6.3. The Backdoor Adjustment The backdoor adjustment is the simplest formula to eliminate the spurious correlation by approximating the “physical intervention”. 6.3. バックドア調整 バックドア調整は「物理的介入」を近似することでスプリアス相関を排除する最も単純な公式である。 0.72
Formally, it calculates the average causal effect of one variable on another at each stratum of the confounder. 形式的には、共同創設者の各層における1つの変数の平均因果効果を計算する。 0.71
For example, in Figure 8(a), we can calculate the causal effect of X on Y as P (Y |do(X)): P (Y |do(X)) = (9) where do(·) signifies that we are dealing with an active intervention rather than a passive observation. 例えば、図8(a)では、Y 上の X の因果効果を P (Y |do(X)) = (9) として計算することができる: P (Y |do(X)) = (9) ここで do(·) は、受動的観察ではなく、アクティブな介入を扱うことを意味する。 0.84
The role of Eq. (9) is to guarantee that in each stratum c, X is not affected by C and thus the causal effect can be estimated stratum by stratum from the data. Eqの役割。 (9) は、各層 c において x が c に影響されないことを保証するため、そのデータから層によって因果効果を推定することができる。 0.70
6.4. The Front-door Adjustment From Eq (9), we find that to use the backdoor adjustment, we need to know the details of the confounder for splitting it into various strata. 6.4. Eq(9)のフロントドア調整では、バックドア調整を使用するには、さまざまな層に分割するための共同創業者の詳細を知る必要があります。 0.70
However, in our case, we have no idea about what constructs the hidden confounders in the dataset, thus we are unable to deploy the backdoor adjustment. しかし、私たちの場合、データセットに隠れた共同創設者が何を構築するのかは分かりませんので、バックドアの調整をデプロイできません。 0.67
Fortunately, the front-door adjustment [43] does not require any knowledge on the confounder and can also calculate the causal effect between X and Y in a front-door SCM as in Figure 8(b). 幸いなことに、フロントドア調整[43]は、創始者の知識を必要としず、図8(b)のようにフロントドアSCMでXとYの間の因果効果を計算することもできます。 0.63
In Section 3.1 of the submitted manuscript, we have shown the derivation of the front-door adjustment from the attention mechanism perspective. 提出された原稿第3.1節では,注意機構の観点からフロントドア調整の導出を示す。 0.74
Here we demonstrate a more formally derivation. ここでは、より正式な導出を示す。 0.65
The front-door adjustment calculates P (Y |do(X)) in the front-door X → Z → Y by chaining together two partially causal effects P (Z|do(X)) フロントドア調整は、2つの部分因果効果 P(Z|do(X)) を連結することにより、フロントドアX → Z → Y における P(Y |do(X)) を計算する。
訳抜け防止モード: 前-ドア調整は、前-ドアX → Z → Y で P ( Y |do(X ) ) を計算する 2つの部分因果効果P(Z|do(X))の連鎖
0.82
P (Y |X, C = c)P (C = c), P (Y |X, C = c)P (C = c) 0.84
(cid:88) c (cid:88) c 0.82
XYCXYCXYCZXYCZ(a) Backdoor Model(b) Front-door Model XYCXYCXYCZXYCZ(a)バックドアモデル(b)フロントドアモデル 0.87
英語(論文から抽出)日本語訳スコア
z x P (Z = z|X) z x P (Z = z|X) 0.87
(cid:88) and P (Y |do(Z)): P (Y |do(X)) = P (Z = z|do(X))P (Y |do(Z = z)). (cid:88) と P (Y |do(Z)): P (Y |do(X)) = P (Z = z|do(X))P (Y |do(Z = z))。 0.97
(10) To calculate P (Z = z|do(X)), we should block the backdoor path X ← C → Y ← Z between X and Z. (10) P (Z = z|do(X)) を計算するには、X と Z の間のバックドアパス X ・ C → Y ・ Z をブロックすべきである。 0.81
As we discussed in Section 6.2 that a collider junction is naturally blocked and here C → Y ← Z is a collider, thus this path is already blocked and we have: P (Z = z|do(X)) = P (Z = z|X). 第6.2節で述べたように、衝突器接合は自然にブロックされ、ここで c → y, z は衝突器であるため、この経路は既にブロックされており、p (z = z|do(x)) = p (z = z|x) である。 0.71
(11) For P (Y |do(Z)), we need to block the backdoor path Z ← X ← C → Y between Z and Y . (11) P (Y |do(Z)) に対して、Z と Y の間のバックドアパス Z をブロックする必要がある。 0.71
Since we do not know the details about the confounder C, we can not use Eq (9) (cid:88) to deconfound C. Thus we have to block this path by intervening X: P (Y |Z = z, X = x)P (X = x). 共著者Cについての詳細がわからないため、Eq (9) (cid:88) を使用してCを分離することはできません。したがって、X:P (Y |Z = z, X = x)P (X = x)を介在させることで、このパスをブロックする必要があります。 0.74
P (Y |do(Z = z)) = (12) At last, by bringing Eq (11) and (12) into Eq (10), we have: (cid:88) (cid:88) P (Y |do(X)) P (X = x)[P (Y |Z = z, X = x)], = x z (13) which is the front-door adjustment given in Eq (3) of the submitted manuscript. P (Y |do(Z = z)) = (12) 最後に、Eq (11) と (12) を Eq (10) に持ち込むと、次のようになる: (cid:88) (cid:88) P (Y |do(X)) P (X = x)[P (Y |Z = z, X = x)], = x z (13) これは、提出された原稿の Eq (3) で与えられるフロントドア調整である。 0.89
7. Formula Derivations Here we show how to use Normalized Weighted Geometric Mean (NWGM) approximation [71, 58] to absorb the sampling into the network for deriving Eq (5) in the submitted manuscript. 7. 正規化重み付き測度(NWGM)近似 [71, 58] を使用して、提出された原稿で Eq (5) を導出するためのネットワークへのサンプリングを吸収する方法を紹介します。 0.82
Before introducing NWGM, we first (cid:88) revisit the calculation of a function y(x)’s expectation according to the distribution P (x): (14) y(x)P (x), x which is the weighted arithmetic mean of y(x) with P (x) as the weights. nwgmを導入する前に、まず (cid:88) 分布 p(x) に従って y(x) の期待値の計算を再検討する: (14) y(x)p(x), x は、p(x) を重みとして y(x) の重み付き算術平均である。 0.79
(cid:89) Correspondingly, the weighted geometric mean (WGM) of y(x) with P (x) as the weights is: x (cid:89) y(x)P (x) x (cid:89) y(x) と P(x) の重み付き幾何学平均 (WGM) は、重みとして x (cid:89) y(x)P (x)x である。 0.87
(15) WGM(y(x)) = where the weights P (x) are put into the exponential terms. (15) WGM(y(x)) = ここで、重みP(x)は指数項に入れられる。 0.73
(cid:89) If y(x) is an exponential function that y(x) = exp[g(x)], we have: (cid:89) WGM(y(x)) = (cid:88) x exp[g(x)]P (x) = exp[g(x)P (x)] = x g(x)P (x)] = exp{Ex[g(x)]}, = exp[ x where the expectation Ex is absorbed into the exponential term. (cid:89) y(x) が y(x) = exp[g(x)] の指数関数であれば、(cid:89) WGM(y(x)) = (cid:88) x exp[g(x)]P(x) = exp[g(x)P(x)] = x g(x)P(x)] = exp{Ex[g(x)]}, = exp[x] ここで期待Exは指数項に吸収される。 0.79
Based on this observation, researchers approximate the expectation of a function as the WGM of this function in the deep network whose last layer is a Softmax layer [71, この観測に基づいて、研究者は、最後の層がSoftmax層[71]であるディープネットワーク内のこの関数のWGMとしての関数の期待を推定します。 0.80
Ex[y(x)] = Ex[y(x)] です。 0.78
y(x)P (x), (16) y(x)P(x)。 (16) 0.81
58]: P (Z = z|X) 58]: P (Z = z|X) 0.78
P (X = x)[P (Y |Z = z, X = x)] P (X = x)[P (Y |Z = z, X = x)] 0.81
Ex[y(x)] ≈ WGM(y(x)) = exp{Ex[g(x)]}, (17) where y(x) = exp[g(x)]. Ex[y(x)] は WGM(y(x)) = exp{Ex[g(x)]}, (17) ここで y(x) = exp[g(x)] である。 0.78
In our case, we treat P (Y |X, Z) (Eq. この場合、P (Y |X, Z) (Eq) を扱う。 0.67
(3) of the submitted manuscript) as a predictive function and parameterize it by a network with a Softmax layer as the last layer: P (Y |X, Z) = Softmax[g(X, Z)] ∝ exp[g(X, Z)]. 提出された原稿の(3))は予測関数として、最後の層としてソフトマックス層を持つネットワークによってパラメータ化される: p (y |x, z) = softmax[g(x, z)] ] exp[g(x, z)]。
訳抜け防止モード: (3) 予測機能として提出された写本 そして、それを最後の層としてソフトマックス層を持つネットワークでパラメータ化する: P ( Y | X, Z ) = Softmax[g(X, X)] Z ) ] > exp[g(X , Z ) ]
0.91
(18) Following Eq (3) of the manuscript and Eq (17), we (cid:88) (cid:88) have: P (Y |do(X)) = x z =E[Z|X]E[X][P (Y |Z, X)] ≈ WGM(P (Y |Z, X)) ≈ exp{[g(E[Z|X][Z], E[X][X])]}. 18) 原稿の Eq (3) と Eq (17) に続いて、 (cid:88) (cid:88) は P (Y |do(X)) = x z = E[Z|X]E[X][P (Y |Z, X)] は WGM(P (Y |Z, X))) は exp{[g(E[Z|X][Z], E[X]]]]} である。 0.82
(19) Note that, as in Eq (18), P (Y |Z, X) is only proportional to exp[g(Z, X)] instead of strictly equalling to, we only have WGM(P (Y |Z, X)) ≈ exp{[g(E[Z|X][Z], E[X][X])]} in Eq (19) instead of equalling to. (19) は、eq (18) において p (y |z, x) は厳密に等化ではなく exp[g(z, x)] に比例するだけであることに注意し、wgm(p(y |z, x)) ) exp{[g(e[z|x][z], e[x][x]]} を等化ではなく eq (19) にしか持たないことに注意する。
訳抜け防止モード: (19)Eq(18)のように注意。 P ( Y | Z, X ) は exp[g(Z) にのみ比例する。 X ) ] を厳密に等しくするのではなく、WGM(P ( Y |Z, X ) ) > exp{[g(E[Z|X][Z ]) しか持たない。 Eq (19 ) における E[X][X ] ) ] } は . に等しくない。
0.83
Furthermore, to guarantee the sum of P (Y |do(X)) to be 1, we use a Softmax layer to normalize these exponential units: P (Y |do(X)) ≈ Softmax(g(E[Z|X][Z], E[X][X])), (20) where the first part E[Z|X][Z] is In-Sample Sampling (ISSampling) and the second part E[X][X] is CS-Sample Sampling (CS-Sampling). さらに、P (Y |do(X)) の和を 1 であることを保証するために、これらの指数単位を正規化するために Softmax 層を使用する: P (Y |do(X)) × Softmax(g(E[Z|X][Z], E[X][X])), (20) ここで、最初の部分 E[Z|X][Z] は In-Sampling (ISSampling) であり、第二部分 E[X][X] は CS-Sample Sampling (CS-Sampling) である。 0.89
Since the Softmax layer normalizes these exponential terms, this is called the normalized weighted geometric mean (NWGM) approximation. Softmax層はこの指数項を正規化するため、正規化重み付き幾何学平均(NWGM)近似と呼ばれる。 0.79
In a network, the variables X and Z are represented by the embedding vectors and thus we use x and z to denote them. ネットワークでは、変数 x と z は埋め込みベクトルによって表現されるので、x と z を使ってそれらを表す。 0.82
Following the convention in attention research where the attended vectors are usually represented in the matrix form, we also pack the estimated IS-Sampling and CS-Sampling vectors to ˆX, ˆZ. 出席したベクトルが行列形式で表現される注意研究の慣例に続いて、推定されるIS-SamplingおよびCS-Samplingベクターも、AX、AZにパックする。 0.72
In this way, we have: P (Y |do(X)) ≈ Softmax[g( ˆZ, ˆX)], このようにして P (Y |do(X)) ^ Softmax[g( sZ, sX)], 0.58
(21) which is given in Eq (5) of the submitted manuscript. (21) 提出された写本のEq (5)に記載されている。 0.81
To estimate ˆZ, researchers usually calculate a query set from X: QI = h(X) and use it in the Q-K-V operation. Z を推定するために、研究者は通常、X から QI = h(X) を計算し、Q-K-V 演算で使用する。 0.78
Similarly, to estimate ˆX, we can also calculate a query set as: QC = f (X) and use it in the Q-K-V operation. 同様に、X を推定するために、QC = f (X) というクエリ集合を計算し、Q-K-V 演算で使用することもできる。 0.76
In this way, we have Eq (5) in the submitted manuscript: P (Y |do(X)) ≈ Softmax[g( ˆZ, ˆX)], IS-Sampling: CS-Sampling: Note that although P (X) in CS-Sampling does not condition on any variable, we still require a query in Q-K-V opˆx = (cid:80) eration, since without a query, the estimated result will degrade into a fixed single vector for each different input X: x P (x)x, where P (x) is the prior probability. このようにして、提出された原稿には eq (5) がある: p (y |do(x)) , softmax[g(\z, \x)], is-sampling: cs-sampling: cs-sampling: cs-samplingの p (x) は任意の変数の条件を満たしていないが、q-k-v op\x = (cid:80) eration のクエリが必要である。
訳抜け防止モード: このようにして、提出された写本に Eq (5 ) があります: P ( Y |do(X ) ) ) ・ Softmax[g ( ・Z ・ ・ X ) ], IS - Sampling : CS - Sampling : 注意してください。 P ( X ) in CS - サンプリングは任意の変数に条件を付けません。 我々はまだQ - K - Vオプシス = ( cid:80 ) erationでクエリを必要とします。 クエリがなければ、推定結果は各異なる入力 X : x P (x)x に対して固定された単一ベクトルに分解される。 ここで P (x ) は先行確率である。
0.74
We can also treat it as the strategy to increase the representation power of the whole model. また、モデル全体の表現力を増大させる戦略として扱うこともできる。 0.72
P (Z = z|h(X))z, P (X = x|f (X))x. P (Z = z|h(X))z, P (X = x|f(X))x。 0.99
(cid:88) (cid:88) z x (cid:88) (cid:88) z x 0.81
ˆZ = ˆX = よって、Z は Z である。 0.41
(22) 10 (22) 10 0.85
英語(論文から抽出)日本語訳スコア
M R-L C-D c40 72.4 73.1 73.1 73.1 72.9 72.8 73.3 73.9 M R-L C-D c40 72.4 73.1 73.1 73.1 72.9 72.8 73.3 73.9 0.62
c5 57.1 58.2 58.2 58.2 58.3 57.9 58.3 58.7 c5 57.1 58.2 58.2 58.2 58.3 57.9 58.3 58.7 0.44
c5 27.6 28.1 28.2 28.1 28.1 28.3 28.7 28.9 c5 27.6 28.1 28.2 28.1 28.1 28.3 28.7 28.9 0.44
c40 36.7 37.0 37.2 37.0 36.9 37.2 37.7 38.2 c40 36.7 37.0 37.2 37.0 36.9 37.2 37.7 38.2 0.44
c5 117.9 121.6 122.9 122.7 123.0 124.0 124.1 126.3 c5 117.9 121.6 122.9 122.7 123.0 124.0 124.1 126.3 0.44
c40 120.5 123.8 125.1 125.5 125.3 126.2 126.7 128.8 c40 120.5 123.8 125.1 125.5 125.3 126.2 126.7 128.8 0.44
Table 7. The performances of various single models on the online MS-COCO test server. 表7。 オンラインMS-COCOテストサーバー上のさまざまなシングルモデルのパフォーマンス。 0.80
Model B@4 c5 Metric c40 BUTD [3] 36.9 68.5 CAVP [34] 37.9 69.0 RFNet [23] 38.0 69.2 SGAE [73] 37.8 68.7 CNM [74] 37.9 68.4 AoANet† [21] 68.1 37.3 Transformer 69.2 37.9 Transformer+CATT 38.8 70.6 8. Model B@4 c5 Metric c40 BUTD [3] 36.9 68.5 CAVP [34] 37.9 69.0 RFNet [23] 38.0 69.2 SGAE [73] 37.8 68.7 CNM [74] 37.9 68.4 AoANet [21] 68.1 37.3 Transformer 69.2 37.9 Transformer+CATT 38.8 70.6 8 0.69
More Results 8.1. Online Captioning Test We report the performances of the MS COCO online split in Table 7. 結果8.1。 オンラインキャプションテスト 表7のMS COCOオンライン分割のパフォーマンスを報告します。 0.74
It can be found that our single Transformer+CATT can achieve higher performances than the other state-of-the-art models on this split. 我々のシングルトランスフォーマー+CATTは、この分割による他の最先端モデルよりも高いパフォーマンスを達成することができる。 0.67
8.2. More Qualitative Examples Figure 9 shows more qualitative examples where our CATT helps different models confront the dataset biases. 8.2. より定性的な例 図9は、CATTがデータセットバイアスに直面するさまざまなモデルを支援する、より定性的な例を示しています。 0.64
The first two rows show six examples of image captioning and the last two rows show the examples of VQA. 最初の2行は画像キャプションの例が6つ、最後の2行はVQAの例である。 0.71
For example, in the left example of the first row, after incorporating the CATT module, BUTD [3] generates correctly gender of the person without using the spurious correlation between “woman” with “kitchen” in the dataset. 例えば、最初の行の左の例では、cattモジュールを組み込んだ後、butd [3]はデータセット内の“woman”と“kitchen”のスプリアスな相関を使わずに、人の正確な性別を生成します。 0.77
9. Implementation Details BUTD + CATT. 9. 実装の詳細 BUTD + CATT。 0.83
We deployed this architecture for addressing IC and VQA. ICとVQAに対処するためにこのアーキテクチャを展開しました。 0.53
In the original BUTD architecture, they only used one attention module and thus we also used one causal attention module as in Figure 4. 元々のBUTDアーキテクチャでは、1つの注意モジュールしか使用せず、図4のように1つの注意モジュールも使用していました。 0.67
In this architecture, we set IS-ATT the same as the attention module in BUTD where the probability in Eq (6) is calculated as: このアーキテクチャでは、BUTD の注意モジュールと同じ IS-ATT を設定し、Eq (6) の確率を次のように計算します。 0.76
an = wT (Wkkn + Wqq), α = Softmax({a1, ..., aN}), a = wT (Wkkn + Wqq), α = Softmax({a1, ..., aN}) 0.77
(23) where w is a trainable vector and Wk, Wq are two trainable matrices. (23) w は訓練可能なベクトルであり、Wk, Wq は2つの訓練可能な行列である。 0.68
VI, KI were both set to the RoI feature set of the current image and qI was the embedding of the sentence context, e g , the partially generated caption or the question for IC or VQA, respectively. VIとKIはどちらも現在の画像のRoI特徴セットに設定され、qIは文コンテキストの埋め込み、eg、部分的に生成されたキャプションまたはICまたはVQAの質問である。 0.72
CS-ATT was set to Eq (7), qC was the same as in IS-ATT and VC, KC were both set to the visual global dictionary. CS-ATTはEq(7)、qCはIS-ATTと同じであり、VC、KCはどちらもビジュアルグローバル辞書に設定されていた。 0.76
This dictionary was initialized by applying K-means over all the RoI features in the training set to get 1000 cluster centres and was updated during the end-to-end training. この辞書は、トレーニングセットのすべてのRoI機能にK-meansを適用して1000クラスタセンターを取得することで初期化され、エンドツーエンドのトレーニング中に更新されました。 0.60
The RoI object features were extracted by a Faster-RCNN [52] pre-trained on VG as in [3]. The RoI object features were extracted by a Faster-RCNN [52] pre-trained on VG as in [3]。 0.90
The hidden size of the LSTM layers was set to 1024. LSTM層の大きさは1024に設定された。 0.80
For the IC model, the cross-entropy loss and the selfcritical reward [53] were used to train it 35 and 65 epochs, ICモデルでは、クロスエントロピー損失と自己批判的報酬 [53] を使用して35および65エポックを訓練しました。 0.74
11 respectively. We used the Adam optimizer [26] and initialized the learning rate as 5e−4 and decayed it by 0.8 every 5 epochs. 11 それぞれ。 我々はアダムオプティマイザ[26]を用い,学習速度を5e−4と初期化し,5エポック毎に0.8で減衰させた。 0.70
The batch size was set to 100. バッチサイズは100に設定された。 0.79
For the VQA model, we followed [63, 3] to use the binary cross-entropy loss and applied the AdaDelta optimizer [82], which does not require to fix the learning rate, to train it 30 epochs. vqaモデルでは,2次クロスエントロピー損失を用いた [63, 3] に追従し,学習速度を補正する必要のないadadeltaオプティマイザ [82] を適用し,30エポックのトレーニングを行った。 0.79
The batch size was set to 512. バッチサイズは512に設定された。 0.77
Transformer + CATT. 変圧器+ CATT。 0.79
We deployed the architecture in Figure 5 for solving IC and VQA. ICとVQAを解決するために、図5にアーキテクチャを展開しました。 0.63
In this architecture, the Q-K-V operations of all IS-ATT and CS-ATT were implemented by 8-head scaled dot product [65]: このアーキテクチャでは、IS-ATTとCS-ATTのQ-K-V操作を8ヘッドスケールドット製品 [65]で実装した。 0.64
Input: Q, K, V Prob: Ai = Softmax( Single-Head : Hi = AiV W V i , 入力: Q, K, V Prob: Ai = Softmax(シングルヘッド : Hi = AiV W V i , 0.84
QW Q i (KW K i )T √ QW Q i (KW K i ) T 。 0.80
d ) (24) ˆV = Embed([H1, ..., H8]W H ), d ) (24) V = Embed([H1, ..., H8]W H ) 0.82
Ouput: where W ∗ i and W H are all trainable matrices; Ai is the soft attention matrix for the i-th head; [·] denotes the concatenation operation, and Embed(·) means the feed-forward network and the residual operation as in [65]. Ouput: W の i および W H がすべて訓練可能な行列であるところ; Ai は i 番目の頭部のための柔らかい注意のマトリックスです; [·] は連結操作を表し、 Embed(·) は [65] のようにフィードフォワードネットワークと残りの操作を意味します。 0.81
We shared the parameters between IS-ATT and CS-ATT in each CATT to keep the outputs staying in the same feature space. 私たちは各CATTでIS-ATTとCS-ATTのパラメータを共有し、出力を同じ特徴空間に維持した。 0.75
Then compared with the original Transformer, the increments of the trainable parameters only come from the global image and word embedding dictionaries, which were initialized by applying K-means over the RoI and word embeddings of the training set. そして、元のTransformerと比較すると、トレーニング可能なパラメータのインクリメントは、グローバルイメージと単語埋め込み辞書からのみ得られ、RoI上にK-meansを適用してトレーニングセットの単語埋め込みを初期化した。 0.72
We set the sizes of both dictionaries to 500 and the hidden size of all the attention modules to 512. 両方の辞書のサイズを500に設定し、すべてのアテンションモジュールの隠れサイズを512に設定した。 0.74
The RoI object features were the same as in BUTD+CATT. RoIオブジェクトの機能はBUTD+CATTと同じだった。 0.83
For IC, the training included two processes: we first used the cross-entropy loss and then the self-critical reward to train the captioner 15 and 35 epochs, respectively. icの場合、トレーニングには2つのプロセスが含まれていました。まず、クロスエントロピー損失と、キャプション15と35エポックのトレーニングに自己批判的な報酬を使いました。
訳抜け防止モード: ICの場合、トレーニングには2つのプロセスが含まれていました。 -エントロピー損失と自己- キャプテンター15と35エポックを訓練する重要な報酬。
0.66
The learning rates of two processes were initialized as 5e−4 and 5e−5 and both of them decayed by 0.8 every 5 epochs. 2つの過程の学習速度は5e−4と5e−5として初期化され、どちらも5期ごとに0.8で崩壊した。 0.56
The Adam optimizer was used and the batch size was set to 10. adamオプティマイザを使用し、バッチサイズを10に設定した。 0.68
For VQA, we applied the binary cross-entropy loss and the Adam optimizer to train it 13 epochs. VQAでは,2次クロスエントロピー損失とAdamオプティマイザを適用し,13エポックのトレーニングを行った。 0.60
We followed [79] to set the learning rate to min(2.5te−5, 1e−4), where t is the training epoch and after 10 epochs, the learning rate decayed by 0.2 every 2 epochs. 学習速度を min(2.5te−5, 1e−4) とし, t を訓練エポックとし, 10エポック後, 2エポック毎に0.2 で学習速度が低下した。 0.67
The batch size was set to 64. バッチサイズは64に設定された。 0.71
References [1] Ehsan Abbasnejad, Damien Teney, Amin Parvaneh, Javen Shi, and Anton van den Hengel. 参照 [1] Ehsan Abbasnejad、Damien Teney、Amin Parvaneh、Javen Shi、Anton van den Hengel。
訳抜け防止モード: 参考文献 [1 ] Ehsan Abbasnejad, Damien Teney, Amin Parvaneh, Javen ShiとAnton van den Hengel。
0.77
Counterfactual vision and In Proceedings of the IEEE/CVF Conlanguage learning. IEEE/CVFコンランゲージ学習のファクトリアルビジョンと成果 0.63
ference on Computer Vision and Pattern Recognition, pages 10044–10054, 2020. 参照: Computer Vision and Pattern Recognition, page 10044–10054, 2020。 0.88
3 [2] Peter Anderson, Basura Fernando, Mark Johnson, and Stephen Gould. 3 [2]Peter Anderson、Basura Fernando、Mark Johnson、Stephen Gould。 0.77
Spice: Semantic propositional image capIn European Conference on Computer Vition evaluation. spice: semantic propositional image capin european conference on computer vition evaluation (英語) 0.77
sion, pages 382–398. 全382-398頁。 0.67
Springer, 2016. スプリンガー、2016年。 0.60
6 6 0.85
英語(論文から抽出)日本語訳スコア
Figure 9. More examples demonstrate that our CATT helps various models confront dataset biases. 図9。 さらに例を挙げると、CATTはさまざまなモデルがデータセットバイアスに直面するのに役立ちます。 0.63
Red and blue index the incorrect and correct generated captions and answers, respectively. 赤と青はそれぞれ、誤りと正しい生成されたキャプションと回答をインデックスする。 0.71
12 BUTD: a woman and a dog in a kitchenCATT: a man standing next to a dog in a kitchenBUTD: a herd of sheep in a fieldCATT: a herd of sheep walking down a roadBUTD: a blue and red fire hydrant on a sidewalkCATT: a blue and yellow fire hydrant on the side of a streetTF: a group of people riding a horseCATT: a horse drawn carriage on a field with peopleBUTD: a desk with four laptopsCATT: two computer monitors and two laptops on a deskTF: a man feeding a cowCATT: a man milking a cow with a bottleWhat gender is the person holding the frisbee?TF: male CATT: femaleWhat does it look like the skier is doing?TF: snowboarding CATT: fallingHow many people are shown? 12 BUTD: a woman and a dog in a kitchenCATT: a man standing next to a dog in a kitchenBUTD: a herd of sheep in a fieldCATT: a herd of sheep walking down a roadBUTD: a blue and red fire hydrant on a sidewalkCATT: a blue and yellow fire hydrant on the side of a streetTF: a group of people riding a horseCATT: a horse drawn carriage on a field with peopleBUTD: a desk with four laptopsCATT: two computer monitors and two laptops on a deskTF: a man feeding a cowCATT: a man milking a cow with a bottleWhat gender is the person holding the frisbee?TF: male CATT: femaleWhat does it look like the skier is doing?TF: snowboarding CATT: fallingHow many people are shown? 0.85
?TF: 2 CATT: 3What sport is being shown on the screen?LXMERT: dancing CATT: bowlingWhat the color of the building in the background?LXMERT: blue CATT: brownHow many elephants are shown?LXMERT: 2 CATT: 4 TF: 2 CATT: 3画面に表示されているスポーツは何ですか?LXMERT: ダンスCATT: ボウリング背景の建物の色は何ですか?LXMERT: ブルーCATT: ブラウン象の数?LXMERT: 2 CATT: 4。 0.83
英語(論文から抽出)日本語訳スコア
[3] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, and Lei Zhang. Peter Anderson氏、Xiaodong He氏、Chris Buehler氏、Damien Teney氏、Mark Johnson氏、Stephen Gould氏、Lei Zhang氏。
訳抜け防止モード: [3 ] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney氏、Mark Johnson氏、Stephen Gould氏、Lei Zhang氏。
0.86
Bottom-up and top-down attention for image captioning and visual question answering. 画像キャプションと視覚的質問応答におけるボトムアップとトップダウンの注意 0.61
In CVPR, 2018. 2018年、CVPR。 0.65
1, 2, 5, 6, 7, 11 [4] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. 1, 2, 5, 6, 7, 11 [4] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, Devi Parikh。 0.79
Vqa: Visual question answering. Vqa: 視覚的な質問応答。 0.76
In Proceedings of the IEEE international conference on computer vision, pages 2425– 2433, 2015. IEEEのコンピュータビジョン国際会議Proceedings of the IEEE International Conference on computer vision, page 2425–2433, 2015 0.83
3, 5 [5] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 3, 5[5] Dzmitry Bahdanau,kyunghyun Cho,Yoshua Bengio。 0.69
Neural machine translation by jointly learning to align and translate. 整列と翻訳を共同で学習することで、ニューラルマシン翻訳を行う。 0.60
arXiv preprint arXiv:1409.0473, 2014. arXiv preprint arXiv:1409.0473, 2014 0.80
1, 2 [6] Satanjeev Banerjee and Alon Lavie. 1, 2, [6] Satanjeev Banerjee と Alon Lavie。 0.87
Meteor: An automatic metric for mt evaluation with improved correlation with human judgments. Meteor: 人間の判断と相関性を改善したmt評価のための自動指標。 0.78
In Proceedings of the acl workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization, pages 65–72, 2005. The Proceedings of the acl Workshop on intrinsic and extrinsic evaluation measures for machine translation and/or summarization, page 65–72, 2005。 0.96
6 [7] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al Relational inductive biases, deep learning, and graph networks. 6 [7] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al Relational Inductive biases, Deep Learning, and graph Network。 0.87
arXiv preprint arXiv:1806.01261, 2018. arXiv preprint arXiv:1806.01261, 2018 0.79
1 [8] Hedi Ben-Younes, R´emi Cadene, Matthieu Cord, and Nicolas Thome. 1[8]Hedi Ben-Younes, R ́emi Cadene, Matthieu Cord, Nicolas Thome。 0.91
Mutan: Multimodal tucker fusion for visual In Proceedings of the IEEE internaquestion answering. Mutan: IEEEインターナクシエーション回答の視覚的推論のためのマルチモーダルタッカー融合。 0.73
tional conference on computer vision, pages 2612–2620, 2017. コンピュータビジョンに関する会議、ページ2612-2620、2017。 0.80
7 [9] Yoshua Bengio, Tristan Deleu, Nasim Rahaman, Rosemary Ke, S´ebastien Lachapelle, Olexa Bilaniuk, Anirudh Goyal, and Christopher Pal. 7[9]Yoshua Bengio, Tristan Deleu, Nasim Rahaman, Rosemary Ke, S ́ebastien Lachapelle, Olexa Bilaniuk, Anirudh Goyal, Christopher Pal。 0.82
A meta-transfer objective for learning to disentangle causal mechanisms. 因果的メカニズムを乱す学習のためのメタトランスファー目的 0.72
arXiv preprint arXiv:1901.10912, 2019. arXiv preprint arXiv:1901.10912, 2019 0.81
3 [10] Tolga Bolukbasi, Kai-Wei Chang, James Y Zou, Venkatesh Saligrama, and Adam T Kalai. 3[10]Tolga Bolukbasi, Kai-Wei Chang, James Y Zou, Venkatesh Saligrama, Adam T Kalai。 0.82
Man is to computer programmer as woman is to homemaker? 男性はコンピュータープログラマーであり、女性はホームメイカーですか? 0.76
debiasing word embedIn Advances in neural information processing sysdings. debiasing word embedded神経情報処理シスディングの進歩。 0.65
tems, pages 4349–4357, 2016. 2016年、4349-4357頁。 0.58
3 [11] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, and Sergey Zagoruyko. 3[11] Nicolas Carion氏、Francisco Massa氏、Gabriel Synnaeve氏、Nicolas Usunier氏、Alexander Kirillov氏、Sergey Zagoruyko氏。 0.81
Endto-end object detection with transformers. トランスを用いたエンドツーエンドオブジェクト検出 0.63
arXiv preprint arXiv:2005.12872, 2020. arXiv preprint arXiv:2005.12872, 2020 0.81
1, 2 [12] Mark Chen, Alec Radford, Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, David Luan, and Ilya Sutskever. 1, 2, [12] Mark Chen, Alec Radford, Rewon Child, Jeff Wu, Heewoo Jun, Prafulla Dhariwal, David Luan, Ilya Sutskever。 0.81
In Proceedings of the Generative pretraining from pixels. Proceedings of the Generative pretraining from pixels において。 0.89
37th International Conference on Machine Learning, volume 1, 2020. 第37回機械学習国際会議、第1巻、2020年。 0.70
1, 2 [13] Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Doll´ar, and C Lawrence Zitnick. 1, 2 [13] Xinlei Chen, Hao Fang, Tsung-Yi Lin, Ramakrishna Vedantam, Saurabh Gupta, Piotr Doll ́ar, C Lawrence Zitnick。 0.88
Microsoft coco captions: Data collection and evaluation server. マイクロソフトのココキャプション:データ収集および評価サーバー。 0.70
arXiv preprint arXiv:1504.00325, 2015. arXiv preprint arXiv:1504.00325, 2015 0.81
2, 5 [14] Yen-Chun Chen, Linjie Li, Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan, Yu Cheng, and Jingjing Liu. 2, 5 [14] Yen-Chun Chen、Linjie Li、Licheng Yu、Ahmed El Kholy、Faisal Ahmed、Zhe Gan、Yu Cheng、Jingjing Liu。
訳抜け防止モード: 2 5 [14 ]円-陳忠、林江利、 Licheng Yu, Ahmed El Kholy, Faisal Ahmed, Zhe Gan ユ・チェン(Yu Cheng)とジンジュ・リウ(Jingjing Liu)。
0.81
Uniter: In European Universal image-text representation learning. Uniter:European Universal Image-text representation Learningにおいて。 0.76
Conference on Computer Vision, pages 104–120. コンピュータビジョン会議、104-120ページ。 0.81
Springer, 2020. スプリンガー、2020年。 0.59
1, 2, 6, 7, 8 [15] Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, and Rita Cucchiara. 1, 2, 6, 7, 8 [15] Marcella Cornia, Matteo Stefanini, Lorenzo Baraldi, Rita Cucchiara。 0.78
Meshed-memory transformer for image cap- イメージキャップ用メッシュメモリトランス 0.78
In Proceedings of the IEEE/CVF Conference on tioning. In Proceedings of the IEEE/CVF Conference on tioning 0.84
Computer Vision and Pattern Recognition, pages 10578– 10587, 2020. コンピュータビジョンとパターン認識、ページ10578 - 10587、2020。 0.79
6 [16] Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Pre-training of deep bidirectional arXiv preprint 6 16] Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Pre-training of Deep Bidirectional arXiv preprint 0.87
Toutanova. transformers for language understanding. Toutanova 言語理解のためのトランスフォーマー。 0.59
arXiv:1810.04805, 2018. arXiv:1810.04805, 2018 0.68
1, 2, 4, 6 1, 2, 4, 6 0.85
Bert: [17] Peng Gao, Zhengkai Jiang, Haoxuan You, Pan Lu, Steven CH Hoi, Xiaogang Wang, and Hongsheng Li. Bert: [17]Peng Gao、Zhengkai Jiang、Haoxuan You、Pan Lu、Steven CH Hoi、Xiaogang Wang、Hongsheng Li。 0.77
Dynamic fusion with intra-and inter-modality attention flow for visual question answering. 視覚的質問応答のためのモーダリティ内およびモーダリティ間注意流の動的融合 0.62
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6639–6648, 2019. IEEE Conference on Computer Vision and Pattern RecognitionのProceedingsで、ページ6639–6648、2019。 0.77
7 [18] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. 7 18] Yash Goyal、Tejas Khot、Douglas Summers-Stay、Dhruv Batra、Devi Parikh。 0.76
Making the v in vqa matter: Elevating the role of image understanding in visual question answering. vqa の v を重要視する: 視覚的質問応答における画像理解の役割を高める。 0.81
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6904–6913, 2017. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 6904–6913, 2017 0.85
5 [19] Lisa Anne Hendricks, Kaylee Burns, Kate Saenko, Trevor Darrell, and Anna Rohrbach. 5 [19] Lisa Anne Hendricks、Kaylee Burns、Kate Saenko、Trevor Darrell、Anna Rohrbach。 0.75
Women also snowboard: Overcoming bias in captioning models. 女性もスノーボード:キャプションモデルのバイアスを克服します。 0.66
In European Conference on Computer Vision, pages 793–811. 欧州コンピュータビジョン会議』763-811頁。 0.63
Springer, 2018. 2018年、スプリンガー。 0.51
2, 3 [20] Xinting Hu, Kaihua Tang, Chunyan Miao, Xian-Sheng Hua, and Hanwang Zhang. 2、 3 [20] Xinting Hu、Kaihua Tang、Chunyan Miao、Xian-Sheng Hua、Hanwang Zhang。 0.75
Distilling causal effect of data in classincremental learning, 2021. クラス増分学習におけるデータの因果効果の希釈 : 2021年 0.69
3 [21] Lun Huang, Wenmin Wang, Jie Chen, and Xiao-Yong Wei. 3 [21] Lun Huang、Wenmin Wang、Jie Chen、Xiao-Yong Wei。 0.82
Attention on attention for image captioning. 画像キャプションに注意してください。 0.56
In International Conference on Computer Vision, 2019. 2019年、国際コンピュータビジョン会議に参加。 0.80
6, 11 [22] Drew A Hudson and Christopher D Manning. 6, 11 22] ドリュー・ア・ハドソンとクリストファー・D・マニング。 0.73
Gqa: a new dataset for compositional question answering over realworld images. Gqa: 現実世界の画像に対する合成質問応答のための新しいデータセット。 0.71
arXiv preprint arXiv:1902.09506, 3(8), 2019. arXiv preprint arXiv:1902.09506, 3(8), 2019 0.97
5, 6 [23] Wenhao Jiang, Lin Ma, Yu-Gang Jiang, Wei Liu, and Tong Zhang. 5, 6 [23] Wenhao Jiang、Lin Ma、Yu-Gang Jiang、Wei Liu、Tong Zhang。 0.79
Recurrent fusion network for image captioning. 画像キャプションのための繰り返し融合ネットワーク。 0.73
In Proceedings of the European Conference on Computer Vision (ECCV), pages 499–515, 2018. Proceedings of the European Conference on Computer Vision (ECCV) 2018年4月5日閲覧。 0.73
11 [24] Andrej Karpathy and Li Fei-Fei. 11 24] Andrej KarpathyとLi Fei-Fei。 0.84
Deep visual-semantic alignments for generating image descriptions. 画像記述を生成するための深いビジュアルセマンティックアライメント。 0.63
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3128–3137, 2015. Proceedings of the IEEE conference on computer vision and pattern recognition, page 3128–3137, 2015 0.81
5 [25] Jin-Hwa Kim, Kyoung-Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha, and Byoung-Tak Zhang. 5 [25] Jin-Hwa Kim, Kyoung-Woon On, Woosang Lim, Jeonghee Kim, Jung-Woo Ha, Byoung-Tak Zhang。 0.85
Hadamard arXiv preprint product for low-rank bilinear pooling. Hadamard arXiv の低ランクバイリニアプール用プリプリント製品。 0.65
arXiv:1610.04325, 2016. arXiv:1610.04325, 2016 0.70
7 [26] Diederik P Kingma and Jimmy Ba. 7 [26] Diederik P KingmaとJimmy Ba。 0.82
Adam: A method for arXiv preprint arXiv:1412.6980, Adam: arXiv preprint arXiv:1412.6980, 0.89
stochastic optimization. 2014. 確率最適化。 2014. 0.74
11 [27] Murat Kocaoglu, Christopher Snyder, Alexandros G Dimakis, and Sriram Vishwanath. 11 [27]Murat Kocaoglu、Christopher Snyder、Alexandros G Dimakis、Sriram Vishwanath。 0.74
Causalgan: Learning causal implicit generative models with adversarial training. Causalgan: 対人訓練による因果的暗黙的生成モデル学習。 0.80
arXiv preprint arXiv:1709.02023, 2017. arXiv preprint arXiv:1709.02023, 2017 0.79
3 [28] Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A Shamma, et al Visual genome: Connecting language and vision using crowdsourced dense International Journal of Computer Viimage annotations. 3 Ranjay Krishna, Yuke Zhu, Oliver Groth, Justin Johnson, Kenji Hata, Joshua Kravitz, Stephanie Chen, Yannis Kalantidis, Li-Jia Li, David A Shamma, et al Visual DNA: Connecting language and vision using crowdsourced dense International Journal of Computer Viimageアノテーション。 0.81
sion, 123(1):32–73, 2017. sion, 123(1):32-73, 2017 0.87
2, 6 13 2, 6 13 0.85
英語(論文から抽出)日本語訳スコア
[29] Keita Kurita, Nidhi Vyas, Ayush Pareek, Alan W Black, and Yulia Tsvetkov. [29]栗田慶太、ニディ・ビアス、Ayush Pareek、Alan W Black、Yulia Tsvetkov。 0.70
Measuring bias in contextualized word representations. 文脈的単語表現におけるバイアスの測定 0.64
arXiv preprint arXiv:1906.07337, 2019. arXiv preprint arXiv:1906.07337, 2019 0.81
3 [30] Chenliang Li, Ming Yan, Haiyang Xu, Fuli Luo, Wei Wang, Bin Bi, and Songfang Huang. 3 [30]Chenliang Li、Ming Yan、Hayyang Xu、Fuli Luo、Wei Wang、Bin Bi、Songfang Huang。 0.63
Sem{vlp}: Vision-language pre-training by aligning semantics at multiple levels, 2021. sem{vlp}: 複数のレベルにおけるセマンティクスの調整によるビジョン言語事前トレーニング、2021年。 0.62
2 [31] Liunian Harold Li, Mark Yatskar, Da Yin, Cho-Jui Hsieh, and Kai-Wei Chang. 2 31] Liunian Harold Li、Mark Yatskar、Da Yin、Cho-Jui Hsieh、Kai-Wei Chang。 0.81
Visualbert: A simple and perforarXiv preprint mant baseline for vision and language. Visualbert: ビジョンと言語のための、シンプルでperforarXivプリプリントマントベースライン。 0.79
arXiv:1908.03557, 2019. arXiv:1908.03557, 2019。 0.64
2 [32] Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al Oscar: Object-semantics aligned pre-training for vision-language tasks. 2 [32]Xiujun Li, Xi Yin, Chunyuan Li, Pengchuan Zhang, Xiaowei Hu, Lei Zhang, Lijuan Wang, Houdong Hu, Li Dong, Furu Wei, et al Oscar: 視覚言語タスクの事前トレーニングにオブジェクトセマンティクスが対応した。 0.86
In European Conference on Computer Vision, pages 121–137. European Conference on Computer Vision”. 121–137頁。 0.88
Springer, 2020. スプリンガー、2020年。 0.59
2 [33] Chin-Yew Lin. 2 33]Chin-Yew Lin。 0.84
Rouge: A package for automatic evaluation of summaries. rouge: 要約の自動評価のためのパッケージ。 0.79
Text Summarization Branches Out, 2004. テキスト要約部門、2004年。 0.68
6 [34] Daqing Liu, Zheng-Jun Zha, Hanwang Zhang, Yongdong Zhang, and Feng Wu. 6 [34] Daqing Liu、Zheng-Jun Zha、Hanwang Zhang、Yongdong Zhang、およびFeng Wu。 0.78
Context-aware visual policy network for sequence-level image captioning. シーケンスレベル画像キャプションのためのコンテキスト対応ビジュアルポリシーネットワーク 0.69
In 2018 ACM Multimedia Conference on Multimedia Conference, pages 1416– 1424. 2018年 acm multimedia conference on multimedia conference, pages 1416–1424。 0.81
ACM, 2018. 2018年、ACM。 0.85
11 [35] Jiasen Lu, Dhruv Batra, Devi Parikh, and Stefan Lee. 11 [35]Jiasen Lu、Dhruv Batra、Devi Parikh、Stefan Lee。 0.73
Vilbert: Pretraining task-agnostic visiolinguistic representations for vision-and-language tasks. Vilbert: 視覚・言語タスクに対するタスク非依存の視覚言語表現の事前訓練。 0.46
In Advances in Neural Information Processing Systems, pages 13–23, 2019. In Advances in Neural Information Processing Systems, page 13–23, 2019。 0.92
1, 2 [36] Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, and Stefan Lee. 1, 2 [36]Jiasen Lu, Vedanuj Goswami, Marcus Rohrbach, Devi Parikh, Stefan Lee 0.77
12-in-1: Multi-task vision and In Proceedings of the language representation learning. 12-in-1:マルチタスクビジョンと言語表現学習の進行。 0.84
IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10437–10446, 2020. IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 10437–10446, 2020 0.94
8 [37] Jiasen Lu, Jianwei Yang, Dhruv Batra, and Devi Parikh. 8 37] Jiasen Lu、Jianwei Yang、Dhruv Batra、Devi Parikh。 0.72
Hierarchical question-image co-attention for visual question In Advances in neural information processing answering. 視覚的質問に対する階層的質問画像の共同注意 神経情報処理の進歩 0.77
systems, pages 289–297, 2016. System, page 289–297, 2016 0.81
2 [38] Ruotian Luo. 2 [38] ルーシアン・ルオ 0.77
An image captioning codebase in pytorch, pytorchの画像キャプションコードベース。 0.64
2017. 5 [39] Ruotian Luo, Brian Price, Scott Cohen, and Gregory Shakhnarovich. 2017. 5 39] Ruotian Luo、Brian Price、Scott Cohen、Gregory Shakhnarovich。 0.77
Discriminability objective for training descriptive captions. 記述的キャプションの訓練のための識別可能性目標 0.53
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6964– 6974, 2018. IEEE Conference on Computer Vision and Pattern RecognitionのProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 6964– 6974, 2018 0.76
1 [40] Moin Nadeem, Anna Bethke, and Siva Reddy. 1 [40]Moin Nadeem、Anna Bethke、Siva Reddy。 0.75
Stereoset: Measuring stereotypical bias in pretrained language models. Stereoset: 事前訓練された言語モデルにおけるステレオタイプバイアスの測定。 0.63
arXiv preprint arXiv:2004.09456, 2020. arXiv preprint arXiv:2004.09456, 2020 0.81
3 [41] Yulei Niu, Kaihua Tang, Hanwang Zhang, Zhiwu Lu, Xian-Sheng Hua, and Ji-Rong Wen. 3 41] Yulei Niu、Kaihua Tang、Hanwang Zhang、Zhiwu Lu、Xian-Sheng Hua、Ji-Rong Wen。 0.81
Counterfactual vqa: arXiv preprint look at A cause-effect arXiv:2006.04315, 2020. vqa: arXiv preprint look on A cause-effect arXiv:2006.04315, 2020 0.89
3 language bias. [42] Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu. 3 言語バイアス。 [42] 海岸パピナーニ、Salim Roukos、Todd区、およびWei-Jing Zhu。 0.71
Bleu: a method for automatic evaluation of machine translation. Bleu:機械翻訳の自動評価方法。 0.63
In Proceedings of the 40th annual meeting on association for computational linguistics, pages 311–318. 第40回計算言語学会年会の議事録において、第311-318ページ。 0.67
Association for Computational Linguistics, 2002. 計算言語学協会、2002年。 0.74
6 [43] Judea Pearl. 6 [43] ジュデア・パール 0.70
Causal diagrams for empirical research. 実証研究のための因果図。 0.65
Biometrika, 82(4):669–688, 1995. Biometrika, 82(4):669–688, 1995。 0.88
2, 3, 9 [44] Judea Pearl. 2, 3, 9 44]ジュデア・パール。 0.70
Causality: models, reasoning and inference, 因果性:モデル、推論、推論。 0.51
volume 29. Springer, 2000. 第29巻。 スプリンガー、2000年。 0.53
2, 3 [45] Judea Pearl and Elias Bareinboim. 2, 3[45] Judea Pearl と Elias Bareinboim。 0.82
External validity: From do-calculus to transportability across populations. 外的妥当性: 人口間におけるdo-calculusからトランスポートビリティへ。 0.60
Statistical Science, pages 579–595, 2014. 統計科学, ページ 579–595, 2014 0.83
2 [46] Judea Pearl, Madelyn Glymour, and Nicholas P Jewell. 2 [46] Judea Pearl、Madelyn Glymour、Nicholas P Jewell。 0.71
Causal inference in statistics: A primer. 統計学における因果推論:プライマー。 0.73
John Wiley & Sons, 2016. ジョン・ワイリー&サンズ、2016年。 0.57
3, 9 [47] Judea Pearl and Dana Mackenzie. 3、9 [47] Judea PearlとDana Mackenzie。 0.74
The Book of Why. 原題はThe Book of Why。 0.70
Basic Books, New York, 2018. 基本 2018年、ニューヨークでデビュー。 0.59
2, 3, 9 [48] Jiaxin Qi, Yulei Niu, Jianqiang Huang, and Hanwang Zhang. 2, 3, 9 [48] Jiaxin Qi、Yulei Niu、Jianqiang Huang、およびHanwang Zhang。 0.76
Two causal principles for improving visual dialog. ビジュアルダイアログを改善するための2つの因果原則。 0.62
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10860–10869, 2020. IEEE/CVF コンピュータビジョンとパターン認識に関する会議の進行において、10860-10869, 2020 のページ。
訳抜け防止モード: IEEE / CVF Conference on Computer Vision and Pattern Recognition に参加して 10860-10869、2020年。
0.85
3 [49] Yu Qin, Jiajun Du, Yonghua Zhang, and Hongtao Lu. 3 [49]Yu Qin、Jiajun Du、Yonghua Zhang、Hongtao Lu。 0.66
Look back and predict forward in image captioning. 振り返って、画像キャプションで前方に予測します。 0.58
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8367–8375, 2019. コンピュータビジョンとパターン認識に関するIEEE会議の進行で、ページ8367-8375、2019。 0.73
6 [50] Alec Radford, Karthik Narasimhan, Tim Salimans, and Ilya Sutskever. 6 Alec Radford氏、Karthik Narasimhan氏、Tim Salimans氏、Ilya Sutskever氏。 0.76
Improving language understanding by generative pre-training, 2018. 生成前学習による言語理解の改善、2018年。 0.67
2 [51] William J Reed. 2 [51] ウィリアム・J・リード。 0.73
The pareto, zipf and other power laws. pareto、zipfおよび他の力の法律。 0.75
Economics letters, 74(1):15–19, 2001. 経済文字、74(1):15–19、2001。 0.79
2 [52] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun. 2 52] Shaoqing Ren、Kaming He、Ross Girshick、Jian Sun。 0.73
Faster r-cnn: Towards real-time object detection with region proposal networks. Faster r-cnn: リージョン提案ネットワークによるリアルタイムオブジェクト検出を目指す。 0.69
In Advances in neural information processing systems, pages 91–99, 2015. 神経情報処理システムの進歩, 91-99, 2015 ページ。 0.74
2, 6, 11 [53] Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, and Vaibhava Goel. 2, 6, 11 [53]Steven J Rennie, Etienne Marcheret, Youssef Mroueh, Jerret Ross, Vaibhava Goel。 0.80
Self-critical sequence training for image captioning. 画像キャプションのための自己臨界シーケンストレーニング 0.69
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 7008– 7024, 2017. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、ページ7008–7024、2017。 0.81
11 Visual cognition, 7(1-3):17–42, 2000. 11視認, 7(1-3):17–42, 2000。 0.74
1 [54] Ronald A Rensink. 1 ロナルド・ア・レンシンク(Ronald A Rensink) 0.70
The dynamic representation of scenes. シーンのダイナミックな表現。 0.69
[55] Anna Rohrbach, Lisa Anne Hendricks, Kaylee Burns, Trevor Darrell, and Kate Saenko. 55]Anna Rohrbach氏、Lisa Anne Hendricks氏、Kaylee Burns氏、Trevor Darrell氏、Kate Saenko氏。 0.83
Object hallucination in image captioning. 画像キャプションにおけるオブジェクト幻覚。 0.59
arXiv preprint arXiv:1809.02156, 2018. arXiv preprint arXiv:1809.02156, 2018 0.79
6 [56] Donald B Rubin. 6[56]ドナルド・B・ルービン。 0.65
Causal inference using potential outcomes: Design, modeling, decisions. 潜在的な結果を用いた因果推論:設計、モデリング、決定。 0.72
Journal of the American Statistical Association, 100(469):322–331, 2005. Journal of the American Statistical Association, 100(469):322–331, 2005 0.92
2, 3 [57] Piyush Sharma, Nan Ding, Sebastian Goodman, and Radu Soricut. 2, 3 [57] Piyush Sharma、Nan Ding、Sebastian Goodman、Radu Soricut。 0.75
Conceptual captions: A cleaned, hypernymed, image alt-text dataset for automatic image captioning. 概念キャプション:自動キャプションのためのクリーンでハイパーnymedな画像alt-textデータセット。 0.69
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2556–2565, 2018. 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), page 2556–2565, 2018 0.72
2 [58] Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. 2 [58]Nitish Srivastava、Geoffrey Hinton、Alex Krizhevsky、Ilya Sutskever、Ruslan Salakhutdinov。 0.73
Dropout: a simple way to prevent neural networks from overfitting. dropout: ニューラルネットワークの過剰フィットを防ぐシンプルな方法。 0.73
The journal of machine learning research, 15(1):1929–1958, 2014. journal of machine learning research, 15(1):1929-1958, 2014年。 0.91
4, 10 [59] Alane Suhr, Stephanie Zhou, Ally Zhang, Iris Zhang, Huajun Bai, and Yoav Artzi. 4, 10[59] Alane Suhr, Stephanie Zhou, Ally Zhang, Iris Zhang, Huajun Bai, Yoav Artzi。 0.76
A corpus for reasoning about natural language grounded in photographs. 写真に根ざした自然言語の推論のためのコーパス。 0.73
arXiv preprint arXiv:1811.00491, 2018. arXiv preprint arXiv:1811.00491, 2018 0.80
5, 6 [60] Raphael Suter, Djordje Miladinovic, Bernhard Sch¨olkopf, and Stefan Bauer. 5, 6 60] Raphael Suter、Djordje Miladinovic、Bernhard Sch solkopf、Stefan Bauer。 0.75
Robustly disentangled causal mechanisms: Validating deep representations for interventional ro- ロバストに歪んだ因果機構:介入ロの深部表現の検証- 0.61
14 14 0.85
英語(論文から抽出)日本語訳スコア
[74] Xu Yang, Hanwang Zhang, and Jianfei Cai. [74] Xu Yang、Hanwang Zhang、Jianfei Cai。 0.66
Learning to collocate neural modules for image captioning. 画像キャプションのためのニューラルネットワークモジュールのコロケーション学習 0.65
arXiv preprint arXiv:1904.08608, 2019. arXiv preprint arXiv:1904.08608, 2019 0.81
11 [75] Zichao Yang, Xiaodong He, Jianfeng Gao, Li Deng, and Alex Smola. 11 [75] Zichao Yang、Xiaodong He、Jianfeng Gao、Li Deng、Alex Smola。 0.77
Stacked attention networks for image question answering. 画像質問応答のための重み付き注意ネットワーク 0.73
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 21–29, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 21–29, 2016 0.79
2 [76] Ting Yao, Yingwei Pan, Yehao Li, and Tao Mei. 2[76]Ting Yao, Yingwei Pan, Yehao Li, Tao Mei。 0.68
ExplorIn Computer ing visual relationship for image captioning. コンピュータの探索 画像キャプションのためのing視覚関係 0.68
Vision–ECCV 2018, pages 711–727. ビジョン-ECCV 2018ページ711-727。 0.70
Springer, 2018. 2018年、スプリンガー。 0.51
6 [77] Quanzeng You, Hailin Jin, Zhaowen Wang, Chen Fang, and Jiebo Luo. 6 [77] Qunzeng You、Hailin Jin、Zhaowen Wang、Chen Fang、Jiebo Luo。 0.75
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4651–4659, 2016. Proceedings of the IEEE conference on computer vision and pattern recognition, page 4651–4659, 2016 0.81
2 Image captioning with semantic attention. 2 意味的な注意のイメージキャプション。 0.73
[78] Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. [78]Fei Yu, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, Haifeng Wang。 0.76
Ernie-vil: Knowledge enhanced vision-language representations through scene graph. Ernie-vil: シーングラフによる視覚言語表現の知識強化。 0.69
arXiv preprint arXiv:2006.16934, 2020. arXiv preprint arXiv:2006.16934, 2020 0.81
7, 8 [79] Zhou Yu, Jun Yu, Yuhao Cui, Dacheng Tao, and Qi Tian. 7, 8 79] Zhou Yu、Jun Yu、Yuhao Cui、Dacheng Tao、Qi Tian。 0.75
Deep modular co-attention networks for visual question answering. 視覚的質問応答のための深いモジュール型コアテンションネットワーク。 0.59
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6281–6290, 2019. コンピュータビジョンとパターン認識に関するIEEEカンファレンスのProceedingsで、ページ6281-6290、2019。
訳抜け防止モード: In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition 6281-6290、2019年。
0.75
2, 7, 11 [80] Zhongqi Yue, Tan Wang, Hanwang Zhang, Qianru Sun, and Xian-Sheng Hua. 2, 7, 11 [80] Zhongqi Yue、Tan Wang、Hanwang Zhang、Qianru Sun、Xian-Sheng Hua。 0.82
Counterfactual zero-shot and open-set visual recognition. ゼロショットとオープンセットの視覚認識。 0.67
In CVPR, 2021. CVPRでは、2021年。 0.69
3 [81] Zhongqi Yue, Hanwang Zhang, Qianru Sun, and Xian-Sheng arXiv preprint 3 81] Zhongqi Yue、Hanwang Zhang、Qianru Sun、Xian-Sheng arXivプリプリント。 0.85
Interventional few-shot learning. 介入的少数ショット学習。 0.60
Hua. arXiv:2009.13000, 2020. フア。 arXiv:2009.13000, 2020。 0.59
3 method. arXiv preprint arXiv:1212.5701, 2012. 3の方法。 arXiv preprint arXiv:1212.5701, 2012 0.82
11 [82] Matthew D Zeiler. 11 Matthew D Zeiler (複数形 Matthew D Zeiler) 0.69
Adadelta: an adaptive learning rate Adadelta:適応学習率 0.65
[83] Dong Zhang, Hanwang Zhang, Jinhui Tang, Xiansheng Hua, and Qianru Sun. 83] Dong Zhang、Hanwang Zhang、Jinhui Tang、Xianheng Hua、およびQianru Sun。 0.71
Causal intervention for weakly-supervised semantic segmentation. 弱教師付きセマンティクスセグメンテーションのための因果的介入 0.49
arXiv preprint arXiv:2009.12547, 2020. arXiv preprint arXiv:2009.12547, 2020 0.81
2, 3 [84] Yan Zhang, Jonathon Hare, and Adam Pr¨ugel-Bennett. 2, 3 [84]Yan Zhang、Jonathon Hare、Adam Pr sugel-Bennett。 0.83
Learning to count objects in natural images for visual question answering. 視覚的質問応答のための自然画像中の物体を数えることを学ぶ。 0.65
arXiv preprint arXiv:1802.05766, 2018. arXiv preprint arXiv:1802.05766, 2018 0.79
7 [85] Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J Corso, and Jianfeng Gao. 7]Luowei Zhou, Hamid Palangi, Lei Zhang, Houdong Hu, Jason J Corso, Jianfeng Gao。
訳抜け防止モード: 7 [ 85 ] Luowei Zhou, Hamid Palangi, Lei Zhang。 Houdong Hu、Jason J Corso、およびJianfeng Gao。
0.75
Unified vision-language pre-training for image captioning and vqa. 画像キャプションとvqaのための統一視覚言語事前学習 0.61
arXiv preprint arXiv:1909.11059, 2019. arXiv preprint arXiv:1909.11059, 2019 0.81
2, 6 bustness. In International Conference on Machine Learning, pages 6056–6065. 2, 6 喧騒だ 機械学習に関する国際会議」6056-6065頁。 0.65
PMLR, 2019. 2019年、PMLR。 0.72
2, 3 [61] Hao Tan and Mohit Bansal. 2, 3 [61] Hao TanとMohit Bansal。 0.79
Lxmert: Learning crossmodality encoder representations from transformers. Lxmert:トランスフォーマーからクロスモダリティエンコーダ表現を学ぶ。 0.78
arXiv preprint arXiv:1908.07490, 2019. arXiv preprint arXiv:1908.07490, 2019 0.81
1, 2, 4, 5, 6, 8 1, 2, 4, 5, 6, 8 0.85
[62] Kaihua Tang, Yulei Niu, Jianqiang Huang, Jiaxin Shi, and Hanwang Zhang. 62] Kaihua Tang、Yulei Niu、Jianqiang Huang、Jiaxin Shi、およびHanwang Zhang。 0.69
Unbiased scene graph generation from biased training. 偏見のあるトレーニングからの偏りのないシーングラフ生成。 0.60
In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 3716– 3725, 2020. コンピュータビジョンとパターン認識に関するIEEE/CVF会議の進行において、ページ3716– 3725、2020。 0.81
3 [63] Damien Teney, Peter Anderson, Xiaodong He, and Anton Van Den Hengel. 3 63]Damien Teney氏、Peter Anderson氏、Xiaodong He氏、Anton Van Den Hengel氏。 0.76
Tips and tricks for visual question answering: Learnings from the 2017 challenge. 視覚的な質問に対するコツとコツ: 2017年のチャレンジから学ぶこと。 0.77
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4223–4232, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 4223–4232, 2018。 0.85
11 [64] Roger BH Tootell, Nouchine Hadjikhani, E Kevin Hall, Sean Marrett, Wim Vanduffel, J Thomas Vaughan, and Anders M Dale. 11 [64]Roger BH Tootell、Nouchine Hadjikhani、E Kevin Hall、Sean Marrett、Wim Vanduffel、J Thomas Vaughan、Anders M Dale。 0.79
The retinotopy of visual spatial attention. 視覚的な空間的注意のretinotopy。 0.80
Neuron, 21(6):1409–1422, 1998. ニューロン 21(6):1409–1422, 1998。 0.82
1 [65] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 1 [65] Ashish Vaswani、Noam Shazeer、Niko Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Uukasz Kaiser、Illlia Polosukhin。
訳抜け防止モード: 1 [65 ]Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, sukasz Kaiser そしてIllia Polosukhin。
0.79
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Advances in neural information processing systems, pages 5998–6008, 2017. Advanceds in Neural Information Processing System, page 5998–6008, 2017 0.72
1, 2, 4, 5, 6, 11 1, 2, 4, 5, 6, 11 0.85
[66] Ramakrishna Vedantam, C Lawrence Zitnick, and Devi Parikh. 66] Ramakrishna Vedantam, C Lawrence Zitnick, Devi Parikh。 0.65
Cider: Consensus-based image description evaluaIn Proceedings of the IEEE conference on computer tion. Cider: Consensus-based image description evaluaコンピュータ操作に関するIEEEカンファレンスの進行。 0.80
vision and pattern recognition, pages 4566–4575, 2015. 視覚およびパターン認識、ページ4566–4575、2015。 0.82
6 [67] Victor Veitch, Dhanya Sridhar, and David Blei. 6 [67] Victor Veitch、Dhanya Sridhar、David Blei。 0.73
Adapting text embeddings for causal inference. 因果推論のためのテキスト埋め込みの適応。 0.60
In Conference on Uncertainty in Artificial Intelligence, pages 919–928. 人工知能の不確実性に関する会議』919-928頁。 0.62
PMLR, 2020. PMLR、2020年。 0.88
3 [68] Oriol Vinyals, Alexander Toshev, Samy Bengio, and Dumitru Erhan. 3 68] Oriol Vinyals、Alexander Toshev、Samy Bengio、Dumitru Erhan。 0.75
Show and tell: A neural image caption generator. show and tell: ニューラルネットワークによるキャプション生成。 0.56
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3156–3164, 2015. Proceedings of the IEEE conference on computer vision and pattern recognition, page 3156–3164, 2015 0.81
3 [69] Tan Wang, Jianqiang Huang, Hanwang Zhang, and Qianru In Proceedings of the Sun. 3[69]Tan Wang、Jianqiang Huang、Hanwang Zhang、Qianru In Proceedings of the Sun。 0.69
Visual commonsense r-cnn. 視覚的なcommonsense r-cnn。 0.49
IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 10760–10770, 2020. IEEE/CVF Conference on Computer Vision and Pattern Recognition, page 10760–10770, 2020 0.94
2 [70] Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He. 2 [70]Xiaolong Wang, Ross Girshick, Abhinav Gupta, and Kaiming He。 0.81
Non-local neural networks. 非局所ニューラルネットワーク。 0.76
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 7794–7803, 2018. Proceedings of the IEEE conference on computer vision and pattern recognition, page 7794–7803, 2018。 0.83
1, 2 [71] Kelvin Xu, Jimmy Ba, Ryan Kiros, Kyunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel, and Yoshua Bengio. 1, 2 [71]Kelvin Xu、Jimmy Ba、Ryan Kiros、Kunnghyun Cho、Aaron Courville、Ruslan Salakhudinov、Rich Zemel、Yoshua Bengio。
訳抜け防止モード: 1, 2 [71]Kelvin Xu,Jimmy Ba,Ryan Kiros, Yunghyun Cho, Aaron Courville, Ruslan Salakhudinov, Rich Zemel ヨシュア・ベンジオ(Yoshua Bengio)。
0.84
Show, attend and tell: Neural image caption generation with visual attention. 展示、出席、および伝える:視覚的な注意を払ってニューラルネットワークのキャプション生成。 0.57
In International conference on machine learning, pages 2048–2057, 2015. 機械学習に関する国際会議で、2015年2048-2057ページ。 0.71
1, 2, 4, 10 1, 2, 4, 10 0.85
[72] Xiaofeng Yang, Guosheng Lin, Fengmao Lv, and Fayao Liu. 72] Xiaofeng Yang、Guosheng Lin、Fengmao Lv、Fayao Liu。 0.61
Trrnet: Tiered relation reasoning for compositional visual question answering. Trrnet: 構成的視覚的質問に対する階層関係推論。 0.68
2020. 7 [73] Xu Yang, Kaihua Tang, Hanwang Zhang, and Jianfei Cai. 2020. 7 [73]Xu Yang、Kaihua Tang、Hanwang Zhang、Jianfei Cai。 0.78
Auto-encoding scene graphs for image captioning. 画像キャプションのための自動エンコードシーングラフ。 0.62
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 10685–10694, 2019. コンピュータビジョンとパターン認識に関するIEEE会議の進行において、2019年10685-10694ページ。 0.78
6, 11 15 6, 11 15 0.85
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。