論文の概要、ライセンス

# (参考訳) Bayesian Attention Belief Networks [全文訳有]

Bayesian Attention Belief Networks ( http://arxiv.org/abs/2106.05251v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Xinjie Fan, Bo Chen, Mingyuan Zhou(参考訳) 注意に基づくニューラルネットワークは、幅広いタスクで最先端の結果を得ています。 このようなモデルの多くは決定論的注意を必要とするが、確率的注意は最適化の困難さや複雑なモデル設計のためにあまり探求されない。 本稿では,非正規化注意重みをガンマ分布の階層構造でモデル化してデコーダネットワークを構築するベイズ的注意信念ネットワークと,決定論的-上向き-下向き構造でワイブル分布を積み重ねたエンコーダネットワークを紹介する。 結果のオートエンコーディングネットワークは、変分下界を持つ微分可能な方法で最適化することができる。 事前訓練されたモデルを含む決定論的注意を持つ任意のモデルを、提案されているベイズ注意信念ネットワークに変換するのは簡単である。 様々な言語理解タスクにおいて,本手法は,精度,不確実性推定,ドメイン間の一般化,敵の攻撃に対する堅牢性において,決定論的注意と最先端の確率的注意を上回っていることを示す。 さらに,本手法がニューラルマシン翻訳および視覚的質問応答に適用可能であることを示し,本手法を様々な注意課題に組み込むことの可能性を示した。

Attention-based neural networks have achieved state-of-the-art results on a wide range of tasks. Most such models use deterministic attention while stochastic attention is less explored due to the optimization difficulties or complicated model design. This paper introduces Bayesian attention belief networks, which construct a decoder network by modeling unnormalized attention weights with a hierarchy of gamma distributions, and an encoder network by stacking Weibull distributions with a deterministic-upward -stochastic-downward structure to approximate the posterior. The resulting auto-encoding networks can be optimized in a differentiable way with a variational lower bound. It is simple to convert any models with deterministic attention, including pretrained ones, to the proposed Bayesian attention belief networks. On a variety of language understanding tasks, we show that our method outperforms deterministic attention and state-of-the-art stochastic attention in accuracy, uncertainty estimation, generalization across domains, and robustness to adversarial attacks. We further demonstrate the general applicability of our method on neural machine translation and visual question answering, showing great potential of incorporating our method into various attention-related tasks.
公開日: Wed, 9 Jun 2021 17:46:22 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
Shujian Zhang * 1 Xinjie Fan * 1 Bo Chen 2 Mingyuan Zhou 1 周慈庵張※1新慈会ファン※1保陳2明元の周1 0.56
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] G L . 9 ] G L。 0.81
s c [ 1 v 1 5 2 5 0 sc [ 1 v 1 5 2 5 0 0.68
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Attention-based neural networks have achieved state-of-the-art results on a wide range of tasks. 概要 注意に基づくニューラルネットワークは、幅広いタスクで最先端の結果を得ています。 0.52
Most such models use deterministic attention while stochastic attention is less explored due to the optimization difficulties or complicated model design. このようなモデルの多くは決定論的注意を必要とするが、確率的注意は最適化の困難さや複雑なモデル設計のためにあまり探求されない。 0.50
This paper introduces Bayesian attention belief networks, which construct a decoder network by modeling unnormalized attention weights with a hierarchy of gamma distributions, and an encoder network by stacking Weibull distributions with a deterministic-upward -stochasticdownward structure to approximate the posterior. 本稿では,非正規化注意重みをガンマ分布の階層構造でモデル化してデコーダネットワークを構築するベイズアテンション信頼ネットワークと,ワイブル分布を決定論的-上向き-下向き構造で積み重ねたエンコーダネットワークを紹介する。 0.80
The resulting auto-encoding networks can be optimized in a differentiable way with a variational lower bound. 結果のオートエンコーディングネットワークは、変分下界を持つ微分可能な方法で最適化することができる。 0.60
It is simple to convert any models with deterministic attention, including pretrained ones, to the proposed Bayesian attention belief networks. 事前訓練されたモデルを含む決定論的注意を持つ任意のモデルを、提案されているベイズ注意信念ネットワークに変換するのは簡単である。 0.57
On a variety of language understanding tasks, we show that our method outperforms deterministic attention and state-of-the-art stochastic attention in accuracy, uncertainty estimation, generalization across domains, and robustness to adversarial attacks. 様々な言語理解タスクにおいて,本手法は,精度,不確実性推定,ドメイン間の一般化,敵の攻撃に対する堅牢性において,決定論的注意と最先端の確率的注意を上回っていることを示す。 0.63
We further demonstrate the general applicability of our method on neural machine translation and visual question answering, showing great potential of incorporating our method into various attention-related tasks. さらに,本手法がニューラルマシン翻訳および視覚的質問応答に適用可能であることを示し,本手法を様々な注意課題に組み込むことの可能性を示した。 0.61
1. Introduction Attention-based architectures were originally proposed to induce useful inductive biases by aggregating features with learnable weights for sequence models (Sutskever et al , 2014; Bahdanau et al , 2015). 1. 導入注意に基づくアーキテクチャは、もともと、シーケンスモデルの学習可能な重み付き特徴を集約することで有用な帰納バイアスを誘導するために提案された(Sutskever et al , 2014; Bahdanau et al , 2015)。 0.76
Since the introduction of the attention-based Transformer (Vaswani et al , 2017), attention has become the foundation for many state-of-the-art models. 注意に基づくトランスフォーマー(Vaswani et al , 2017)の導入以来、多くの最先端モデルの基盤となっている。 0.56
Due to the computational efficiency and scalability 計算効率とスケーラビリティのために 0.73
*Equal contribution 2Xidian University. ※寄付等 2Xidian University出身。 0.58
<mingyuan.zhou@mccomb s.utexas.edu>. 明元.zhou@mccombs.utexas .edu> 0.61
1The University of Texas at Austin Correspondence to: Mingyuan Zhou 1the university of texas at austin correspondence to: mingyuan zhou 0.80
Proceedings of the 38 th International Conference on Machine Learning, PMLR 139, 2021. 第38回機械学習国際会議(PMLR 139, 2021)の開催報告 0.68
Copyright 2021 by the author(s). 著作者による著作権2021。 0.53
of the Transformer structure, it becomes possible to train unprecedented large models on big datasets (Devlin et al , 2018), which stimulates a great amount of research to pretrain models on large unlabeled datasets. Transformer構造では、大規模なデータセット(Devlin et al , 2018)で前例のない大規模なモデルをトレーニングすることが可能になり、大規模なラベルのないデータセットでモデルを事前トレーニングするための大量の研究が刺激される。 0.65
In an unsupervised manner, this approach learns useful representations that benefit downstream tasks, achieving tremendous success in natural language processing (Devlin et al , 2018; Lan et al , 2019; Liu et al , 2019; Joshi et al , 2020; Radford et al , 2018; Yang et al , 2019), compute vision (Dosovitskiy et al , 2020; Chen et al , 2020), and multi-modal tasks (Chen et al , 2019; Lu et al , 2019). 教師なしの方法で、このアプローチは下流タスクに利益をもたらす有用な表現を学び、自然言語処理(Devlin et al , 2018; Lan et al , 2019; Liu et al , 2019; Joshi et al , 2020; Radford et al , 2018; Yang et al , 2019)、コンピュータビジョン(Dosovitskiy et al , 2020; Chen et al , 2020)、マルチモーダルタスク(Chen et al , 2019; Lu et al , 2019)において大きな成功を収めている。 0.86
Most of the attention networks treat attention weights as deterministic rather than random variables, leading to the whole networks mostly composed of deterministic mappings. アテンションネットワークの多くは、アテンション重みを確率変数よりも決定論的に扱うため、ネットワーク全体が決定論的マッピングで構成されている。
訳抜け防止モード: 注意ネットワークのほとんどは、注意重みをランダム変数よりも決定論的に扱う。 ネットワーク全体が決定論的マッピングで構成されています
0.76
Such networks, although simple to optimize, are often incapable of modeling complex dependencies in data (Chung et al , 2015). このようなネットワークは、最適化は簡単だが、データ内の複雑な依存関係をモデル化できないことが多い(chung et al , 2015)。
訳抜け防止モード: このようなネットワークは 最適化は簡単ですが データにおける複雑な依存関係のモデリング (chung et al, 2015)。
0.80
By contrast, stochastic belief networks (Neal, 1992; Hinton et al , 2006; Gan et al , 2015; Zhou et al , 2016; Zhang et al , 2018; Fraccaro et al , 2016; Fan et al , 2021; Bayer & Osendorfer, 2014; Bowman et al , 2016), stacking stochastic neural network layers, have shown great advantages over deterministic networks in not only modeling highly structured data but also providing uncertainty estimation. 対照的に、確率的信念ネットワーク(Neal, 1992; Hinton et al , 2006; Gan et al , 2015; Zhou et al , 2016; Zhang et al , 2018; Fraccaro et al , 2016; Fan et al , 2021; Bayer & Osendorfer, 2014; Bowman et al , 2016; 確率的ニューラルネットワークレイヤの積み重ねは、高度に構造化されたデータをモデル化するだけでなく、不確実性評価も提供する決定論的ネットワークよりも大きな利点を示している。 0.83
This paper proposes Bayesian attention belief networks (BABN), where we build deep stochastic networks by modeling unnormalized attention weights as random variables. 本稿では,非正規化注意重みをランダム変数としてモデル化することにより,深い確率的ネットワークを構築するベイズ的注意信念ネットワーク(BABN)を提案する。 0.60
First, we construct the generative (decoder) network with a hierarchy of gamma distributions. まず,ガンマ分布の階層を持つ生成型(デコーダ)ネットワークを構築する。 0.76
Second, the inference (encoder) network is a stack of Weibull distributions with a deterministic-upward and a stochastic-downward path. 第二に、推論(エンコーダ)ネットワークは、決定論的上向きと確率論的下向きの経路を持つワイブル分布のスタックである。 0.62
Third, we leverage the efficient structure of existing deterministic attention networks and use the keys and queries of current attention networks to parameterize the distributions of BABN. 第三に、既存の決定論的アテンションネットワークの効率的な構造を活用し、現在のアテンションネットワークのキーとクエリを使ってBABNの分布をパラメータ化する。
訳抜け防止モード: 第3に 既存の決定論的注意ネットワークの効率的な構造を 現在のアテンションネットワークのキーとクエリを使って babnの分布をパラメータ化する。
0.78
This efficient architecture design enables us to easily convert any existing deterministic attention networks, including pretrained ones, to BABN. この効率的なアーキテクチャ設計により、事前学習したものを含む既存の決定論的注意ネットワークを簡単にBABNに変換することができる。
訳抜け防止モード: この効率的なアーキテクチャ設計は 事前学習を含む既存の決定論的注意ネットワークをBABNに簡単に変換する。
0.76
Meanwhile, it imposes natural parameter and computational sharing within the networks, maintaining computation efficiency and preventing overfitting. 一方、ネットワーク内で自然パラメータと計算共有を強制し、計算効率を保ち、オーバーフィットを防ぐ。 0.69
Finally, we optimize both the decoder and encoder networks with an evidence lower bound. 最後に,デコーダネットワークとエンコーダネットワークの両方を,エビデンスを低くした最適化を行う。 0.68
As the encoder network is composed of a reparameterizable distribution, i.e., Weibull distribution, the training objective is differentiable. エンコーダネットワークは、再パラメータ可能な分布、すなわちワイブル分布からなるので、訓練目的を微分可能とする。 0.70
Further, leveraging the fact that the Kullback– さらに、kullback- 0.31
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
Leibler (KL) divergence from the gamma to Weibull distribution is analytic, we can efficiently reduce the gradient estimation variance. ガンマ分布からワイブル分布へのリーブラー(KL)のばらつきは解析的であり、勾配推定のばらつきを効率的に低減することができる。
訳抜け防止モード: leibler (kl ) はガンマからワイブル分布への分岐は解析的である。 勾配推定のばらつきを効率的に低減できる。
0.70
The proposed BABN has a generic architecture so that any existing deterministic attention models, including pretrained ones, can be converted to BABN while maintaining the inherent advantages of conventional attention, such as efficiency and being simple to optimize. 提案したBABNは、既存の決定論的注意モデル(事前学習を含む)をBABNに変換し、効率や最適化の容易さといった従来の注意の利点を保ちながら汎用的なアーキテクチャを持つ。 0.76
Our proposed method is generally simple to implement and boosts the performance while only slightly increasing the memory and computational cost. 提案手法は,メモリと計算コストをわずかに増加させるだけで,実装が簡単で性能が向上する。 0.81
On various natural language understanding tasks, neural machine translation, and visual question answering, our method outperforms vanilla deterministic attention and state-of-the-art stochastic attentions, in terms of accuracy and uncertainty estimation. 自然言語理解タスク,ニューラルマシン翻訳,視覚的質問応答では,精度と不確実性評価の観点から,バニラ決定的注意と最先端の確率的注意よりも優れる。 0.75
We further demonstrate that BABN achieves strong performance in domain generalization and adversarial robustness. さらに、BABNは、ドメインの一般化と対向ロバスト性において強い性能を発揮することを示す。 0.44
2. Background on Attention Networks Most attention structures can be unified with the key, query and value framework, where keys and queries are used to calculate attention weights and values are aggregated by the weights to obtain the final output. 2. 注意ネットワークの背景 ほとんどの注意構造は、キー、クエリ、バリューフレームワークと統合することができ、キーとクエリを使用して注意重みを計算し、値を重みで集約して最終的な出力を得る。 0.77
Formally, given n key-value pairs and m queries, we denote keys, values, and queries by K ∈ Rn×dk, V ∈ Rn×dv, and Q ∈ Rm×dk. 形式的には、n 個のキー-値対と m 個のクエリが与えられたとき、キー、値、クエリを K ∈ Rn×dk, V ∈ Rn×dv, Q ∈ Rm×dk で表す。
訳抜け防止モード: 正式には、nキーが与えられた値ペアとmクエリ。 K ∈ Rn×dk でキー、値、クエリを表す。 V ∈ Rn×dv と Q ∈ Rm×dk である。
0.81
Note that the second dimension of K and Q are often equal because we usually need to compute scaled dot-product between key and query (Vaswani et al , 2017) as dk ∈ Rm×n. K と Q の第二次元は、通常、キーとクエリの間のスケールしたドット積を dk ∈ Rm×n として計算する必要がある(Vaswani et al , 2017)。 0.81
Φ = fdot(Q, K) = QK T / t = fdot(Q, K) = QK T / 0.75
(cid:112) To ensure that the attention weights are positive and sum up to one across keys, fdot is often followed by a softmax function to obtain the final attention weights W = softmax(fdot(Q, K)). (cid:112) 注意重みが正であることを保証するために、fdot はしばしばsoftmax関数を付けて最後の注意重み w = softmax(fdot(q, k)) を得る。
訳抜け防止モード: (cid:112) 注意重みが正であり、キーをまたいで1つにまとめられるようにする。 fdot はしばしばsoftmax 関数に追従される 最終的な注意重み w = softmax(fdot(q, k)) を得る。
0.76
In detail, first we obtain positive unnormalized weights S with the exponential function: S = exp(Φ), then we normalize S across the key dimension with fnorm as 詳しくは、まず指数関数を持つ正の非正規化重み S を得る: S = exp( ) すると、鍵次元にわたって S をfnorm で正規化する。 0.82
Wi,j = fnorm(S)i,j := Wi,j = fnorm(S)i,j := 0.85
Si,j(cid:80)n Si,j(cid:80)n 0.94
j(cid:48)=1 Si,j(cid:48) j(cid:48)=1 Si,j(cid:48) 0.83
, where M’s are parametric matrices to learn. , M’sは学習すべきパラメトリック行列である。 0.80
The output of this attention layer, Ol, can be fed as next layer’s input I l+1 = Ol, and we can iterate the above process to obtain a deep self-attention-based neural network. この注目層の出力であるOlは、次の層の入力I l+1 = Olとして供給することができ、上記のプロセスを反復して、深い自己注意に基づくニューラルネットワークを得ることができる。 0.69
Note that other structure details (Vaswani et al , 2017), such as residual structure (He et al , 2016), feed forward networks, and layer normalization (Ba et al , 2016), are also indispensable for the network but it would not affect the general framework we describe here. その他の構造の詳細(Vaswani et al , 2017)、例えば残留構造(He et al , 2016)、フィードフォワードネットワーク(Feed forward network)、レイヤ正規化(Ba et al , 2016)もネットワークには不可欠であるが、ここで説明する一般的なフレームワークには影響しない。 0.79
3. BABN: Bayesian Attention Belief Networks We introduce an efficient solution for deep attention belief networks: (a) build a hierarchical distribution to model unnormalized attention weights as the generative model, (b) develop an inference network with a deterministic-upward stochastic-downward structure, and (c) leverage existing attention architectures and a few light-weight linear layers to parameterize the distributions. 3. BABN: Bayesian Attention Belief Networks (a) 生成モデルとして非正規化注意重みをモデル化するための階層的分布を構築する、(b) 決定論的-上向き確率-下向き構造を持つ推論ネットワークを開発する、(c) 既存の注目アーキテクチャといくつかの軽量線形層を活用して分布をパラメータ化する。 0.88
The resulting architecture can be efficiently learned with variational inference. 結果のアーキテクチャは、変分推論で効率的に学習することができる。 0.60
3.1. Deep Gamma Decoder Attention Networks 3.1. Deep Gamma Decoder Attention Networks 0.78
Denoting a supervised learning problem with training data D := {xi, yi}N i=1, the conditional probability for conventional attention-based model is pθ(yi | xi, Wi), where Wi := fθ(xi), fθ(·) is a deterministic transformation, and θ is the neural network parameter that includes the attention projections M’s. トレーニングデータ d := {xi, yi}n i=1 で教師付き学習問題を示すと、従来の注意に基づくモデルの条件付き確率は pθ(yi | xi, wi) であり、wi := fθ(xi), fθ(·) は決定論的変換であり、θ は注意射影 m を含むニューラルネットワークパラメータである。 0.81
For notational convenience, below we drop the data index i. 表記の便宜のために、下記のデータインデックスを落とします。 0.63
Even though the deterministic attention mechanism is easy to implement and optimize, it often fails to capture complex dependencies or provide uncertainty estimation (Fan et al , 2020). 決定論的注意機構は実装や最適化が容易であるが、複雑な依存関係を捉えたり、不確実性の推定を提供するのに失敗することが多い(fan et al , 2020)。 0.63
To remedy such issues, we construct deep stochastic attention networks by treating attention weights as latent variables. このような問題を解決するために,注意重みを潜在変数として扱うことで,深い確率的注意ネットワークを構築する。 0.49
Instead of directly modeling the normalized attention weights W = {W l}L l=1 on the simplex, we find it easier to model the unnormalized weights S = {Sl}L l=1 on the positive real line. 正規化された注意重み W = {W l}L l=1 を単純体上で直接モデル化する代わりに、正の実数直線上で非正規化された重み S = {Sl}L l=1 をモデル化するのが簡単である。 0.71
We model the distribution of S with a product of gamma distributions: 我々はガンマ分布の積でSの分布をモデル化する。 0.77
l=1 Gamma(Sl | αl = f l l=1 Gamma(Sl | αl = f l) 0.82
η(S1:l−1, x), β), η(S1:l−1, x), β) 0.90
pη(S | x) =(cid:81)L pη(S | x) = (cid:81)L 0.94
for i = 1, ..., m, j = 1, ..., n. Finally, the output of attention is O = W V ∈ Rm×dv, aggregating the values according to the attention weights. i = 1, ..., m, j = 1, ..., n. 最後に、注意の出力は O = W V ∈ Rm×dv であり、注意重みに応じて値を集約する。 0.77
This generic architecture can be used in many different models and applications. この汎用アーキテクチャは多くの異なるモデルやアプリケーションで使用することができる。 0.71
More interestingly, attention layers can be stacked on top of each other to build a deep neural network that is capable of modeling complicated deterministic functions. さらに興味深いことに、注意層を積み重ねることで、複雑な決定論的機能をモデル化できるディープニューラルネットワークを構築することができる。 0.77
For example, in self-attention, denote the input of the lth attention layer by I l, then we can obtain the key K l, query Ql, and value V l by linearly projecting I l to different spaces: K l = I lM l V , Q, V l = I lM l 例えば、自己注意において、I l による l 番目の注意層の入力を表すならば、K l = I lM l V , Q, V l = I lM l を線型射影することにより、キー K l, クエリ Ql, 値 V l を得ることができる。 0.83
K, Ql = I lM l K, Ql = I lM l 0.85
where the shape parameter αl at the lth layer is the output of a neural network f l η parameterized by η, and the rate parameter is a positive constant β. ここで、l 層における形状パラメータ αl は η でパラメータ化されたニューラルネットワーク fl η の出力であり、レートパラメータは正の定数 β である。 0.89
The gamma distribution has been widely used for modeling positive real variables and is known to be capable of capturing sparsity and skewness. ガンマ分布は正の実変数のモデル化に広く用いられており、空間性と歪さを捉えることができることが知られている。
訳抜け防止モード: ガンマ分布は正の実変数のモデル化に広く用いられている 空間と歪みを捉えられることが知られています
0.74
It is particularly attractive for modeling unnormalized attention weights because normalizing the gamma distributions with the same rate parameter leads to a Dirichlet distribution, which is commonly used for modeling variables on the simplex (Blei et al , 2003; Zhou et al , 2016; Deng et al , 2018; Fan et al , 2020). ガンマ分布を同じ速度パラメータで正規化すると、単純体上の変数のモデリングに一般的に使用されるディリクレ分布(Blei et al , 2003; Zhou et al , 2016; Deng et al , 2018; Fan et al , 2020)につながるため、非正規化注意重みのモデリングには特に魅力的である。 0.83
In this way, the whole generative このようにして、全生成物は 0.62
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
process can be expressed as: プロセスは次のように表現できる。 0.65
S ∼ pη(·| x), y ∼ pθ(·| x, fnorm(S)). S は pη(·| x)、y は pθ(·| x, fnorm(S)) である。 0.75
Remark 1. Bayesian inference via Gibbs sampling is available when {f l l=1 are simple linear projections and pθ is the Poison distribution (Zhou et al , 2016): 備考1。 ギブスサンプリングによるベイズ推論は、 {f l l=1 が単純線型射影であり、pθ がポゾン分布であるときに利用できる(Zhou et al , 2016)。 0.60
η}L η(S1:l−1, x) = W lSl−1, for l = 1, ..., L, f l y ∼ Poisson(W L+1SL). η}L η(S1:l−1, x) = W lSl−1, for l = 1, ..., L, f l y . Poisson(W L+1SL)。 0.90
(1) We sketch the Gibbs sampler (see Zhou et al (2016) for details) in Fig 1, whose upward and downward structure motivates the design of our encoder (inference) network architecture which we will discuss in detail in Section 3.2. (1) 図1のGibsサンプル(詳細はZhou et al (2016)を参照)をスケッチし、上向きと下向きの構造はエンコーダ(推論)ネットワークアーキテクチャの設計を動機付け、セクション3.2で詳しく論じる。 0.77
Efficient and Expressive Structures for αl. αlの効率的・表現的構造 0.74
To be able to model complicated dependencies, we use neural networks to model the mapping {f l l=1 from S1:l−1 and x to Sl. 複雑な依存関係をモデル化するために、ニューラルネットワークを使用して、S1:l−1 と x から Sl へのマッピング {f l l=1 をモデル化する。 0.71
Howη would ever, having separate neural networks for each f l lead to memory and computation redundancy as it does not exploit the hierarchical relationships among {f l η}L l=1. f l η}L l=1 の階層的関係を利用していないため、f l ごとに別々のニューラルネットワークを持つことは、メモリと計算の冗長性につながる。 0.82
Therefore, we leverage the current attention’s efficient structure, and note that the key K l at layer l is a function output of previous attention weights S1:l−1 and input x. したがって、現在の注意の効率的な構造を利用し、層 l におけるキー Kl が、前の注意重み S1:l−1 と入力 x の関数出力であることに注意する。 0.78
This motivates us to make use of the key K l at layer l to construct η. このことは、層 l における鍵 K l を利用してη を構成する動機である。 0.73
In particular, we apply a two-layer MLP to transform f l key K l to obtain αl: 特に、flキーKlを変換してαlを得るために2層MLPを適用する。
訳抜け防止モード: 特に2層MLPを適用します。 to transform f l key K l to get αl:
0.80
η}L αl = softmax(f l η}L αl = softmax(fl) 0.88
η,2(ReLU(f l η,2(ReLU(f l) 0.81
η,1(K l)))), η,1(k l)))) 0.87
η,1, f l where f l η,2 are two linear layers connected by the nonlinear activation function, ReLU (Nair & Hinton, 2010). η,1,fl ここで f l η,2 は非線形活性化関数 ReLU (Nair & Hinton, 2010) で連結された2つの線型層である。 0.83
This architecture imposes natural parameter and computation sharing in a hierarchical way, which could not only improve efficiency but also prevent overfitting. このアーキテクチャは、自然なパラメータと計算の共有を階層的に課し、効率を向上するだけでなく、過度な適合を防げる。 0.69
3.2. Deep Weibull Encoder Attention Networks 3.2. Deep Weibull Encoder Attention Networks 0.78
Due to the nonlinear structure of the decoder attention network, deriving the Gibbs sampler is not feasible and its scalability is also a concern. デコーダアテンションネットワークの非線形構造のため、ギブス・サンプラーの導出は実現不可能であり、拡張性も懸念されている。 0.59
In this regard, we propose an encoder network to learn a variational distribution qφ to approximate the posterior distribution of unnormalized attention weights S. We model the variational distribution qφ with a product of Weibull distributions: 本稿では,非正規化注意重みの後方分布を近似する変分分布qφをWeibull分布の積でモデル化するエンコーダネットワークを提案する。 0.62
qφ(S | x, y) =(cid:81)L qφ(S | x, y) =(cid:81)L 0.97
l=1 Weibull(Sl | kl, λl), l=1 Weibull(Sl | kl, λl) 0.98
where kl, λl are the Weibull shape and scale parameters, respectively. ここで kl と λl はそれぞれワイブル形状とスケールパラメータである。 0.79
The reason for choosing the Weibull distribution is threefold (Zhang et al , 2018): First, the Weibull is similar to gamma distribution, capable of modeling sparse, skewed, and positive distributions. ワイブル分布を選択する理由は3倍である(Zhang et al , 2018): まず、ワイブル分布はガンマ分布に似ており、スパース、スキュード、正の分布をモデル化できる。 0.76
Second, unlike the Figure 1. (a) The structure of the generative model that models unnormalized attention weights with a hierarchy of gamma distributions. 第二に、 図1。 (a)非正規化注意重みをガンマ分布の階層構造でモデル化する生成モデルの構造。 0.72
(b) A sketch of an upward-downward Gibbs sampler mimicking that of the gamma belief network (Zhou et al , 2016), whose generative model is similarly structured as in (a). b) A sketch of a up-downward Gibbs sampler mimicing that of the gamma belief network (Zhou et al , 2016) which generative model are similarly structured as (a)。 0.75
Z are augmented latent counts that facilitate the derivation of close-form Gibbs sampling update equations. z は、近距離ギブスサンプリング更新方程式の導出を容易にする拡張潜在数である。 0.56
(c) Motivated by the Gibbs sampler’s structure, we design the inference network in a similar upward-downward way, where h represents a deterministic upward path and S represents a stochastic downward path. (c)Gibbs サンプル装置の構造に動機づけられた推論ネットワークを,h が決定論的上向きの経路,S が確率論的下向きの経路を表すような上向きの方法で設計する。 0.76
Note that our inference network is not conditioned on y as we are dealing with a supervised problem. 教師付き問題を扱うため、私たちの推論ネットワークはyについて条件付けされていないことに注意してください。 0.46
Conditioned on y would prevent directly using the inference network for new data points. y 上で条件付けられた場合、新しいデータポイントに推論ネットワークを直接使用するのを防げる。 0.58
gamma distribution, the Weibull distribution has a simple reparameterization so that it is easier to optimize. ガンマ分布、ワイブル分布は最適化が容易になるように単純な再パラメータ化を持つ。 0.78
That is, to sample s ∼ Weibull(k, λ) with probability density function (PDF) p(s| k, λ) = k λk sk−1e−(s/λ)k, it is equivalent to letting S = g() := λ(− log(1 − ))1/k,  ∼ Unif(0, 1). すなわち、確率密度関数 (PDF) p(s| k, λ) = k λk sk−1e−(s/λ)k のサンプル s > Weibull(k, λ) に対して、これは S = g( ) := λ(− log(1 − λ))1/k, > > Unif(0, 1) と等価である。 0.92
Third, there exists an analytic KL divergence as KL(Weibull(k, λ)||Gamma(α, β)) = γα k − α log λ + log k + k )− γ − 1− α log β + log Γ(α), where γ denotes βλΓ(1 + 1 the Euler–Mascheroni constant and Γ is the gamma function. 第3に、kl(weibull(k, λ)||gamma(α, β)) = γα k − α log λ + log k + k ) − γ − 1− α log β + log γ(α) という解析的なkl分岐が存在する。
訳抜け防止モード: 第三に、KL(Weibull(k, λ)||Gamma(α, β ) ) = γα k − α log λ として解析的な KL 分岐が存在する。 + log k + k ) − γ − 1− α log β log (複数形 logs) γ は βλ = 1 + 1 でオイラー–マシェロニ定数を表す はガンマ関数である。
0.89
This provides an efficient way to estimate the training objective which we will discuss in detail in Section 3.3. これは,3.3節で詳細に議論するトレーニング目標を効率的に見積もる方法を提供する。 0.73
Deterministic-upward and Stochastic-downward Structure. 決定論的上向き構造と確率的下向き構造 0.47
Inspired by the upward-downward Gibbs sampler sketched in Fig 1, we mimic the structure to construct an inference network as: 図1でスケッチした上向きのギブスサンプルにインスパイアされた構造を模倣して、推論ネットワークを構築する。 0.73
kl = f l λl = f l hl = f l kl = f l λl = f l hl = f l 0.92
k,h(hl) + f l λ,h(hl) + f l h(hl+1), k,h(hl) + f l λ,h(hl) + f l h(hl+1) 0.88
k,S(S1:l−1, x), λ,S(S1:l−1, x), k,S(S1:l−1, x) λ,S(S1:l−1, x) 0.98
where {hl}L+1 l=1 serve as the augmented latent variables passing the information from data upwards and complement the downward information from attention variables S. A similar bottom-up and top-down structure was proposed in the ここで {hl}L+1 l=1 はデータから情報を上向きに渡す拡張潜在変数として機能し、アテンション変数 S から下方への情報を補完する。 0.66
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
Figure 2. Illustration of the difference and similarity between the vanilla deterministic attention and one layer of our Bayesian attention belief networks. 図2。 バニラ決定論的注意とベイジアン注意信念ネットワークの1つの層の違いと類似性の図示。 0.71
Bayesian attention belief networks (BABN) share the same architecture as the deterministic attention before obtaining key, query, and value. ベイズ的注意ネットワーク(BABN)は、鍵、クエリ、価値を得る前に決定論的注意と同じアーキテクチャを共有する。 0.68
Then BABN adds light-weight linear layers to construct the gamma and Weibull distributions to model unnormalized attention weights, which are used after normalization to obtain the layer output as in the vanilla deterministic attention. 次にbabnは、ガンマ分布とワイブル分布を構成するために軽量線形層を追加し、正規化後に使用される非正規化注意重みをモデル化し、バニラ決定論的注意で出力される層を得る。 0.60
ladder VAE (Sønderby et al , 2016) and was found to help the optimization. ladder vae (sønderby et al , 2016) は最適化に役立つことが判明した。 0.81
In our experiments (section 5.3), we also found that the upward and downward structure plays an important role as the downward path delivers the prior information and the upward path delivers the likelihood information. 我々の実験(セクション5.3)では、下向きの経路が事前情報を提供し、上向きの経路が確率情報を提供するため、上向きと下向きの構造が重要な役割を果たすこともわかりました。
訳抜け防止モード: 実験(セクション5.3)では、また、 上向きと下向きの構造は、下向きの経路が以前の情報を提供するときに重要な役割を果たす 上向きの経路は 可能性情報をもたらします
0.78
Without the upward path of h, the model often has unstable performances. h の上昇経路がなければ、モデルはしばしば不安定な性能を持つ。 0.74
We note that although qφ is independent of y during testing, it is possible for qφ to depend on part of y that has already been observed by the model during training in sequence generation tasks, such as neural machine translation, where the queries come from y. qφ はテスト中は y とは独立であるが、qφ は y からクエリが送られてくるニューラルマシン翻訳のようなシーケンス生成タスクのトレーニング中に既にモデルによって観測された y の一部に依存することができる。 0.80
Further, we think it is possible for qφ to approximate p(S|x, y) even without conditioning on y as x conveys information of y. さらに、x が y の情報を伝えるように y を条件付けしなくても qφ が p(S|x, y) に近似できると考える。 0.75
Formally, we define f l 正式には fl と定義します 0.64
h as follows: λ,h, f l 以下に示す。 λ,h,fl 0.54
λ,S, f l k,S, f l λ,S,fl k,S,fl 0.64
(cid:104) (cid:104) (cid:104)(cid:104) 0.74
k,h, f l kl = ρ ∗ ln λl = σ ∗ ln hl = ln k,h, f l kl = ρ ∗ ln λl = σ ∗ ln hl = ln 0.89
(cid:104) 1 + exp (cid:104) 1 + exp 0.82
(cid:16) (cid:16) (cid:16)(cid:16) 0.73
(cid:17)(cid:105) (cid:17)(cid:105) (cid:17)(cid:105) (cid:17)(cid:105) (cid:17)(cid:105) (cid:17)(cid:105) 0.72
, 1 + exp 1 + exp , 1 + exp 1 + exp 0.85
(cid:16) φ,1(hl) f l φ,2(hl) f l φ,3(hl+1) f l (cid:16) φ,1(hl) f l φ,2(hl) f l φ,3(hl+1) f l 0.81
+ exp(Φl), + exp(Φl) exp (複数形 exps または exp (複数形 exps) 0.74
Γ(1+1/kl) , γ(1+1/kl) , 0.59
φ,1, f l φ,2, and f l φ,1,fl φ,2,fl 0.82
where f l φ,3 are linear layers that preserve the dimension of hl, and hL+1 is initialized as a function of x: hL+1 = fφ,0(x). f l φ,3 は hl の次元を保存する線型層であり、hL+1 は x の函数として初期化される: hL+1 = fφ,0(x) 。 0.76
The structure involves the following parts. 構造は以下の部分を含む。 0.79
1) For kl, λl, we introduce weights ρ, σ to balance the importance of the two parts in kl, λl. 1) kl, λlに対して, kl, λl における2つの部分の重要性のバランスをとるために重み ρ, σ を導入する。 0.72
2) We leverage the efficient deterministic attention architecture to construct the functions f l λ,S, where Φl = f (Ql, K l) is the function of S1:l−1 and x. 2) φl = f (ql, k l) は s1:l−1 と x の関数である fl λ,s を構成するために効率的な決定論的注意構造を利用する。 0.89
Using Φl to construct the inference network is an efficient way to introduce parameter and computation sharing between the layers of the encoder and decoder. 推論ネットワークを構築するには、エンコーダとデコーダの層間でパラメータと計算の共有を導入するのが効率的な方法である。 0.79
3) For λl, we rescale exp(Φl) with Γ(1 + 1/kl) so that the expectation of the Weibull distribution is exp(Φl) when σ = 0, which corresponds to the deterministic attention before normalization. 3) λl に対して、weibull 分布の期待値が σ = 0 のとき exp(φl) となるように γ(1 + 1/kl) で exp(φl) をリスケールする。
訳抜け防止モード: 3 ) λl に対し、weibull 分布の期待値が exp(\l ) となるように、 exp(\l ) を 1 + 1 / kl ) で再スケールする。 σ = 0 は正規化前の決定論的注意に対応する。
0.79
4) In addition, we model 4)それに加えて、私たちはモデルです。 0.57
k,S and f l k,h, f l k,S,fl k,h,fl 0.56
λ,h, f l the functions f l h with linear layers coupled with ln[1 + exp(·)] to obtain positive outputs. λ,h,fl ln[1 + exp(·)] と結合された線形層を持つ関数 f l h は正の出力を得る。 0.74
We need to point out that both Φl and hl are functions of only x but not y, which enables us to directly use the variational distribution qφ during testing for new data points (Wang & Zhou, 2020; Fan et al , 2021). φl と hl はともに y ではなく x の関数であり、新しいデータポイントのテスト中に qφ の変分分布を直接使うことができることを指摘する必要がある(wang & zhou, 2020; fan et al , 2021)。 0.82
5) We leverage the key and query of the first attention layer to initialize hidden states hL+1. 5) 最初のアテンション層のキーとクエリを利用して隠れた状態 hl+1 を初期化する。 0.69
In particular, we let hL+1 = softmax(Φ1). 特に、hl+1 = softmax(φ1) とする。 0.71
As there is yet no randomness introduced to Φ1, this mapping from x to hL+1 is still deterministic. φ1 にまだランダム性が導入されていないので、x から hl+1 へのこの写像は決定論的である。 0.52
By sharing the parameter and computation with the main network, fφ,0 does not add any memory or computation cost. パラメータと計算をメインネットワークと共有することで、fφ,0はメモリや計算コストを加算しない。 0.82
Remark 2. As our model leverages the efficient structure of the existing deterministic attention module and uses keys and queries to construct the prior and variational distribution for unnormalized attention weights, it is simple to convert existing deterministic attention networks to BABN. 備考2。 提案モデルでは,既存の決定論的アテンションモジュールの効率的な構造を活用し,キーとクエリを用いて非正規化アテンション重みに対する事前および変動分布を構築するので,既存の決定論的アテンションネットワークをBABNに変換することは容易である。
訳抜け防止モード: 備考2。 我々のモデルは既存の決定論的注意モジュールの効率的な構造を利用する キーとクエリを使って 非正規化注意重みの事前および変動分布を構築する 既存の決定論的注意ネットワークをBABNに変換するのは簡単である。
0.60
Fig. 2 shows that BABN shares parts of architecture with the deterministic attention. フィギュア。 BABNはアーキテクチャの一部を決定論的に共有していることを示している。 0.46
BABN adds a few light-weight linear layers to construct the gamma prior and Weibull variational distribution with the upward-downward structure. BABNは、上向きの構造を持つガンマ前波とワイブル変動分布を構成するために、いくつかの軽量線型層を追加している。
訳抜け防止モード: BABNが軽量リニア層を追加 ガンマ前波とワイブル変動分布を構成する 上向き - 下向きの構造で。
0.80
More importantly, we note that we can use pretrained deterministic attention model checkpoints to initialize BABN, and then finetune the stochastic neural network. より重要なのは、事前学習された決定論的注意モデルチェックポイントを使用してBABNを初期化し、確率的ニューラルネットワークを微調整できることである。
訳抜け防止モード: さらに重要なのは 事前訓練された決定論的アテンションモデルチェックポイントを使用して BABNを初期化し 確率的ニューラルネットワークを微調整できます
0.74
Remark 3. BABN can be easily extended to multi-head attention, where queries, keys, and values are projected H times linearly with H different learned projections, and the outputs of H heads are concatenated as the final output. 第3話。 BABNは、クエリ、キー、値がHの異なる学習プロジェクションと線形にH回投影され、Hヘッドの出力が最終出力として連結されるマルチヘッドアテンションに容易に拡張できる。 0.55
Since the unnormalized multi-head attention weights are conditionally independent, we can still model the unnormalized attention weights with the same hierarchical formulation. 非正規化マルチヘッドアテンション重みは条件独立であるため、同じ階層的定式化で非正規化アテンション重みをモデル化することができる。 0.62
Specifically, for each layer, conditioned on previous layers, we obtain the queries, keys for multiple heads to construct the distributions for unnormalized attention 具体的には、各層について、前層に条件付きでクエリ、複数ヘッドのキーを取得し、非正規化注意のための分布を構築する。 0.64
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
weights of each head separately. 各頭部の重量は別々である。 0.63
Then, we normalize the attention weights for each head so that within each head, the attention weights sum to one across keys, which is the same as the vanilla multi-head attention model. 次に、各頭部に対する注意重みを正規化し、各頭部において注意重みをキー間の1つに合計し、これはバニラ多頭注意モデルと同じである。 0.72
3.3. Learning Bayesian Attention Belief Networks 3.3. ベイズ注意信念ネットワークの学習 0.77
Now, we have defined the gamma decoder network and Weibull encoder network. 現在、ガンマデコーダネットワークとワイブルエンコーダネットワークを定義している。 0.62
We learn the encoder network qφ to approximate the posterior distribution p(S | x, y) by minimizing the KL divergence, LKL = KL(qφ(S)||p(S | x, y)), which is equivalent to maximizing, L(x, y) := Eqφ(S) [log pθ(y | x, S)] − KL(qφ(S)||pη(S)), an evidence lower bound (ELBO) (Hoffman et al , 2013; Blei et al , 2017; Kingma & Welling, 2013) of the intractable log marginal likelihood log p(y | x) = 我々は、L(x, y) := Eqφ(S) [log pθ(y | x, S)] − KL(qφ(S)||pη(S)), 証拠下限 (ELBO) (Hoffman et al , 2013; Blei et al , 2017; Kingma & Welling, 2013) の最大化と等価なKL発散数 L(x, y) = KL(qφ(S) := Eqφ(S) [log pθ(y | x, S)] − KL(qφ(S)||pη(S)), を最小化して、後部分布 p(S | x, y) を近似するためにエンコーダネットワーク qφ を学ぶ。 0.90
log(cid:82) pθ(y | x, S)pη(S)dS. log(cid:82) pθ(y | x, S)pη(S)dS 0.94
The objective L consists of two 目的 l は 2 つからなる 0.80
parts: the likelihood part, which maximizes the data likelihood under the encoder network; the regularization part, which enforces the variational distribution to be close to the prior distribution. 部分:エンコーダネットワークの下のデータ可能性を最大化する可能性部; 正規化部; 変化分布を以前の分布に近づけるように強制する規則化部。 0.82
We also use the same objective L to learn the decoder networks pη and pθ, as the exact marginal likelihood is intractable, and the ELBO is a good approximation when the variational distribution well approximates the true posterior (Kingma & Welling, 2013). また、同じ目的 L を用いてデコーダネットワーク pη と pθ を学習し、正確な限界確率が引き起こせるようにし、変動分布が真の後部をよく近似すると、ELBO はよい近似となる(Kingma & Welling, 2013)。 0.77
Note that as qφ is a product of Weibull distributions, it is reparameterizable. qφ はワイブル分布の積であるため、再パラメータ化可能であることに注意。 0.60
In particular, to sample S from qφ, we sequentially sample Sl conditional on previous samples S1:l−1, as Sl ∼ Weibull(Sl | kl, λl). 特に、qφ から S をサンプリングするには、以前のサンプル S1:l−1 上の Sl 条件を Sl > Weibull(Sl | kl, λl) として順次サンプリングする。 0.68
This can be realized φ(l) := λl(− log(1 − l))1/kl, where by letting Sl = gl l is a tensor with the same shape as Sl and its elements are i.i.d samples from the uniform distribution. このことは φ(l) := λl(− log(1 − sl))1/kl と表せるが、ここでは sl = gl(sl) を sl と同じ形状のテンソルとし、その元を一様分布から i.i.d サンプルとする。 0.78
In practice, we found that drawing l from Uniform (0, 1) leads to numerical issues. 実際には、Uniform (0, 1) の描画は数値的な問題に繋がる。 0.56
Therefore, to prevent numeral instability, we choose to draw l from Uniform (0.1, 0.9) as an approximation. したがって、数値不安定を防ぐために、近似としてUniform (0.1, 0.9) から l を描画する。 0.72
Further, we note that at each layer l, the KL between the conditional distribution of encoder and decoder, KL(qφ(Sl | S1:l−1)||pη(Sl | S1:l−1)), is analytical. さらに、各層 l において、エンコーダとデコーダの条件分布の間の KL(qφ(Sl | S1:l−1)||pη(Sl | S1:l−1)) は解析的であることに注意する。 0.78
Therefore, we follow the same way in Fan et al (2020) to efficiently compute KL(qφ(S)||pη(S) by decomposing it as , where したがって、fan et al (2020) も同様の方法で kl(qφ(s)||pη(s) を分解して効率的に計算する。 0.73
(cid:125) Eqφ(S1:l−1) KL(qφ(Sl|S1:l−1)||pη(Sl|S1:l−1)) (cid:125) Eqφ(S1:l−1) KL(qφ(Sl|S1:l−1)||pη(Sl|S1:l−1)) 0.65
(cid:80)L (cid:123)(cid:122) (cid:80)l (cid:123)(cid:122) 0.78
(cid:124) l=1 (cid:124) l=1 0.69
the integrand is analytic. Putting it all together, we can rewrite the ELBO objective as L(x, y) = E[L(x, y, )], where 積分は解析的です。 全てをまとめると、ELBO の目的を L(x, y) = E\[L\(x, y, y)] と書き直すことができる。
訳抜け防止モード: 積分は解析的です。 全部まとめて。 ELBO の目的を L(x, y ) = E\[L\(x,y) と書き直すことができる。 y , y ) ] , where
0.75
analytic −(cid:88)L 分析 -(cid:88)L 0.82
L(x, y, ) = log pθ(y | x, gφ()) (cid:123)(cid:122) l(x, y, ) = log pθ(y | x, gφ()) (cid:123)(cid:122) 0.91
(cid:124) l=1 (cid:124) l=1 0.69
analytic KL(qφ(Sl | gφ(1:l−1))||pη(Sl | gφ(1:l−1))) 分析 KL(qφ(Sl | gφ(n1:l−1))||pη(Sl | gφ(n1:l−1))) 0.76
. (cid:125) . (cid:125) 0.82
With the reparameterization, now we can efficiently estimate the gradient of L with respect to θ, φ, η by computing the 再パラメータ化により、計算によって l の θ, φ, η に対する勾配を効率的に推定することができる。 0.74
gradient of L with one sample of . L の勾配は 1 つのサンプルである。 0.70
Both reparameterization and semi-analytic KL (Owen, 2013) reduce the Monte Carlo estimation variance and still keep the estimation unbiased. reparameterization と semi-analytic kl (owen, 2013) はモンテカルロ推定のばらつきを減少させ、推定の偏りを保ち続ける。 0.79
Finally, following previous work (Bowman et al , 2016), we add a weight λ to the KL term and anneal it from a small value to one. 最後に、以前の研究 (Bowman et al , 2016) に続いて、KL 項に重み λ を加え、それを小さな値から 1 に短縮する。 0.72
4. Related Work Stochastic attentions: Xu et al (2015), along with several following work (Shankar & Sarawagi, 2018; Deng et al , 2018), proposed hard attention to model attention weights with categorical distributions, which only attends to one subject at a time. 4. xu et al (2015) といくつかの研究 (shankar & sarawagi, 2018; deng et al , 2018) は、注意重みをカテゴリー分布でモデル化することへの厳格な注意を提案した。
訳抜け防止モード: 4. 作業確率的注意 : Xu et al (2015) いくつかの作品(Shankar & Sarawagi, 2018; Deng et al, 2018)とともに。 カテゴリー分布の重みをモデル化する 厳格な注意を 提案した。 一度に1つの主題にのみ 出席する。
0.78
The categorical distribution, however, is not reparameterizable and therefore hinders the use of standard backpropagation. しかし、カテゴリー分布は再パラメータ化できないため、標準バックプロパゲーションの使用を妨げている。 0.67
REINFORCE gradient estimator makes the optimization possible, but it has high variance and one often needs to carefully design baselines to make the performance comparable to deterministic attention (Xu et al , 2015; Deng et al , 2018). REINFORCE勾配推定器は最適化を可能にするが、ばらつきが高く、決定論的注意に匹敵するパフォーマンスを実現するために、しばしばベースラインを慎重に設計する必要がある(Xu et al , 2015; Deng et al , 2018)。 0.72
Stochastic soft attention, on the other hand, is less investigated. 一方, 確率的ソフト・アテンションは, あまり研究されていない。 0.35
Deng et al (2018) proposed modeling attention weights with the Dirichlet distribution, which is not reparameterizable and introduces optimization difficulties. Deng et al (2018) はディリクレ分布をモデル化することを提案したが、これは再パラメータ化不可能であり、最適化の難しさをもたらす。
訳抜け防止モード: deng et al (2018) の提案 再評価不能で最適化の困難さをもたらすディリクレ分布による注意重みのモデル化。
0.63
Fan et al (2020) considered using reparameterizable distributions, such as Lognormal and Weibull distributions, to model unnormalized attention weights, which alleviates the optimization issue of previous stochastic attention. fan et al (2020) は対数正規分布やワイブル分布のような再パラメータ可能な分布を用いて非正規化注意重みをモデル化することを検討した。 0.72
Compared to Fan et al (2020) who try to convert deterministic attention modules to stochastic ones, our method is motivated from building a deep stochastic network by modeling attention weights as random variables. 決定論的アテンションモジュールを確率的アテンションに変換しようとする Fan et al (2020) と比較すると,アテンション重みをランダム変数としてモデル化することにより,ディープ・確率的ネットワークの構築を動機付けている。
訳抜け防止モード: Fan et al (2020)と比較して 決定論的注意モジュールを確率的モジュールに変換しましょう 私たちの方法は 注意重みをランダム変数としてモデル化することで 深い確率ネットワークを構築します
0.67
With a deterministic-upward and stochastic-downward structure, our inference network comprises Weibull distributions, whose scale parameter λ and shape parameter k are both sample-dependent. 決定論的上向きおよび確率的下向きの構造により,この推論ネットワークは,スケールパラメータλと形状パラメータkが共にサンプル依存であるワイブル分布からなる。 0.69
This makes it differ from Fan et al (2020), where the shape parameter k, controlling the uncertainty of distribution, is a hyperparameter and the inference network does not involve a deterministic upward path. これは、分布の不確実性を制御する形状パラメータ k がハイパーパラメータであり、推論ネットワークが決定論的上向きの経路を含まない Fan et al (2020) とは異なる。 0.76
The proposed generalization gives us greater flexibility in modeling attention weights. 提案する一般化により,注意重みのモデル化における柔軟性が向上する。 0.57
We also conduct more extensive experiments to investigate the domain generalization ability and adversarial robustness of stochastic attentions. また,確率的注意の領域一般化能力と対角的堅牢性について,より広範な実験を行った。 0.56
Deep stochastic networks: Augmenting deterministic neural networks with random variables provides us a principled way to capture the randomness in data and estimate uncertainty (Gal & Ghahramani, 2016; Chung et al , 2015; Bowman et al , 2016; Tran et al , 2018). Deep Stochastic Network: ランダム変数による決定論的ニューラルネットワークの拡大は、データのランダム性を捕捉し、不確実性を推定する原則的な方法を提供します(Gal & Ghahramani, 2016; Chung et al , 2015; Bowman et al , 2016; Tran et al , 2018)。 0.82
More importantly, stacking stochastic layers into a deep stochastic network instead of a shallow probabilistic model is often preferable due to its capability to model more complicated dependencies (Zhang et al , 2018). より重要なことに、浅層確率モデルの代わりに、確率層を深い確率的ネットワークに積み重ねることは、より複雑な依存関係をモデル化する能力のため、しばしば好ましい(zhang et al , 2018)。 0.66
For example, Zhang et al (2018) have applied a gamma belief network for topic modeling, and a deep Weibull network is used to approximate the pos- 例えば、zhang et al (2018) はトピックモデリングにガンマ信念ネットワークを適用し、さらに深いweibullネットワークを用いてposの近似を行っている。 0.67
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
terior for scalable inference. 拡張性のある推論です 0.47
We apply a similar structure to the widely used attention models and leverage the existing efficient attention architecture to build scalable networks. 我々は、広く使われている注意モデルに同様の構造を適用し、既存の効率的な注意アーキテクチャを活用してスケーラブルなネットワークを構築する。 0.65
5. Experimental Results Our method can be straightforwardly deployed wherever the regular attention is utilized. 5. 実験結果: 本手法は, 通常の注意を利用すれば, 容易に展開できる。 0.73
To test its effectiveness and general applicability, we apply our method to a diverse set of tasks, including language understanding, neural machine translation, and visual question answering. 本手法の有効性と適用性を検証するため,言語理解,ニューラルマシン翻訳,視覚的質問応答など,さまざまなタスクに本手法を適用した。 0.80
For language understanding, we further study a model’s generalization across domains and robustness towards adversarial attacks. 言語理解においては、ドメイン間の一般化と敵攻撃に対する堅牢性をさらに研究する。 0.67
Meanwhile, we experiment with a diverse set of state-of-theart models, including, ALBERT (Lan et al , 2019), BERT (Devlin et al , 2018), and RoBERTa (Liu et al , 2019). 一方で、albert氏(lan et al , 2019)、bert氏(devlin et al , 2018)、roberta氏(liu et al , 2019)など、さまざまな最先端モデルを実験しています。
訳抜け防止モード: 一方、私たちは多種多様な状態 – テアートモデル – を試行しています。 ALBERT (Lan et al, 2019 )、BERT (Devlin et al, 2018 )を含む。 そしてRoBERTa (Liu et al , 2019)。
0.76
In the following, we provide the main experimental settings and results, with more details provided in Appendix A. 以下では、appendix aで提供される詳細とともに、主な実験的な設定と結果を提供する。 0.68
5.1. Attention in Natural Language Understanding 5.1. 自然言語理解における注意 0.75
The self-attention-based Transformer models have become the de-facto standard for NLP tasks. 自己注意に基づくトランスフォーマーモデルは、NLPタスクのデファクトスタンダードになっている。 0.60
The dominant approach is to first pretrain models on big corpora to learn generic features and then finetune the models on the corresponding datasets for downstream tasks. 主なアプローチは、まず大きなコーパス上のモデルを事前トレーニングして、一般的な機能を学び、その後、下流タスクの対応するデータセット上のモデルを微調整することだ。
訳抜け防止モード: 支配的なアプローチは、大きなコーパス上での最初の事前訓練モデルである 一般的な機能を学び、ダウンストリームタスクに対応するデータセットのモデルを微調整する。
0.67
This approach has constantly been refreshing the state-of-the-art results on various tasks. このアプローチは、さまざまなタスクの最先端の結果を常に更新しています。 0.52
However, the cost of training such models from scratch is often prohibitive for researchers with limited resources and it also brings burdens to our environment (Strubell et al , 2019). しかし、そのようなモデルをゼロからトレーニングするコストは、限られた資源を持つ研究者にとってしばしば禁止され、環境にも負担をもたらす(Strubell et al , 2019)。 0.70
For example, it takes 79 hours to train a BERT-base model on 64 V100 GPUs, which costs about $3, 751-$12, 571 cloud computations and brings CO2 emissions of 1438 lbs (Strubell et al , 2019). 例えば、64 V100 GPU上でBERTベースのモデルをトレーニングするのに79時間かかり、約3,751-$12,571のクラウド計算と1438 lbのCO2排出をもたらす(Strubell et al , 2019)。 0.68
Considering this, we believe that starting from pretrained models is not only efficient and environmental friendly, but also makes it accessible for researchers with limited computations. これを考えると、事前訓練されたモデルから始めることは効率的で環境にやさしいだけでなく、限られた計算量を持つ研究者にも利用できると信じている。
訳抜け防止モード: こう考えると 事前訓練されたモデルから始まり 効率的で環境に優しいだけでなく、限られた計算量を持つ研究者にも利用できる。
0.77
As discussed in Remark 2, we can convert a pretrained deterministic attention model to BABN and then finetune it on downstream tasks. Remark 2で述べたように、事前学習された決定論的注意モデルをBABNに変換し、下流タスクで微調整することができる。 0.60
Therefore, in this section, we investigate the effectiveness of only applying BABN during the finetuning stage. そこで本稿では,微調整段階におけるBABN適用のみの有効性について検討する。 0.70
5.1.1. IN-DOMAIN PERFORMANCE EVALUATION 5.1.1. ドメイン内パフォーマンス評価 0.47
First, we consider the standard setting, i.e., evaluating indomain accuracies, where both the training and testing data are from the same domain. まず、トレーニングデータとテストデータの両方が同じドメインからのものである、すなわち、ドメインの精度を評価する標準設定について検討する。 0.72
Experimental Settings. We include 8 datasets from General Language Understanding Evaluation (GLUE) (Wang et al , 2018) and two versions of Stanford Question Answering Datasets (SQuAD) (Rajpurkar et al , 2016; 2018) as the benchmarks. 実験的な設定。 ベンチマークには、general language understanding evaluation (glue) (wang et al , 2018) の8つのデータセットと、stanford question answering dataset (squad) (rajpurkar et al , 2016; 2018) の2つのバージョンが含まれている。
訳抜け防止モード: 実験的な設定。 General Language Understanding Evaluation (GLUE) (Wang et al, 2018)の8つのデータセットを含む。 そしてSQuAD(Stanford Question Answering Datasets)の2つのバージョン(Rajpurkar et al,) ベンチマークは2016年; 2018年)。
0.76
We build our method on a state-of-the-art model, ALBERT (Lan et al , 2019), which is a memory- 本手法は,メモリであるalbert (lan et al , 2019) という最先端モデル上で構築する。 0.66
efficient version of BERT (Devlin et al , 2018) with parameter sharing and embedding factorization. パラメータ共有と埋め込み因子化を備えたbert(devlin et al , 2018)の効率的なバージョン。
訳抜け防止モード: パラメータ共有によるBERT(Devlin et al, 2018)の効率的なバージョン 要素を埋め込んだり
0.76
We leverage the pretrained checkpoint as well as the codebase for finetuing provided by Huggingface PyTorch Transformer (Wolf et al , 2019). We leverage the pretrained checkpoint and the code for finetuing by Huggingface PyTorch Transformer (Wolf et al , 2019)。 0.67
We use the base version of ALBERT (Lan et al , 2019). ALBERT(Lan et al , 2019)のベースバージョンを使用します。 0.78
During testing, we obtain point estimates by approximating the posterior means of prediction probabilities by substituting the latent unnormalized attention weights by their posterior expectations (Srivastava et al , 2014). 実験中, 遅延非正規化注意重みを後方予測に代えて予測確率の後方平均を近似することにより, 点推定値を得る(Srivastava et al , 2014)。 0.76
Results. In Table 1, we compare BABN with the deterministic attention and BAM (Fan et al , 2020), which is the stateof-the-art stochastic attention. 結果。 表1では、BABNを決定論的注意とBAM(Fan et al , 2020)を比較し、これは最先端の確率的注意である。
訳抜け防止モード: 結果。 表1で BABN と決定論的注意の比較 そしてBAM(Fan et al, 2020)は 最先端 - 芸術の確率的な注意です。
0.68
BAM is also applied during the finetuning stage, resuming from the same checkpoint. BAMは、同じチェックポイントから再開する微調整段階でも適用される。 0.72
We report the mean accuracies and standard deviations for 5 independent runs. 5回の独立ランの平均精度と標準偏差を報告する。 0.71
Table 1 shows that BABN outperforms both deterministic attention and BAM, which indicates that stochastic belief networks give better performance than deterministic ones and the more flexible structure of BABN is also preferable to the structure of BAM. 表1は、BABNが決定論的注意とBAMの両方より優れており、確率的信念ネットワークは決定論的ネットワークよりも優れた性能を示し、BABNの柔軟な構造もBAMの構造よりも好ましいことを示している。 0.74
We consistently observe clear improvements even though we only apply BABN at the finetuning stage.1 We leave as future work using BABN at the pretrain stage. 我々は、BABNを微調整段階でのみ適用したとしても、常に明確な改善を観察する。 0.52
5.1.2. GENERALIZATION ACROSS DOMAINS 5.1.2. ドメイン間の一般化 0.44
In real applications, it is very likely to apply a deep learning model to the data from a new domain unseen in the training dataset. 実際のアプリケーションでは、トレーニングデータセットに見られない新しいドメインのデータにディープラーニングモデルを適用する可能性が非常に高い。 0.79
Therefore, it is important to evaluate a model’s generalization ability across domains. したがって、ドメイン間のモデルの一般化能力を評価することが重要である。 0.79
In NLP, significant work has studied domain generalization on sentiment analysis (Chen et al , 2018; Peng et al , 2018; Miller, 2019). NLPでは、感情分析の領域一般化(Chen et al , 2018; Peng et al , 2018; Miller, 2019)が研究されている。 0.69
Recently, Desai & Durrett (2020) studied the cross-domain generalization of pretrained Transformer models on more difficult tasks and found it still challenging for these pretrained models to generalize. 最近、Desai & Durrett (2020) は事前訓練されたトランスフォーマーモデルのクロスドメイン一般化をより困難なタスクで研究し、これらの事前訓練されたモデルを一般化することは依然として困難であることを示した。 0.51
In this section, we follow the setting of Desai & Durrett (2020) to study the generalization ability of our method. 本稿では,Desai & Durrett (2020) の設定に従い,本手法の一般化能力について検討する。 0.70
Experimental Settings. Following Desai & Durrett (2020), we test domain generalization on three challenging tasks, including natural language inference (NLI), paraphrase detection (PD), and commonsense reasoning (CR). 実験的な設定。 Desai & Durrett (2020)に続いて、自然言語推論(NLI)、パラフレーズ検出(PD)、コモンセンス推論(CR)の3つの課題に対して、ドメインの一般化を検証した。 0.67
Each task includes both a source domain, used for finetuning the model, and a target domain, used for evaluating the model. 各タスクには、モデルの微調整に使用されるソースドメインと、モデルの評価に使用されるターゲットドメインの両方が含まれている。 0.74
Specifically, SNLI (Bowman et al , 2015) and MNLI (Williams et al , 2018) are the source and target domains for NLI, respectively; QQP and TwitterPPDB (Lan et al , 2017) are the source and target domains for PD, respectively; SWAG (Zellers et al , 2018) and HSWAG (Zellers et al , 2019) are the source and target domains for CR, respectively. 具体的には、SNLI(Bowman et al , 2015)とMNLI(Williams et al , 2018)はそれぞれNLIのソースドメインであり、QQPとTwitterPPDB(Lan et al , 2017)はそれぞれPDのソースドメインであり、SWAG(Zellers et al , 2018)とHSWAG(Zellers et al , 2019)はCRのソースドメインである。
訳抜け防止モード: 具体的には、SNLI(Bowman et al, 2015)とMNLI(Williams et al, 2018)がNLIのソースおよびターゲットドメインである。 QQPとTwitterPPDB(Lan et al, 2017)はそれぞれPDのソースおよびターゲットドメインである。 SWAG (Zellers et al, 2018 ) と HSWAG (Zellers et al, 2019 ) はそれぞれ CR のソースおよびターゲットドメインである。
0.76
These 1We provide the parameter sizes and step time for different attention types combined with ALBERT-base, a Transformer-based model, where the attention module constructs the main model in Table 7 in the Appendix. これら 1 異なるアテンションタイプに対するパラメータサイズとステップタイムを変換器ベースのモデルであるALBERT-baseと組み合わせることで、アテンションモジュールがアペンディックスのテーブル7のメインモデルを構築する。 0.74
英語(論文から抽出)日本語訳スコア
Table 1. Results of the in-domain accuracies for different models on GLUE and SQuAD benchmarks. 表1。 GLUEとSQuADベンチマークの異なるモデルに対するドメイン内精度の結果。 0.73
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
MODEL ALBERT-BASE モデル アルバートベース 0.62
ALBERT-BASE+BAM ALBERT-BASE+BABN 89.2±0.3 アルベルトベース+バムアルベルトベース+バBN89.2±0.3 0.22
MRPC 86.5 88.5 MRPC 86.5 88.5 0.59
COLA 54.5 55.8 COLA 54.5 55.8 0.59
56.8±0.5 RTE 75.8 76.2 56.8±0.5 RTE 75.8 76.2 0.44
77.6±0.6 MNLI 85.1 85.6 77.6±0.6 MNLI 85.1 85.6 0.44
86.2±0.3 QNLI 90.9 91.5 86.2±0.3 QNLI 90.9 91.5 0.44
91.9±0.3 QQP 90.8 90.7 91.9±0.3 QQP 90.8 90.7 0.44
91.2 ±0.1 SST-2 92.4 92.7 91.2 ±0.1 SST-2 92.4 92.7 0.46
93.1±0.2 STS 90.3 91.1 93.1±0.2 STS 90.3 91.1 0.44
91.8±0.2 SQUAD 1.1 80.86/88.70 81.40/88.82 91.8±0.2 SQUAD 1.1 80.86/88.70 81.40/88.82 0.30
81.81±0.1/89.10±0.1 81.81±0.1/89.10±0.1 0.15
SQUAD 2.0 78.80/82.07 78.97/82.23 SQUAD 2.0 78.80/82.07 78.97/82.23 0.31
79.20±0.1 / 82.41±0.1 79.20±0.1 / 82.41±0.1 0.29
Table 2. Results of domain generalization. 表2。 ドメイン一般化の結果。 0.71
We report the accuracy and ECE of various models on both in-domain data and out-ofdomain data for three tasks: natural language inference, paraphrase detection, and commonsense reasoning. 自然言語推論,パラフレーズ検出,コモンセンス推論という3つのタスクにおいて,ドメイン内データとドメイン外データの両方において,様々なモデルの精度とeceを報告した。
訳抜け防止モード: ドメインデータの両方における各種モデルの精度とECEについて報告する。 3つのタスク:自然言語推論、ドメイン外データ パラフレーズ検出 常識推論
0.79
ACCURACY ↑ OD ID ACCURACY OD ID 0.47
ECE ↓ ID OD ECE! ID OD 0.73
NATURAL LANGUAGE INFERENCE DA (PARIKH ET AL., 2016) ESIM (CHEN ET AL., 2017) BERT-BASE (DESAI & DURRETT, 2020) BERT-BASE+BAM BERT-BASE+BABN 自然言語推論 DA (PARIKH ET AL., 2016) ESIM (CHEN ET AL., 2017) BERT-BASE (DESAI & DURRETT, 2020) BERT-BASE+BAM BERT-BASE+BABN 0.72
ROBERTA-BASE ROBERTA-BASE+BAM ROBERTA-BASE+BABN PARAPHRASE DETECTION ローバータベースローバータベース+バムローバータベース+バムパラプターゼ検出 0.46
DA (PARIKH ET AL., 2016) ESIM (CHEN ET AL., 2017) BERT-BASE (DESAI & DURRETT, 2020) BERT-BASE+BAM BERT-BASE+BABN DA (PARIKH ET AL., 2016) ESIM (CHEN ET AL., 2017) BERT-BASE (DESAI & DURRETT, 2020) BERT-BASE+BAM BERT-BASE+BABN 0.86
ROBERTA-BASE (DESAI & DURRETT, 2020) ROBERTA-BASE+BAM ROBERTA-BASE+BABN COMMONSENSE REASONING ローバータベース(DESAI & DURRETT, 2020) ローバータベース+BAM ローバータベース+BaBN 共同研究 0.47
DA (PARIKH ET AL., 2016) ESIM (CHEN ET AL., 2017) BERT-BASE (DESAI & DURRETT, 2020) BERT-BASE+BAM BERT-BASE+BABN DA (PARIKH ET AL., 2016) ESIM (CHEN ET AL., 2017) BERT-BASE (DESAI & DURRETT, 2020) BERT-BASE+BAM BERT-BASE+BABN 0.86
ROBERTA-BASE (DESAI & DURRETT, 2020) ROBERTA-BASE+BAM ROBERTA-BASE+BABN Roberta-BASE(DESAI & DURRETT, 2020) ROBERTA-BAM ROBERTA-BASE+BABN 0.65
TWITTER MNLI 57.12 60.91 73.52 73.81 74.32 78.79 79.11 79.86 TWITTER MNLI 57.12 60.91 73.52 73.81 74.32 78.79 79.11 79.86 0.65
SNLI 84.63 88.32 90.04 90.25 90.63 91.23 91.29 91.70 QQP 85.85 87.75 90.27 90.77 90.84 91.11 91.24 91.72 SWAG HSWAG 46.80 52.09 79.40 79.44 79.57 82.45 82.61 83.12 SNLI 84.63 88.32 90.04 90.25 90.63 91.23 91.29 91.70 QQP 85.85 87.75 90.27 90.77 90.84 91.11 91.24 91.72 SWAG HSWAG 46.80 52.09 79.40 79.44 79.57 82.45 82.61 83.12 0.44
83.36 84.00 87.63 87.14 88.32 86.72 86.87 87.31 83.36 84.00 87.63 87.14 88.32 86.72 86.87 87.31 0.42
32.48 32.08 34.48 35.18 36.23 41.68 42.04 43.11 32.48 32.08 34.48 35.18 36.23 41.68 42.04 43.11 0.42
TWITTER MNLI 8.79 12.78 7.03 6.40 5.09 3.62 2.94 2.67 TWITTER MNLI 8.79 12.78 7.03 6.40 5.09 3.62 2.94 2.67 0.65
SNLI 1.02 1.33 2.54 2.37 1.98 1.93 2.85 2.62 QQP 3.37 3.65 2.71 2.91 1.42 2.33 2.01 1.74 SWAG HSWAG 5.98 7.01 2.49 2.38 1.91 1.76 1.66 1.32 SNLI 1.02 1.33 2.54 2.37 1.98 1.93 2.85 2.62 QQP 3.37 3.65 2.71 2.91 1.42 2.33 2.01 1.74 SWAG HSWAG 5.98 7.01 2.49 2.38 1.91 1.76 1.66 1.32 0.44
40.37 19.57 12.62 12.49 11.82 11.93 11.21 9.72 40.37 19.57 12.62 12.49 11.82 11.93 11.21 9.72 0.42
9.79 8.38 8.51 9.21 7.43 9.55 9.50 9.42 9.79 8.38 8.51 9.21 7.43 9.55 9.50 9.42 0.42
predicted class. Then, ECE:=(cid:80) クラスを予測した。 そして、ECE:=(cid:80) 0.69
benchmarks are known to exhibit challenging domain shifts (Desai & Durrett, 2020). ベンチマークは挑戦的なドメインシフトを示すことが知られている(Desai & Durrett, 2020)。 0.55
For each experiment, we report both the in-domain (ID) accuracy on the source domain and out-of-domain (OD) accuracy on the target domain. 各実験において、ソースドメインのin-domain (id)精度とターゲットドメインのout-of-domain (od)精度の両方を報告した。 0.75
As in Desai & Durrett (2020), we also report the expected calibration error (ECE) as a measure of model calibration. Desai & Durrett (2020) と同様に、予測キャリブレーション誤差 (ECE) をモデルキャリブレーションの尺度として報告する。 0.71
To compute ECE, we need to divide the samples into groups with their confidences, defined as the probability of the maximum N |acc(Bi) − conf(Bi)|, where Bi, acc(Bi), and conf(Bi) are the count, accuracy, and confidence of samples in the ith group, respectively. ECEを計算するためには、標本をその信頼度でグループに分割し、最大 N |acc(Bi) − conf(Bi)| の確率として定義する必要がある。
訳抜け防止モード: ECEを計算します。 標本を自信を持ってグループに分けなければなりません 最大 N |acc(Bi ) − conf(Bi)| の確率として定義される。 ここでは、Bi, acc(Bi ) と conf(Bi ) がカウントとなる。 精度, およびith群の試料の信頼度は, それぞれ0。
0.83
We set the number of groups to 10 as in Desai & Durrett (2020). グループ数を desai & durrett (2020) のように 10 に設定した。 0.70
Results. We summarize our results in Table 2. 結果。 結果を表2にまとめます。 0.63
Our baselines include two small-scale and non-pretrained models: Decomposable Attention (DA) (Parikh et al , 2016) and Enhanced Sequential Inference Model (ESIM) (Chen et al , 2017), and two state-of-the-art large-scale and pretrained models with deterministic attention: BERT-base (Devlin et al , 2018) and RoBERTa-base models (Liu et al , 2019). 私たちのベースラインには、Decomposable Attention (DA) (Parikh et al , 2016) とEnhanced Sequential Inference Model (ESIM) (Chen et al , 2017) と、決定論的に注目する2つの最先端の大規模および事前訓練モデル、BERT-base (Devlin et al , 2018) とRoBERTa-base Model (Liu et al , 2019) の2つがあります。 0.78
Bi i We experiment with adding BABN to both BERT-base and RoBERTa-base models. 備 私は BERTベースとRoBERTaベースモデルの両方にBABNを追加する実験を行った。 0.51
Table 2 shows that adding BABN consistently improves upon the corresponding deterministic models on not only in-domain, which confirms our results in Section 5.1.1, but also out-of-domain. 表2は、BABNの追加は、ドメイン内だけでなく、ドメイン外の結果も確認する、対応する決定論的モデルに対して一貫して改善することを示している。 0.54
The performance gains on out-of-domain are often greater than the gains on in-domain, meaning that BABN can significantly help the model to generalize across domains. ドメイン外のパフォーマンス向上はドメイン内のパフォーマンス向上よりも大きい場合が多いため、BABNはドメイン全体にわたってモデルを一般化するのに大いに役立ちます。 0.65
This gets along with our intuition that deep stochastic models should generalize better than deterministic ones. これは、深い確率モデルが決定論的モデルよりも一般化すべきという直感と一致する。 0.60
Further, we note that BABN also improves ECE, meaning that BABN helps to obtain better-calibrated models for uncertainty estimation. さらに、BABNはECEも改善しており、BABNは不確実性推定のためのより良い校正モデルを得るのに役立ちます。 0.60
5.1.3. ROBUSTNESS TOWARDS ADVERSARIAL ATTACKS 5.1.3. 逆シリアルアタックに対するロバストネス 0.46
Neural networks are known to be vulnerable to adversarial examples that have imperceptible perturbations from the original counterparts (Goodfellow et al , 2014). ニューラルネットワークは、オリジナルのものから知覚できない摂動を持つ敵の例に対して脆弱であることが知られている(goodfellow et al , 2014)。 0.60
It has been found that even large language models pretrained on large corpora still suffer from the same issue (Jin et al , 2020). 大きなコーパスで事前訓練された大きな言語モデルでさえ、同じ問題に悩まされていることが判明した(Jin et al , 2020)。 0.69
Therefore, it is important to evaluate and improve a model’s robustness against adversarial attacks. したがって、敵攻撃に対するモデルの堅牢性を評価し改善することが重要である。 0.80
We argue that as our Bayesian attention belief networks are built by stacking probabilistic layers, the stochastic connections would make the model more robust so that it is more difficult to generate perturbations that would fool our model. ベイジアン注意信念ネットワークは確率的層を積み重ねることで構築されているため、確率的接続によってモデルがより堅牢になり、モデルを騙すような摂動を生成することがより困難になる。
訳抜け防止モード: 私たちはそう主張する 我々のベイズ的関心ネットワークは 確率的層を積み重ねて構築されています 確率的なつながりは モデルはより堅牢で モデルを騙すような摂動を 生み出すのが難しくなります
0.83
Experimental Settings. To compare the adversarial robustness of BABN and the deterministic attention, we first finetune the ALBERT-base models according to the same settings as in Section 5.1.1, and then apply three state-of-theart untargeted black-box adversarial attacks, including (1) Textfooler (Jin et al , 2020), generating natural looking attacks with rule-based synonym replacement; (2) Textbugger (Li et al , 2019), generating misspelled words by characterand word-level perturbations; (3) BAE (Garg & Ramakrishnan, 2020), generating BERT-based adversarial examples. 実験的な設定。 To compare the adversarial robustness of BABN and the deterministic attention, we first finetune the ALBERT-base models according to the same settings as in Section 5.1.1, and then apply three state-of-theart untargeted black-box adversarial attacks, including (1) Textfooler (Jin et al , 2020), generating natural looking attacks with rule-based synonym replacement; (2) Textbugger (Li et al , 2019), generating misspelled words by characterand word-level perturbations; (3) BAE (Garg & Ramakrishnan, 2020), generating BERT-based adversarial examples. 0.83
We implement all the attacks using the NLP attack package, TextAttack (Morris et al , 2020), with the default settings. NLP攻撃パッケージであるTextAttack(Morris et al , 2020)を使って、デフォルト設定ですべての攻撃を実装します。 0.80
For each model, we conduct 1000 adversarial attacks and Table 3 reports the percentages of failed adversarial attacks. 各モデルに対して1000の敵攻撃を行い,テーブル3は失敗する敵攻撃の割合を報告する。 0.73
Higher percentages indicate more robust models. 高い割合はより堅牢なモデルを示している。 0.53
Results. Table 3 shows that BABN outperforms the deterministic attention baseline on most datasets, and achieves a much better average accuracy. 結果。 表3は、BABNがほとんどのデータセットで決定論的注意基準よりも優れており、平均精度がはるかに向上していることを示している。
訳抜け防止モード: 結果。 表3は babnは、ほとんどのデータセットで決定論的注意基準を上回り、より優れた平均精度を達成する。
0.62
The improvement is consistent across all three different adversarial attacks with different levels of failure rates, with Textfooler being the 改善は、異なるレベルの障害率を持つ3つの異なる敵攻撃すべてで一致しており、Textfoolerがそうである。
訳抜け防止モード: 改善は、異なるレベルの障害率を持つ3つの異なる敵攻撃すべてで一致している。 Textfooler が
0.82
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
Table 3. Results of pretrained large-scale models’ robustness against adversarial attacks. 表3。 大規模モデルの敵攻撃に対する堅牢性を事前訓練した結果。 0.67
For each model, we report the percentages of failed attacks under three adversarial attacks respectively. 各モデルについて,3つの敵攻撃で失敗した攻撃の割合を報告した。 0.66
ATTACK TEXTFOOLER ATTACK テクストフロア 0.65
TEXTBUGGER BAE テクストバッガー BAE 0.65
ATTENTION MRPC COLA RTE QQP 25.4 28.7 33.7 30.1 32.5 35.8 48.8 42.2 42.8 ATTENTION MRPC COLA RTE QQP 25.4 28.7 33.7 30.1 32.5 35.8 48.8 42.2 42.8 0.53
6.5 6.2 6.2 10.6 9.9 9.5 44.8 48.6 50.4 6.5 6.2 6.2 10.6 9.9 9.5 44.8 48.6 50.4 0.42
16.2 17.8 17.7 19.9 21.0 21.4 35.6 36.3 35.9 16.2 17.8 17.7 19.9 21.0 21.4 35.6 36.3 35.9 0.42
2.6 3.1 5.1 16.8 16.7 17.6 4.9 5.1 7.1 2.6 3.1 5.1 16.8 16.7 17.6 4.9 5.1 7.1 0.42
BASE BAM BABN BASE BAM BABN 0.85
BASE BAM BABN BASE BAM BABN 0.85
BASE BAM BABN BASE BAM BABN 0.85
SST-2 AVG. SST-2 AVG。 0.74
11.5 12.5 15.8 23.5 26.4 28.0 29.6 31.0 32.4 11.5 12.5 15.8 23.5 26.4 28.0 29.6 31.0 32.4 0.42
7.0 12.5 16.4 40.1 51.7 55.5 13.9 22.8 25.7 7.0 12.5 16.4 40.1 51.7 55.5 13.9 22.8 25.7 0.42
strongest attacker. These results verify our conjecture that by stacking stochastic layers, our Bayesian attention belief networks are more robust than deterministic models due to the stochastic connections. 最強の攻撃者 これらの結果は,確率的階層を積み重ねることで,ベイズ的注意信念ネットワークが確率的接続による決定論的モデルよりも頑健であることを示す。 0.70
To the best of our knowledge, it is the first time to show that stochastic attention could improve adversarial robustness on large language models. 私たちの知る限りでは、確率的注意が大きな言語モデルにおける敵意の強固さを改善することができることを示すのは初めてです。 0.67
5.2. Attention in Neural Machine Translation 5.2. ニューラルマシン翻訳における注意 0.69
To show that BABN is generally applicable, we conduct experiments on the task of neural machine translation and compare BABN with SOTA stochastic attentions, including variational attention (VA) based methods (Deng et al , 2018) and BAM (Fan et al , 2020). BABNが一般に適用可能であることを示すため,ニューラルネットワーク翻訳の課題について実験を行い,BABNとSOTA確率的注意(VA)に基づく方法(Deng et al , 2018)とBAM(Fan et al , 2020)を比較した。 0.76
Experimental Settings. For fair comparisons, we adapt the deterministic attention model used by Deng et al (2018) to BABN. 実験的な設定。 公平な比較のために、Deng et al (2018) が用いた決定論的注意モデルをBABNに適用する。 0.66
The model is very different from the previous models, as it is LSTM-based, where attention is used to connect the encoder and decoder of the translation system (Deng et al , 2018). モデルはlstmベースのもので、翻訳システムのエンコーダとデコーダを接続するために注意が向けられている(deng et al , 2018)。
訳抜け防止モード: モデルはLSTMベースであるため、以前のモデルとは大きく異なります。 注意が使われます 翻訳システムのエンコーダとデコーダを接続する(Deng et al, 2018)。
0.72
We follow the experimental settings of Deng et al (2018). We follow the experimental settings of Deng et al (2018)。 0.78
Models are trained from scratch. モデルはゼロから訓練される。 0.62
IWSLT (Cettolo et al , 2014) is used as benchmark. IWSLT (Cettolo et al , 2014) はベンチマークとして使用されている。 0.64
We adopt the widely used BLEU score (Papineni et al , 2002) as the evaluation metric for the translation results. 翻訳結果の評価基準として広く用いられているbleuスコア(papineni et al, 2002)を採用する。 0.67
Experimental details are summarized in Appendix A. 実験の詳細はAppendix Aで要約されている。 0.65
Table 4. Results of BLEU scores, parameter size and step time for different attentions on IWSLT. 表4。 IWSLTにおけるBLEUスコア,パラメータサイズ,ステップタイムの結果について検討した。 0.67
ATTENTION BASE VA + ENUM (DENG ET AL., 2018) VA + SAMPLE (DENG ET AL., 2018) BAM (FAN ET AL., 2020) BABN ATTENTION BASE VA + ENUM (DENG ET AL., 2018) VA + SAMPLE (DENG ET AL., 2018) BAM (FAN ET AL., 2020) BABN 0.85
BLEU ↑ 32.77 33.68 33.30 BLEU 32.77 33.68 33.30 0.59
33.81±0.02 34.23±0.05 33.81±0.02 34.23±0.05 0.24
PARAMS ↓ 42M 64M 64M 42M 42M PARAMS! 42M 64M 64M 42M 42M 0.43
S/STEP ↓ 0.08 0.12 0.15 0.10 0.11 S/STEP ↓ 0.08 0.12 0.15 0.10 0.11 0.47
Results. In Table 4, we report the BLEU scores, model parameter sizes, and step time (second/step) for each attention type. 結果。 表4では,注意型毎のbleuスコア,モデルパラメータサイズ,ステップ時間(第2/ステップ)について報告する。 0.66
It shows that BABN gives the best BLEU score outperforming deterministic attention (base), variational attention BABNは、決定論的注意(ベース)、変動的注意よりも優れたBLEUスコアを与える。 0.61
Table 5. Accuracies and PAvPUs of different attentions on both the original VQA-v2 dataset and the noise ones. テーブル5。 オリジナルのVQA-v2データセットとノイズの両方に異なる関心を持つアキュラシーとPAvPU。 0.74
ACCURACY ↑ PAVPU ↑ アクキュラシィ! PAVPU! 0.35
ORIGINAL BASE BAM BABN 66.92±0.02 オリジナル BASE BAM BABN 66.92±0.02 0.57
66.74 66.82 66.74 66.82 0.50
NOISY 63.58 63.98 NOISY 63.58 63.98 0.59
64.40±0.03 64.40±0.03 0.29
ORIGINAL 71.96 72.01 オリジナル 71.96 72.01 0.55
72.21±0.03 72.21±0.03 0.29
NOISY 68.29 68.58 NOISY 68.29 68.58 0.59
70.43±0.04 70.43±0.04 0.29
(VA), and BAM, while keeping the parameter size at the same level as deterministic attention. (VA) と BAM は, パラメータサイズを決定論的注意と同じ程度に保ったままであった。 0.77
The runtime of BABN is on a par with BAM and slightly slower than deterministic attention, but it outruns the variational attention methods. BABNのランタイムは、BAMと同等であり、決定論的注意よりもわずかに遅いが、変分注意法より優れている。 0.66
5.3. Attention in Visual Question Answering 5.3. 視覚的質問応答の注意 0.76
We also conduct experiments on a multi-modal learning task, visual question answering (VQA) (Goyal et al , 2017), where the model learns to predict the answer to a given question on a given image. また,マルチモーダル学習タスク,視覚的質問応答(VQA)(Goyal et al , 2017)についても実験を行い,そのモデルが与えられた画像上の質問に対する回答を予測することを学習する。 0.87
Transformer-like attention architectures have been widely used to learn the multi-modal reasoning between image and language (Yu et al , 2019). トランスフォーマーのようなアテンションアーキテクチャは、画像と言語の間のマルチモーダル推論を学ぶために広く使われている(Yu et al , 2019)。
訳抜け防止モード: Transformer - 注目アーキテクチャのように広く使われている 画像と言語の間のマルチモーダル推論を学ぶ(Yu et al, 2019)。
0.77
We adapt the recently proposed MCAN model (Yu et al , 2019) to BABN and compare with deterministic attention and BAM (Fan et al , 2020). 我々は最近提案されたMCANモデル(Yu et al , 2019)をBABNに適用し、決定論的注意とBAM(Fan et al , 2020)と比較した。 0.74
Experimental Settings. We mainly follow the setting by Yu et al (2019), and experiment on the VQA-v2 dataset (Goyal et al , 2017). 実験的な設定。 主にYu et al (2019) の設定に従い、VQA-v2データセット(Goyal et al , 2017)の実験を行った。 0.73
As in Fan et al (2020), we also include a noisy dataset by perturbing the input with Gaussian noise to the image features (Larochelle et al , 2007) to investigate the model’s robustness. Fan et al (2020) のように、画像特徴に対するガウスノイズによる入力を摂動することでノイズの多いデータセット(Larochelle et al , 2007)も含み、モデルの頑健さを調査する。 0.81
We use 4-layer encoder-decoder based MCAN as the baseline model, where the deterministic attention was originally used. 4層エンコーダデコーダをベースとしたMCANをベースラインモデルとして用いた。 0.62
We report accuracies as well as uncertainty estimations, which are measured by a hypothesis testing based Patch Accuracy vs Patch Uncertainty (PAvPU) (Fan et al , 2020; Mukhoti & Gal, 2018), reflecting whether the model is uncertain about its mistakes. 仮説テストに基づくパッチ精度とパッチの不確実性 (pavpu) (fan et al, 2020; mukhoti & gal, 2018) によって測定された不確実性推定は,モデルが誤りについて不確実であるかどうかを反映したものである。 0.77
The higher the PAvPU is, the better the uncertainty estimation is. PAvPUが高ければ高いほど、不確実性推定が優れている。 0.69
We set the p-value threshold to be 0.05 (Fan et al , 2020). p値しきい値は 0.05 (fan et al , 2020) と設定した。 0.79
For uncertainty estimation, we sample 20 unnormalized attention weights from the variational distribution. 不確実性推定のために、変分分布から20個の非正規化注意重みをサンプリングする。 0.60
We provide more detailed experimental settings in Appendix A. 我々はappendix aでより詳細な実験的な設定を提供する。 0.61
Results. In Table 5, we report the accuracy and PAvPU of different attentions on both original and noisy data. 結果。 表5では,オリジナルデータとノイズデータの両方に異なる注意点の精度とPAvPUについて報告する。 0.65
It shows that BABN consistently improve upon the deterministic attention and BAM in terms of both accuracy and PAvPU, meaning that BABN in general is more uncertain on its mistakes and more certain on its correct predictions. BABNは、精度とPAvPUの両方の観点から、決定論的注意とBAMを一貫して改善していることが示され、BABNは一般的にその誤りについてより不確実であり、正しい予測についてより確実である。 0.67
Further, we note that the performance gain is more significant on the noisy dataset, indicating that BABN helps to learn a more robust model, which also agrees with our results on domain generalization in Section 5.1.2. さらに、ノイズの多いデータセットでは、パフォーマンス向上がより重要であり、BABNがより堅牢なモデルを学ぶのに役立ち、またセクション5.1.2におけるドメインの一般化に関する結果とも一致していることを示す。 0.65
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
6. Conclusion We propose Bayesian attention belief network (BABN), a deep stochastic network by modeling attention weights as hierarchically dependent random variables. 6. 結論 階層依存確率変数として注意重みをモデル化し,深い確率ネットワークであるベイズ注意信念ネットワーク(babn)を提案する。 0.78
A multistochastic-laye r generative model and a deterministicupward- stochastic-downward inference network are constructed by leveraging the existing attention architecture. 既存の注意アーキテクチャを利用して多元的階層生成モデルと決定論的upward-stochastic-do wnward推論ネットワークを構築する。 0.61
This generic and efficient architecture design enables us to easily convert existing deterministic attention models, including pretrained ones, to BABN, while only slightly increasing memory and computational cost. この汎用的で効率的なアーキテクチャ設計により、事前学習されたものを含む既存の決定論的注意モデルを簡単にBABNに変換することができ、メモリと計算コストはわずかに増大する。 0.63
On various language understanding tasks, BABN exhibits strong performance in accuracy, uncertainty estimation, domain generalization, and adversarial robustness. 様々な言語理解タスクにおいて、BABNは精度、不確実性の推定、ドメインの一般化、対向的堅牢性において強い性能を示す。 0.51
Interestingly, clear improvement in performance has already been achieved by adding BABN only during the finetuning stage. 興味深いことに、パフォーマンスの改善はすでに、微調整段階でのみBABNを追加することで達成されている。 0.58
We further demonstrate the general applicability of BABN on additional tasks, including neural machine translation and visual question answering, where BABN consistently outperforms corresponding baselines and shows great potential to be an efficient alternative to many existing attention models. さらに、ニューラルネットワーク翻訳や視覚的質問応答などのタスクに対するBABNの適用性についても、BABNが一貫して対応するベースラインを上回り、既存の多くの注意モデルに代わる効率的な代替手段となる可能性を示す。 0.62
Acknowledgements S. Zhang, X. Accnowledgements S. Zhang, X。 0.80
Fan, and M. Zhou acknowledge the support of Grants IIS-1812699 and ECCS-1952193 from the U.S. National Science Foundation, the APX 2019 project sponsored by the Office of the Vice President for Research at The University of Texas at Austin, the support of a gift fund from ByteDance Inc., and the Texas Advanced Computing Center (TACC) for providing HPC resources that have contributed to the research results reported within this paper. Fan と M. Zhou は、米国国立科学財団の Grants IIS-1812699 と ECCS-1952193 の支援、テキサス大学オースティン校の研究担当副社長局が後援する APX 2019 プロジェクト、ByteDance Inc. のギフトファンド、およびこの論文で報告された研究成果に寄与するHPC リソースを提供するための Texas Advanced Computing Center (TACC) の支援を認めている。 0.79
References Ba, J. L., Kiros, J. R., and Hinton, G. E. Layer normalization. Ba, J. L., Kiros, J. R., and Hinton, G. E. Layer normalizationを参照。 0.89
arXiv preprint arXiv:1607.06450, 2016. arXiv preprint arXiv:1607.06450, 2016 0.79
Bahdanau, D., Cho, K. H., and Bengio, Y. Neural machine translation by jointly learning to align and translate. Bahdanau, D., Cho, K. H., and Bengio, Y. Neural Machine Translation by jointly learning toaligned and translation。 0.83
In 3rd International Conference on Learning Representations, ICLR 2015, 2015. 第3回学習表現に関する国際会議, iclr 2015で開催。 0.78
Bayer, J. and Osendorfer, C. Learning stochastic recurrent net- Bayer, J. and Osendorfer, C. Learning stochastic Recurrent net- 0.94
works. arXiv preprint arXiv:1411.7610, 2014. 作品。 arXiv preprint arXiv:1411.7610, 2014 0.70
Blei, D. M., Ng, A. Y., and Jordan, M. I. Blei, D. M., Ng, A. Y., Jordan, M. I。 0.90
Latent Dirichlet allocation. 後期ディリクレ割り当て。 0.30
the Journal of machine Learning research, 3:993–1022, 2003. Journal of Machine Learning Research, 3:993–1022, 2003 0.94
Blei, D. M., Kucukelbir, A., and McAuliffe, J. D. Variational inference: A review for statisticians. Blei, D. M., Kucukelbir, A. and McAuliffe, J. D. Variational Inference: A review forstatisticians。 0.86
Journal of the American Statistical Association, 112(518):859–877, 2017. The Journal of the American Statistical Association, 1112(518):859–877, 2017 0.87
Bowman, S. R., Angeli, G., Potts, C., and Manning, C. D. A large annotated corpus for learning natural language inference. Bowman, S. R., Angeli, G., Potts, C. and Manning, C. D. 自然言語推論を学ぶための注釈付きコーパス。 0.82
In EMNLP, 2015. 2015年、EMNLP。 0.60
Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A., Jozefowicz, R., and Bengio, S. Generating sentences from a continuous space. Bowman, S. R., Vilnis, L., Vinyals, O., Dai, A., Jozefowicz, R., Bengio, S. 連続空間から文を生成する。 0.85
In Figure 3. For two questions from VQA, we visualize the posterior mean and std/mean for attention weights of BABN, where each row corresponds to one question. 院 図3。 VQAからの2つの質問に対して、各行が1つの質問に対応するBABNの注意重みに対する後部平均とstd/meanを視覚化する。 0.63
Rows represent queries, and columns represent keys. ロウはクエリを表し、カラムはキーを表す。 0.73
For example, considering the first question, on the left plot, when the row is “Did” and the column is “hit”, the color represents the average attention weight from the query “Did” to the key “hit”. 例えば、最初の質問、左のプロット、行が“did”で列が“hit”である場合、色はクエリ“did”からキー“hit”への平均注意重みを表す。
訳抜け防止モード: 例えば、最初の質問を考えると、左のプロットです。 行が “ Did ” で、そして カラムが"ヒット"している 色は、クエリ “ Did ” からキー “ hit ” までの平均的な注意重みを表す。
0.70
On the right plot, the color at the same location represents the uncertainty from the query “Did” to the key “hit”. 右のプロットでは、同じ場所の色がクエリ“did”からキー“hit”への不確実性を表している。 0.64
We note that the model is mostly certain except for the query “ball” from the right plot, which is assigning high average attention weights for “Did” and “the” rather than other words as shown on the left. このモデルは、右プロットからのクエリ “ball” を除いてほぼ確実であり、左にある他の単語ではなく、“did” と “the” に対して高い平均的な注意重みを割り当てている。 0.71
Results Analysis. Visualizations. 結果分析。 可視化。 0.69
In Fig 3, we plot statistics of the posterior distributions for the attention weights of one question in VQA. 図3では、VQAにおけるある質問の注意重みに対する後続分布の統計をプロットする。 0.84
We visualize the normalized posterior mean (left) as a measure of the average importance of each query-key pair, and posterior standard deviation divided by posterior mean (std/mean on the right) as a measure of uncertainty. 各クエリキーペアの平均的重要性の尺度として正規化後平均(左)を視覚化し,不確実性の尺度として後方標準偏差(右のstd/mean)を分割した。 0.78
The plot shows that BABN is able to learn different uncertainties (std/mean) for each querykey pair in contrast to the fixed std/mean of BAM. このプロットは、BABNが、BAMの固定std/meanとは対照的に、クエリーペアごとに異なる不確実性(std/mean)を学習できることを示している。 0.56
This sample-dependent uncertainty of BABN enables the strong capability in modeling attention weights and therefore gives good uncertainty estimation. BABNのサンプル依存の不確実性は、注意重みをモデル化する強力な能力を可能にし、したがって良好な不確実性推定を与える。
訳抜け防止モード: このサンプル-BABNの不確実性は、注意重みをモデル化する強力な能力を実現する ですから 不確実性の評価は良好です
0.56
Ablation Study. アブレーション研究。 0.69
We also conduct ablation study to exam the role of the upward-downward structure by turning the weight parameters ρ and σ to zeros. また, 重みパラメータρ, σをゼロにすることで, 上向き構造の役割を検証するためにアブレーション研究を行う。 0.76
We found that tuning either parameter to zero would lead to performance drop, especially the parameter ρ, which demonstrates the necessity and effectiveness of the upward-downward structure. その結果,いずれのパラメータも0に調整しても性能が低下し,特にパラメータρは上向き構造の必要性と有効性を示すことがわかった。 0.77
Please see detailed results in Table 8 in Appendix. Appendixのテーブル8で詳細な結果を確認してください。 0.73
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
Proceedings of The 20th SIGNLL Conference on Computational Natural Language Learning, pp. 20th signll conference on computational natural language learning, pp. 参加報告 0.73
10–21, 2016. 10–21, 2016. 0.84
Cer, D., Diab, M., Agirre, E., Lopez-Gazpio, I., and Specia, L. Semeval-2017 task 1: Semantic textual similarityarXiv multilingual and cross-lingual focused evaluation. Cer, D., Diab, M., Agirre, E., Lopez-Gazpio, I., and Specia, L. Semeval-2017 task 1: Semantic textual similarityarXiv multilingual and cross-lingual focused evaluation。 0.95
preprint arXiv:1708.00055, 2017. arXiv:1708.00055, 2017 0.72
Cettolo, M., Niehues, J., St¨uker, S., Bentivogli, L., and Federico, M. Report on the 11th iwslt evaluation campaign, iwslt 2014. Cettolo, M., Niehues, J., St suker, S., Bentivogli, L., and Federico, M. Report on the 11th iwslt evaluation campaign, iwslt 2014 0.87
2014. Chen, M., Radford, A., Child, R., Wu, J., Jun, H., Luan, D., and Sutskever, I. Generative pretraining from pixels. 2014. chen, m., radford, a., child, r., wu, j., jun, h., luan, d., sutskever, i. generative pretraining from pixels.
訳抜け防止モード: 2014. Chen, M., Radford, A., Child, R. Wu, J., Jun, H., Luan, D. そしてSutskever, I. ピクセルからの生成事前学習
0.84
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
1691–1703. 1691–1703. 0.71
PMLR, 2020. PMLR、2020年。 0.88
Chen, Q., Zhu, X., Ling, Z.-H., Wei, S., Jiang, H., and Inkpen, D. Enhanced lstm for natural language inference. Chen, Q., Zhu, X., Ling, Z.-H., Wei, S., Jiang, H., and Inkpen, D. Enhanced lstm for natural language inference。 0.90
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 第55回計算言語学会年次大会紀要(第1巻:長編), pp。 0.42
1657–1668, 2017. 1657–1668, 2017. 0.84
Chen, X., Sun, Y., Athiwaratkun, B., Cardie, C., and Weinberger, K. Adversarial deep averaging networks for cross-lingual sentiment classification. Chen, X., Sun, Y., Athiharatkun, B., Cardie, C., Weinberger, K. Adversarial Deep Averaging Network for cross-lingual sentiment classification。 0.85
Transactions of the Association for Computational Linguistics, 6:557–570, 2018. Association for Computational Linguistics, 6:557–570, 2018 0.73
Fan, X., Zhang, S., Tanwisuth, K., Qian, X., and Zhou, M. Contextual dropout: An efficient sample-dependent dropout module. Fan, X., Zhang, S., Tanwisuth, K., Qian, X., Zhou, M. Contextual Dropout: 効率的なサンプル依存ドロップアウトモジュール。 0.83
arXiv preprint arXiv:2103.04181, 2021. arXiv preprint arXiv:2103.04181, 2021 0.80
Fraccaro, M., Sønderby, S. K., Paquet, U., and Winther, O. Sequential neural models with stochastic layers. Fraccaro, M., Sønderby, S. K., Paquet, U., and Winther, O. Sequential Neural Model with stochastic Layer。 0.83
In Advances in neural information processing systems, pp. In Advances in Neural Information Processing System, pp。 0.75
2199–2207, 2016. 2199–2207, 2016. 0.84
Gal, Y. and Ghahramani, Z. Gal, Y. and Ghahramani, Z 0.80
Dropout as a bayesian approximation: Representing model uncertainty in deep learning. ベイズ近似としてのドロップアウト:ディープラーニングにおけるモデル不確実性を表現する。 0.54
In international conference on machine learning, pp. 英語) international conference on machine learning, pp. 0.81
1050–1059, 2016. 1050–1059, 2016. 0.84
Gan, Z., Henao, R., Carlson, D., and Carin, L. Learning deep sigmoid belief networks with data augmentation. Gan, Z., Henao, R., Carlson, D. and Carin, L. Learning Deep Sigmoid belief network with data augmentation。 0.84
In Artificial Intelligence and Statistics, pp. 人工知能と統計学』、p。 0.68
268–276. PMLR, 2015. 268–276. 2015年、PMLR。 0.70
Gardner, M., Grus, J., Neumann, M., Tafjord, O., Dasigi, P., Liu, N., Peters, M., Schmitz, M., and Zettlemoyer, L. S. A deep semantic natural language processing platform. Gardner, M., Grus, J., Neumann, M., Tafjord, O., Dasigi, P., Liu, N., Peters, M., Schmitz, M., Zettlemoyer, L. S。
訳抜け防止モード: Gardner, M., Grus, J., Neumann, M. Tafjord, O., Dasigi, P., Liu, N. Peters, M., Schmitz, M. and Zettlemoyer, L. S. 深層セマンティック自然言語処理プラットフォーム。
0.84
arXiv preprint arXiv:1803.07640, 2017. arXiv preprint arXiv:1803.07640, 2017 0.80
Garg, S. and Ramakrishnan, G. Bae: Bert-based adversarial examples for text classification. garg, s. and ramakrishnan, g. bae: bert-based adversarial examples for text classification。 0.80
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pp. 自然言語処理に関する実証的手法に関する2020年会議(EMNLP)の開催報告, pp。 0.78
6174–6181, 2020. 6174–6181, 2020. 0.84
Chen, Y.-C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., Cheng, Y., and Liu, J. Uniter: Learning universal image-text representations. Chen, Y.-C., Li, L., Yu, L., El Kholy, A., Ahmed, F., Gan, Z., Cheng, Y., Liu, J. Uniter: 普遍的な画像テキスト表現を学ぶ。 0.93
2019. Goodfellow, I. J., Shlens, J., and Szegedy, C. Explaining and harnessing adversarial examples. 2019. Goodfellow, I. J., Shlens, J., and Szegedy, C. Explaining and leverageing adversarial example。 0.88
arXiv preprint arXiv:1412.6572, 2014. arXiv preprint arXiv:1412.6572, 2014 0.80
Chung, J., Kastner, K., Dinh, L., Goel, K., Courville, A. C., and Bengio, Y. Chung, J., Kastner, K., Dinh, L., Goel, K., Courville, A. C., Bengio, Y。 0.83
A recurrent latent variable model for sequential data. 逐次データに対する帰納的潜在変数モデル 0.68
In Advances in neural information processing systems, pp. In Advances in Neural Information Processing System, pp。 0.75
2980–2988, 2015. 2980–2988, 2015. 0.84
Dagan, I., Glickman, O., and Magnini, B. dagan、i.、glickman、o.、magnini、b。 0.68
The pascal recognising textual entailment challenge. pascal recogning textual entailment challenge の略。 0.73
In Machine Learning Challenges Workshop, pp. In Machine Learning Challenges Workshop, pp。 0.79
177–190. Springer, 2005. 177–190. 2005年、スプリンガー。 0.66
Deng, Y., Kim, Y., Chiu, J., Guo, D., and Rush, A. Deng, Y., Kim, Y., Chiu, J., Guo, D., Rush, A。 0.78
Latent alignment and variational attention. 潜在的なアライメントと変動的注意。 0.58
In Advances in Neural Information Processing Systems, pp. ニューラル・インフォメーション・プロセッシング・システムにおける進歩, pp. 0.59
9712–9724, 2018. 9712–9724, 2018. 0.84
Desai, S. and Durrett, G. Calibration of pre-trained transformers. Desai, S. and Durrett, G. Calibration of Pre-trained transformer 0.91
arXiv preprint arXiv:2003.07892, 2020. arXiv preprint arXiv:2003.07892, 2020 0.80
Devlin, J., Chang, M.-W., Lee, K., and Toutanova, K. BERT: Pre-training of deep bidirectional transformers for language understanding. Devlin, J., Chang, M.-W., Lee, K., Toutanova, K. BERT: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.90
arXiv preprint arXiv:1810.04805, 2018. arXiv preprint arXiv:1810.04805, 2018 0.79
Dolan, W. B. and Brockett, C. Automatically constructing a corpus of sentential paraphrases. Dolan, W. B. and Brockett, C. センセーショナルパラフレーズのコーパスを自動構築する。 0.81
In Proceedings of the Third International Workshop on Paraphrasing (IWP2005), 2005. In Proceedings of the Third International Workshop on Paraphrasing (IWP2005) 2005 0.77
Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al An image is worth 16x16 words: Transformers for image recognition at scale. Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., Dehghani, M., Minderer, M., Heigold, G., Gelly, S., et al 画像は16x16ワードの価値がある。
訳抜け防止モード: Dosovitskiy, A., Beyer, L., Kolesnikov, A. Weissenborn, D., Zhai, X., Unterthiner, T. Dehghani, M., Minderer, M., Heigold, G. Gelly, S., et al Image is worth 16x16 words : Transformer for image Recognition at scale 。
0.84
arXiv preprint arXiv:2010.11929, 2020. arXiv preprint arXiv:2010.11929, 2020 0.81
Edunov, S., Ott, M., Auli, M., Grangier, D., and Ranzato, M. Classical structured prediction losses for sequence to sequence learning. Edunov, S., Ott, M., Auli, M., Grangier, D., Ranzato, M. Classical Structured Prediction loss for sequence to sequence learning。 0.79
arXiv preprint arXiv:1711.04956, 2017. arXiv preprint arXiv:1711.04956, 2017 0.79
Fan, X., Zhang, S., Chen, B., and Zhou, M. Bayesian attention modules. Fan, X., Zhang, S., Chen, B., Zhou, M. Bayesian attention module。 0.81
Advances in Neural Information Processing Systems, 33, 2020. ニューラル情報処理システムの進歩 -2020年3月33日- 0.73
Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., and Parikh, D. Making the V in VQA matter: Elevating the role of image understanding in visual question answering. Goyal, Y., Khot, T., Summers-Stay, D., Batra, D., Parikh, D. Making the V in VQA Matter: Elevating the role of image understanding in visual questioning。 0.86
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. IEEE Conference on Computer Vision and Pattern Recognition, pp。 0.55
6904–6913, 2017. 6904–6913, 2017. 0.84
He, K., Zhang, X., Ren, S., and Sun, J. He, K., Zhang, X., Ren, S., and Sun, J。 0.82
Deep residual learning for image recognition. 画像認識のための深い残差学習 0.81
In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. Proceedings of the IEEE conference on computer vision and pattern recognition, pp。 0.72
770–778, 2016. 770–778, 2016. 0.84
Hinton, G. E., Osindero, S., and Teh, Y.-W. A fast learning algorithm for deep belief nets. Hinton, G. E., Osindero, S. and Teh, Y.-W. ディープ信念ネットのための高速学習アルゴリズム 0.88
Neural computation, 18(7):1527– 1554, 2006. ニューラル計算, 18(7):1527–1554, 2006。 0.76
Hoffman, M. D., Blei, D. M., Wang, C., and Paisley, J. Stochastic variational inference. Hoffman, M. D., Blei, D. M., Wang, C. and Paisley, J. Stochastic Variational Inference 0.91
The Journal of Machine Learning Research, 14(1):1303–1347, 2013. the journal of machine learning research, 14(1):1303–1347, 2013年。 0.86
Iyer, S., Dandekar, N., and Csernai, K. First quora dataset release: Iyer, S., Dandekar, N., Csernai, K. First quora データセットリリース 0.77
Question pairs. data. 質問のペア。 データだ 0.69
quora. com, 2017. クオラ 2017年。 0.39
Jin, D., Jin, Z., Zhou, J. T., and Szolovits, P. Is bert really robust? Jin, D., Jin, Z., Zhou, J. T., and Szolovits, P. bertは本当に頑丈か? 0.94
a strong baseline for natural language attack on text classification and entailment. テキストの分類と細部への自然言語攻撃の 強力なベースラインだ 0.86
In Proceedings of the AAAI Conference on Artificial Intelligence, volume 34, pp. The Proceedings of the AAAI Conference on Artificial Intelligence, Volume 34, pp。 0.76
8018–8025, 2020. 8018–8025, 2020. 0.84
Joshi, M., Chen, D., Liu, Y., Weld, D. S., Zettlemoyer, L., and Levy, O. Spanbert: Improving pre-training by representing and predicting spans. Joshi, M., Chen, D., Liu, Y., Weld, D. S., Zettlemoyer, L., and Levy, O. Spanbert: パンの表現と予測による事前トレーニングの改善。 0.90
Transactions of the Association for Computational Linguistics, 8:64–77, 2020. the association for computational linguistics, 8:64–77, 2020を参照。 0.72
Kingma, D. P. and Ba, J. Adam: A method for stochastic optimiza- kingma, d. p. and ba, j. adam: a method for stochastic optimiza- 0.86
tion. arXiv preprint arXiv:1412.6980, 2014. ティメント arXiv preprint arXiv:1412.6980, 2014 0.51
Kingma, D. P. and Welling, M. Auto-encoding variational Bayes. Kingma, D. P. and Welling, M. Auto-encoding variational Bayes 0.87
arXiv preprint arXiv:1312.6114, 2013. arXiv preprint arXiv:1312.6114, 2013 0.81
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
Lan, W., Qiu, S., He, H., and Xu, W. A continuously growing dataset of sentential paraphrases. lan, w., qiu, s., he, h., xu, w. センテンシャルパラフラスの連続的に成長するデータセット。
訳抜け防止モード: Lan, W., Qiu, S., He, H. そして Xu, W。 逐次パラフレーズの連続的な成長データセット。
0.81
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pp. 自然言語処理における経験的手法に関する2017年会議の報告, pp。 0.78
1224–1234, 2017. 1224–1234, 2017. 0.84
Lan, Z., Chen, M., Goodman, S., Gimpel, K., Sharma, P., and Soricut, R. ALBERT: A lite BERT for self-supervised learning of language representations. lan, z., chen, m., goodman, s., gimpel, k., sharma, p. and soricut, r. albert: a lite bert for self-supervised learning of language representations (英語)
訳抜け防止モード: Lan, Z., Chen, M., Goodman, S. Gimpel, K., Sharma, P., and Soricut, R. ALBERT : 言語表現の教師あり学習のための礼儀正しいBERT
0.79
arXiv preprint arXiv:1909.11942, 2019. arXiv preprint arXiv:1909.1 1942, 2019 0.73
Larochelle, H., Erhan, D., Courville, A., Bergstra, J., and Bengio, Y. Larochelle, H., Erhan, D., Courville, A., Bergstra, J., Bengio, Y。 0.79
An empirical evaluation of deep architectures on problems In Proceedings of the 24th with many factors of variation. 問題における深層建築の実証評価 : 様々な要因による24世紀の成果 0.61
international conference on Machine learning, pp. 機械学習に関する国際会議, pp。 0.77
473–480, 2007. 473–480, 2007. 0.84
Li, J., Ji, S., Du, T., Li, B., and Wang, T. Textbugger: Generating adversarial text against real-world applications. Li, J., Ji, S., Du, T., Li, B., and Wang, T. Textbugger: 現実世界のアプリケーションに対する敵テキストの生成。 0.92
In 26th Annual Network and Distributed System Security Symposium, 2019. 第26回ネットワーク・分散システムセキュリティシンポジウム, 2019。 0.67
Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. Roberta: A robustly optimized bert pretraining approach. Liu, Y., Ott, M., Goyal, N., Du, J., Joshi, M., Chen, D., Levy, O., Lewis, M., Zettlemoyer, L., and Stoyanov, V. Roberta: 堅牢に最適化されたbert事前訓練アプローチ。 0.90
arXiv e-prints, pp. arXiv e-prints, pp。 0.85
arXiv–1907, 2019. 2019年〜1907年。 0.50
Loshchilov, I. and Hutter, F. Decoupled weight decay regularization. Loshchilov, I. and Hutter, F. Decoupled weight decay regularization 0.88
In International Conference on Learning Representations, 2018. 2018年、国際学習表現会議に参加。 0.75
Lu, J., Batra, D., Parikh, D., and Lee, S. Vilbert: Pretraining taskagnostic visiolinguistic representations for vision-and-language tasks. Lu, J., Batra, D., Parikh, D., and Lee, S. Vilbert: 視覚・言語タスクに対するタスクに依存しない視覚言語表現の事前訓練。 0.69
arXiv preprint arXiv:1908.02265, 2019. arXiv preprint arXiv:1908.02265, 2019 0.81
Miller, T. Simplified neural unsupervised domain adaptation. Miller, T. Simplified neural unsupervised domain adaptation 0.80
In Proceedings of the conference. 会議の議事録に登場。 0.70
Association for Computational Linguistics. North American Chapter. 計算言語学会会員。 北米支部所属。 0.49
Meeting, volume 2019, pp. 同上、2019年、p。 0.43
414. NIH Public Access, 2019. 414. NIH Public Access、2019年。 0.83
Morris, J., Lifland, E., Yoo, J. Y., Grigsby, J., Jin, D., and Qi, Y. Textattack: A framework for adversarial attacks, data augmentation, and adversarial training in nlp. Morris, J., Lifland, E., Yoo, J. Y., Grigsby, J., Jin, D., Qi, Y. Text attack: nlpにおける敵攻撃、データ強化、敵の訓練のためのフレームワーク。 0.86
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pp. 自然言語処理における経験的手法に関する2020年会議の成果:システムデモ, pp。 0.81
119–126, 2020. 119–126, 2020. 0.84
Mukhoti, J. and Gal, Y. Mukhoti, J. and Gal, Y。 0.91
ing methods for semantic segmentation. 意味セグメンテーションのためのingメソッド。 0.65
arXiv:1811.12709, 2018. arXiv:1811.12709, 2018。 0.60
Evaluating Bayesian deep learnarXiv preprint bayesian deep learnarxivプレプリントの評価 0.74
Nair, V. and Hinton, G. E. Rectified linear units improve restricted Boltzmann machines. nair, v. および hinton, 例えば整流線形単位は制限ボルツマン機械を改善する。 0.67
In Proceedings of the 27th international conference on machine learning (ICML-10), pp. 第27回機械学習国際会議(ICML-10)に参加して 0.69
807–814, 2010. 807–814, 2010. 0.84
Neal, R. M. Connectionist learning of belief networks. Neal, R. M. Connectionist Learning of belief network (英語) 0.75
Artificial intelligence, 56(1):71–113, 1992. 人工物 インテリジェンス, 56(1):71–113, 1992。 0.70
Owen, A. B. Monte Carlo Theory, Methods and Examples, chapter オーウェン、A。 b.モンテカルロ理論,方法と例,章 0.66
8 Variance Reduction. 2013. 8変量化。 2013. 0.72
Peng, M., Zhang, Q., Jiang, Y.-g., and Huang, X.-J. Peng, M., Zhang, Q., Jiang, Y.-g., Huang, X.-J. 0.97
Cross-domain sentiment classification with target domain specific information. 対象領域固有情報を用いたドメイン間感情分類 0.74
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pp. 第56回計算言語学会年次大会紀要(第1巻:長編), pp。 0.42
2505–2513, 2018. 2505–2513, 2018. 0.84
Radford, A., Narasimhan, K., Salimans, T., and Sutskever, I. Radford, A., Narasimhan, K., Salimans, T., Sutskever, I。 0.76
Improving language understanding by generative pre-training. 生成事前学習による言語理解の改善 0.78
2018. Rajpurkar, P., Zhang, J., Lopyrev, K., and Liang, P. SQuAD: 100,000+ questions for machine comprehension of text. 2018. Rajpurkar, P., Zhang, J., Lopyrev, K. and Liang, P. SQuAD: 機械によるテキストの理解に関する10万以上の質問。 0.84
arXiv preprint arXiv:1606.05250, 2016. arXiv preprint arXiv:1606.05250, 2016 0.80
Rajpurkar, P., Jia, R., and Liang, P. Know what you don’t know: Unanswerable questions for SQuAD. Rajpurkar, P., Jia, R., Liang, P. は、あなたが知らないことを知っている。 0.63
arXiv preprint arXiv:1806.03822, 2018. arXiv preprint arXiv:1806.03822, 2018 0.79
Sennrich, R., Haddow, B., and Birch, A. Neural machine transarXiv preprint Sennrich, R., Haddow, B. and Birch, A. Neural Machine TransarXiv プレプリント 0.91
lation of rare words with subword units. 希少な単語とサブワード単位の関連。 0.69
arXiv:1508.07909, 2015. arXiv:1508.07909, 2015。 0.63
Shankar, S. and Sarawagi, S. Posterior attention models for se- Shankar, S. and Sarawagi, S. Posterior attention model for se- 0.95
quence to sequence learning. 数列学習へ移行する。 0.61
2018. Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C. D., Ng, A. Y., and Potts, C. Recursive deep models for semantic compositionality over a sentiment treebank. 2018. Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C. D., Ng, A. Y., and Potts, C. Recursive Deep Model for semantic compositionality over a sentiment treebank。 0.87
In Proceedings of the 2013 conference on empirical methods in natural language processing, pp. 2013年のProceedings of the 2013 Conference on empirical methods in natural language processing, pp。 0.81
1631–1642, 2013. 1631–1642, 2013. 0.84
Sønderby, C. K., Raiko, T., Maaløe, L., Sønderby, S. K., and In NIPS, pp. Sønderby, C. K., Raiko, T., Maaløe, L., Sønderby, S. K., In NIPS, pp。 0.86
Winther, O. Ladder variational autoencoders. ウィンザー、O。 ラダー変分オートエンコーダ。 0.51
3738–3746, 2016. 3738–3746, 2016. 0.84
Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., and Salakhutdinov, R. Dropout: A simple way to prevent neural networks from overfitting. Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I., Salakhutdinov, R. Dropout: ニューラルネットワークのオーバーフィットを防ぐ簡単な方法。 0.78
The Journal of Machine Learning Research, 15(1):1929–1958, 2014. The Journal of Machine Learning Research, 15(1):1929–1958, 2014 0.91
Strubell, E., Ganesh, A., and McCallum, A. Strubell, E., Ganesh, A., McCallum, A. 0.76
Energy and policy In Proceedings of considerations for deep learning in nlp. nlpにおける深層学習の考察手続におけるエネルギーと政策 0.85
the 57th Annual Meeting of the Association for Computational Linguistics, pp. 第57回計算言語学会年会, pp. 0.51
3645–3650, 2019. 3645–3650, 2019. 0.84
Sutskever, I., Vinyals, O., and Le, Q. V. Sequence to sequence learning with neural networks. Sutskever, I., Vinyals, O., Le, Q. V. Sequence によるニューラルネットワークによるシーケンス学習 0.85
In Advances in neural information processing systems, pp. In Advances in Neural Information Processing System, pp。 0.75
3104–3112, 2014. 3104–3112, 2014. 0.84
Teney, D., Anderson, P., He, X., and Van Den Hengel, A. Teney, D., Anderson, P., He, X, and Van Den Hengel, A. 0.85
Tips and tricks for visual question answering: Learnings from the 2017 challenge. 視覚的な質問に対するコツとコツ: 2017年のチャレンジから学ぶこと。 0.77
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. IEEE Conference on Computer Vision and Pattern Recognition, pp。 0.55
4223–4232, 2018. 4223–4232, 2018. 0.84
Tran, D., Dusenberry, M. W., van der Wilk, M., and Hafner, D. Bayesian layers: A module for neural network uncertainty. Tran, D., Dusenberry, M. W., van der Wilk, M. and Hafner, D. Bayesian Layer: ニューラルネットワークの不確実性のためのモジュール。 0.88
arXiv preprint arXiv:1812.03973, 2018. arXiv preprint arXiv:1812.03973, 2018 0.79
Papineni, K., Roukos, S., Ward, T., and Zhu, W.-J. Papineni, K., Roukos, S., Ward, T., Zhu, W.-J。 0.84
BLEU: A method for automatic evaluation of machine translation. BLEU:機械翻訳の自動評価方法。 0.61
In Proceedings of the 40th annual meeting on association for computational linguistics, pp. 第40回計算言語学学会大会の報告, pp。 0.47
311–318. Association for Computational Linguistics, 2002. 311–318. 計算言語学協会、2002年。 0.72
Parikh, A. P., T¨ackstr¨om, O., Das, D., and Uszkoreit, J. Parikh (三人称単数 現在形 Parikhs, 現在分詞 Parikh, 過去形および過去分詞形 Parikh) 0.38
A decomposable attention model for natural language inference. 自然言語推論のための分解可能な注意モデル 0.75
In EMNLP, 2016. 2016年、EMNLP。 0.61
Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, Ł., and Polosukhin, I. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, s., Polosukhin, I。 0.83
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In Advances in neural information processing systems, pp. In Advances in Neural Information Processing System, pp。 0.75
5998–6008, 2017. 5998–6008, 2017. 0.84
Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., and Bowman, S. R. GLUE: A multi-task benchmark and analysis platform for natural language understanding. Wang, A., Singh, A., Michael, J., Hill, F., Levy, O., and Bowman, S. R. GLUE: 自然言語理解のためのマルチタスクベンチマークと分析プラットフォーム。 0.86
arXiv preprint arXiv:1804.07461, 2018. arXiv preprint arXiv:1804.07461, 2018 0.80
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
Wang, Z. and Zhou, M. Thompson sampling via local uncertainty. Wang, Z. and Zhou, M. Thompson sample through local uncertainty。 0.87
In International Conference on Machine Learning, pp. 英語) international conference on machine learning, pp. 0.80
10115– 10125. 10115– 10125. 0.94
PMLR, 2020. PMLR、2020年。 0.88
Warstadt, A., Singh, A., and Bowman, S. R. Neural network acceptability judgments. Warstadt, A., Singh, A., Bowman, S. R. Neural Network acceptability judgments 0.81
Transactions of the Association for Computational Linguistics, 7:625–641, 2019. Association for Computational Linguistics, 7:625–641, 2019 0.73
Williams, A., Nangia, N., and Bowman, S. R. A broad-coverage challenge corpus for sentence understanding through inference. Williams, A., Nangia, N. and Bowman, S. R. A wide-coverage challengecorpus for sentence understanding through inference。 0.88
arXiv preprint arXiv:1704.05426, 2017. arXiv preprint arXiv:1704.05426, 2017 0.79
Williams, A., Nangia, N., and Bowman, S. A broad-coverage challenge corpus for sentence understanding through inference. Williams, A., Nangia, N. and Bowman, S. A wide-coverage challengecorpus for sentence understanding through inference。 0.85
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pp. the association for computational linguistics: human language technologies, volume 1 (long papers), pp. 北米支部の2018年大会の議事録 0.62
1112–1122, 2018. 1112–1122, 2018. 0.84
Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M., et al Transformers: State-of-the-art natural language processing. Wolf, T., Debut, L., Sanh, V., Chaumond, J., Delangue, C., Moi, A., Cistac, P., Rault, T., Louf, R., Funtowicz, M., et al Transformers: 最先端の自然言語処理。 0.86
arXiv preprint arXiv:1910.03771, 2019. arXiv preprint arXiv:1910.03771, 2019 0.81
Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., Krikun, M., Cao, Y., Gao, Q., Macherey, K., et al Google’s neural machine translation system: Bridging the gap between human and machine translation. wu, y., schuster, m., chen, z., le, q. v., norouzi, m., macherey, w., krikun, m., cao, y., gao, q., macherey, k., et al googleのneural machine translation system: bridging the gap between human and machine translation (英語)
訳抜け防止モード: Wu, Y., Schuster, M., Chen, Z. Le, Q. V., Norouzi, M., Macherey, W. Krikun, M., Cao, Y., Gao, Q. Macherey, K., et al Google のニューラルマシン翻訳システム 人間と機械の翻訳のギャップを埋める。
0.79
arXiv preprint arXiv:1609.08144, 2016. arXiv preprint arXiv:1609.08144, 2016 0.79
Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R., and Bengio, Y. Xu, K., Ba, J., Kiros, R., Cho, K., Courville, A., Salakhudinov, R., Zemel, R., Bengio, Y。 0.80
Show, attend and tell: Neural image caption generation with visual attention. 視覚的注意を伴うニューラルイメージキャプション生成。 0.38
In International conference on machine learning, pp. 英語) international conference on machine learning, pp. 0.81
2048–2057, 2015. 2048–2057, 2015. 0.84
Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., and Le, Q. V. Xlnet: Generalized autoregressive pretraining for language understanding. Yang, Z., Dai, Z., Yang, Y., Carbonell, J., Salakhutdinov, R., and Le, Q. V. Xlnet: 言語理解のための自己回帰事前訓練。 0.87
arXiv preprint arXiv:1906.08237, 2019. arXiv preprint arXiv:1906.08237, 2019 0.81
Yu, Z., Yu, J., Cui, Y., Tao, D., and Tian, Q. Yu,Z.,Yu,J.,Cui,Y.,T ao,D.,Tian,Q。 0.68
Deep modular coattention networks for visual question answering. 視覚的質問応答のための深いモジュラーコートテンションネットワーク 0.61
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. IEEE Conference on Computer Vision and Pattern Recognition, pp。 0.55
6281–6290, 2019. 6281–6290, 2019. 0.84
Zellers, R., Bisk, Y., Schwartz, R., and Choi, Y. Swag: A largescale adversarial dataset for grounded commonsense inference. Zellers, R., Bisk, Y., Schwartz, R. and Choi, Y. Swag: グラウンドド・コモンセンス推論のための大規模逆解析データセット。 0.83
In EMNLP, 2018. 2018年、EMNLP。 0.58
Zellers, R., Holtzman, A., Bisk, Y., Farhadi, A., and Choi, Y. Hellaswag: Can a machine really finish your sentence? Zellers, R., Holtzman, A., Bisk, Y., Farhadi, A., and Choi, Y. Hellaswag: 機械はあなたの文章を本当に終わらせられるだろうか? 0.88
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pp. 第57回計算言語学会大会報告, pp。 0.37
4791–4800, 2019. 4791–4800, 2019. 0.84
Zhang, H., Chen, B., Guo, D., and Zhou, M. WHAI: Weibull hybrid autoencoding inference for deep topic modeling. Zhang, H., Chen, B., Guo, D., Zhou, M. WHAI: ディープトピックモデリングのためのWeibullハイブリッド自動エンコーディング推論。 0.80
In International Conference on Learning Representations, 2018. 2018年、国際学習表現会議に参加。 0.75
Zhou, M., Cong, Y., and Chen, B. Augmentable gamma belief networks. Zhou, M., Cong, Y. and Chen, B. Augmentable gamma belief network 0.81
The Journal of Machine Learning Research, 17(1): 5656–5699, 2016. journal of machine learning research, 17(1): 5656-5699, 2016年。 0.83
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
A. Experimental details A.1. A。 詳細はa.1。 0.62
Natural Language Understanding A.1.1. 自然言語理解 1.1。 0.64
MODEL SPECIFICATIONS FOR IN-DOMAIN ドメイン内モデル仕様 0.53
EVALUATION ALBERT (Lan et al , 2019) is used as the pretrained model on large corpora to extract the context embeddings. 評価 ALBERT (Lan et al , 2019) は、コンテキスト埋め込みを抽出するために、大きなコーパスで事前訓練されたモデルとして使用される。
訳抜け防止モード: 評価 ALBERT(Lan et al, 2019)は大型コーパスの事前訓練モデルとして使用される コンテキスト埋め込みを抽出します
0.60
ALBERT is a memory-efficient version of BERT with parameter sharing and embedding factorization. ALBERT は BERT のメモリ効率のよいバージョンで、パラメータ共有と埋め込み係数化がある。 0.69
In our experiments, we use the ALBERT-base model with 12 attention layers and hidden dimension 768. 実験では,12の注意層と768の隠れ次元を持つALBERTベースモデルを用いた。 0.79
The embedding dimension for factorized embedding is 128. 因子埋め込みの埋め込み次元は128である。 0.55
A.1.2. EXPERIMENTAL SETTINGS FOR IN-DOMAIN A.1.2。 ドメイン内実験の設定 0.44
EVALUATION Our experiments are conducted on both the General Language Understanding Evaluation (GLUE) and Stanford Question Answering (SQuAD) Datasets. 評価 本実験は,GLUE(General Language Understanding Evaluation)とSQuAD(Stanford Question Answering)データセットを用いて行った。 0.58
There are 8 tasks in GLUE, including Microsoft Research Paraphrase Corpus (MRPC; (Dolan & Brockett, 2005)), Corpus of Linguistic Acceptability (CoLA; (Warstadt et al , 2019)), Recognizing Textual Entailment (RTE; (Dagan et al , 2005)), Multi-Genre NLI (MNLI; (Williams et al , 2017)), Question NLI (QNLI; (Rajpurkar et al , 2016)), Quora Question Pairs (QQP; (Iyer et al , 2017)), Stanford Sentiment Treebank (SST; (Socher et al , 2013)), and Semantic Textual Similarity Benchmark (STS;(Cer et al , 2017)). There are 8 tasks in GLUE, including Microsoft Research Paraphrase Corpus (MRPC; (Dolan & Brockett, 2005)), Corpus of Linguistic Acceptability (CoLA; (Warstadt et al , 2019)), Recognizing Textual Entailment (RTE; (Dagan et al , 2005)), Multi-Genre NLI (MNLI; (Williams et al , 2017)), Question NLI (QNLI; (Rajpurkar et al , 2016)), Quora Question Pairs (QQP; (Iyer et al , 2017)), Stanford Sentiment Treebank (SST; (Socher et al , 2013)), and Semantic Textual Similarity Benchmark (STS;(Cer et al , 2017)). 0.77
For SQuAD, we include both SQuAD v1.1 and SQuAD v2.0. SQuAD は SQuAD v1.1 と SQuAD v2.0 の両方を含む。 0.70
We use the codebase2 from Huggingface Transformers (Wolf et al , 2019). hugingface transformers(wolf et al , 2019)のコードベース2を使っています。 0.71
For the detailed experimental settings, we summarize in Table 6. 詳細な実験設定については、表6にまとめる。 0.77
Table 6. Experimental settings of each task for in-domain pretrained language model (LR: learning rate, BSZ: batch size, DR: dropout rate, TS: training steps, WS: warmping steps, MSL: maximum sentence length). 表6。 ドメイン内事前訓練言語モデル(LR:学習率、BSZ:バッチサイズ、DR:ドロップアウト率、TS:トレーニングステップ、WS:ウォーミングステップ、MSL:最大文長)に対する各タスクの実験的設定。 0.74
COLA STS SST2 MNLI QNLI QQP RTE MRPC COLA STS SST2 MNLI QNLI QQP RTE MRPC 0.94
SQUAD V1.1 SQUAD V2.0 SQUAD V1.1 SQUAD V2.0 0.53
LR 1.00e−5 2.00e−5 1.00 e−5 3.00 e−5 1.00 e−5 5.00 e−5 3.00 e−5 2.00 e−5 5.00 e−5 3.00 e−5 LR 1.00e−5 2.00e−5 1.00 e−5 3.00 e−5 1.00 e−5 5.00 e−5 3.00 e−5 2.00 e−5 5.00 e−5 3.00 e−5 0.61
BSZ 16 16 32 128 32 128 32 32 48 48 BSZ 16 16 32 128 32 128 32 32 48 48 0.85
ALBERT DR CLASSIFIER DR アルバート博士 クラシファイアDR 0.51
0 0 0 0 0 0.1 0.1 0 0 0 0 0 0 0 0 0.1 0.1 0 0 0 0.86
0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.1 0.42
TS 5336 3598 20935 10000 33112 14000 800 800 3649 8144 TS 5336 3598 20935 10000 33112 14000 800 800 3649 8144 0.85
WS 320 214 1256 1000 1986 1000 200 200 365 814 WS 320 214 1256 1000 1986 1000 200 200 365 814 0.85
MSL 512 512 512 512 512 512 512 512 384 512 MSL 512 512 512 512 512 512 512 512 384 512 0.85
Table 7. Efficiency on ALBERT-base models. 表7。 ALBERTベースモデルの効率性。 0.73
ATTENTION BASE BAM BABN 触覚ベースバムバBN 0.49
PARAMS ↓ 11.7M 11.7M 12.4M PARAMS 11.7M 11.7M 12.4M 0.36
S/STEP ↓ 0.26 0.35 0.41 s/step 0.26 0.35 0.41 0.47
2https://github.com/ huggingface/ 2https://github.com/ huggingface/ 0.39
transformers A.1.3. MODEL SPECIFICATIONS FOR DOMAIN 変圧器 1.3。 ドマインモデル特定 0.55
GENERALIZATIONS We follow Desai & Durrett (2020) to use bert-base-uncased (Devlin et al , 2018) and roberta-base (Liu et al , 2019) as the baseline models. 一般化 We follow Desai & Durrett (2020) to use bert-base-uncased (Devlin et al , 2018) and roberta-base (Liu et al , 2019) as the baseline model。 0.73
We also include the results of two non-pretrained models DA (Parikh et al , 2016) and ESIM (Chen et al , 2017) from Desai & Durrett (2020), which are obtained with the open-source implementation in AllenNLP (Gardner et al , 2017). desai & durrett (2020) の 2 つの非事前学習モデル da (parikh et al , 2016) と esim (chen et al , 2017) の結果も,allennlp のオープンソース実装 (gardner et al , 2017) で得られた。
訳抜け防止モード: また、事前訓練されていない2つのモデルDA(Parikh et al, 2016)の結果も含んでいる。 Desai & Durrett (2020 )の ESIM ( Chen et al, 2017 )。 これはAllenNLP(Gardner et al, 2017)のオープンソース実装で得られる。
0.69
The pretrained models are provided by HuggingFace Transformers (Wolf et al , 2019). 事前訓練されたモデルはHuggingFace Transformers(Wolf et al , 2019)によって提供されている。 0.67
Largely following the settings from Desai & Durrett (2020). Desai & Durrett (2020) の設定に大きく従った。 0.75
we finetune BERT with a maximum of 3 epochs, batch size of 16, learning rate of 2e−5, gradient clip of 1.0, and no weight decay. 我々は,最大3エポック,バッチサイズ16,学習率2e−5,勾配クリップ1.0,重量減少なしのbertの細粒化を行った。 0.68
For RoBERTa, we finetune with a maximum of 3 epochs, batch size of 32, learning rate of 1e−5, gradient clip of 1.0, and weight decay of 0.1. RoBERTaでは,最大3エポック,バッチサイズ32,学習速度1e−5,勾配クリップ1.0,重量減衰0.1。 0.60
AdamW (Loshchilov & Hutter, 2018) is used as the optimizer in experiments. AdamW (Loshchilov & Hutter, 2018) は実験のオプティマイザとして使用されている。 0.67
A.1.4. EXPERIMENTAL SETTINGS FOR DOMAIN A.1.4。 ドメインの実験的設定 0.49
GENERALIZATIONS For all datasets, we follow the settings from Desai & Durrett (2020) and split the development set in half to obtain a held-out, non-blind test set. 一般化 全てのデータセットについて、desai & durrett (2020) の設定に従い、開発セットを半分に分割し、保留で非盲目的なテストセットを得る。 0.62
We conduct experiments on three tasks: (1) Natural Language Inference. 1)自然言語推論の3つの課題について実験を行った。 0.69
The Stanford Natural Language Inference (SNLI) corpus is a large-scale entailment dataset (Bowman et al , 2015). stanford natural language inference (snli) コーパスは大規模な補足データセットである(bowman et al , 2015)。 0.71
The similar entailment data across domains is also included in Multi-Genre Natural Language Inference (MNLI) (Williams et al , 2018). MNLI(Multi-Genre Natural Language Inference, MNLI) (Williams et al , 2018)にも、ドメイン間の類似の包含データが含まれている。 0.70
Thus the MNLI can be used as an unseen out-of-domain test dataset. したがって、MNLIはドメイン外テストデータセットとして使用することができる。 0.65
(2) Paraphrase Detection. (2)言い換えの検出。 0.71
Quora Question Pairs (QQP) contains sentence pairs from Quora that are semantically equivalent (Iyer et al , 2017). Quora Question Pairs (QQP) には意味論的に等価なQuoraの文対が含まれている(Iyer et al , 2017)。 0.73
TwitterPPDB (TPPDB), considered as outof-domain data, contains the sentence pairs from the paraphrased tweets (Lan et al , 2017). TwitterPPDB(TPPDB)はドメイン外データと考えられており、パラフレーズ付きツイートの文対を含んでいる(Lan et al , 2017)。 0.80
(3) Commonsense Reasoning. Situations With Adversarial Generations (SWAG) is a grounded commonsense reasoning task (Zellers et al , 2018). (3)常識推論 敵対的世代(swag)を伴う状況は、接地常識推論タスク(zellers et al , 2018)である。 0.54
The out-of-domain data is HellaSWAG (HSWAG), which is a more challenging benchmark (Zellers et al , 2018). ドメイン外のデータは、より難しいベンチマークであるHellaSWAG(HSWAG)である(Zellers et al , 2018)。 0.70
A.1.5. ADVERSARIAL ROBUSTNESS A.1.5。 副鼻腔ローブスタネス 0.38
We utilized the same models and training procedures as the in-domain evaluation. ドメイン内評価と同じモデルとトレーニング手順を応用した。 0.66
The settings for adversarial attack follow those from Morris et al (2020) with maximum sentence length 512. 敵対攻撃の設定は、最大文長512のMoris et al (2020)によるものである。 0.72
A.2. Neural Machine Translation A.2。 ニューラルマシン翻訳 0.65
A.2.1. MODEL SPECIFICATIONS A.2.1。 モデル仕様 0.58
Following the Neural Machine Translation (NMT) setting from Deng et al (2018), we utilize the bidirectional LSTM to embed each source sentence to source representations. The Neural Machine Translation (NMT) set from Deng et al (2018), we use the bidirectional LSTM to embed each source sentence to source representations。 0.72
英語(論文から抽出)日本語訳スコア
Bayesian Attention Belief Networks Bayesian Attention Belief Networks 0.85
the multi-head attention is 512, the number of heads is set to 8, and the latent dimensionality for each head is 64. マルチヘッドアテンションは512、ヘッドの数は8に設定され、各ヘッドの潜在次元は64である。 0.66
The size of the answer vocabulary is set to N = 3129 using the strategy in Teney et al (2018). 回答語彙の大きさは teney et al (2018) の戦略を用いて n = 3129 に設定される。 0.77
To train the MCAN model, we use the Adam optimizer (Kingma & Ba, 2014) with β1 = 0.9 and β2 = 0.98. MCANモデルのトレーニングには、Adam Optimizationr (Kingma & Ba, 2014) と β1 = 0.9 と β2 = 0.98 を用いる。 0.90
The base learning rate is set to min(2.5te−5, 1e−4), where t is the current epoch number starting from 1. 基本学習速度は min(2.5te−5, 1e−4) に設定され、t は 1 から始まる現在のエポック数である。
訳抜け防止モード: 基礎学習速度は min (2.5te−5, 1e−4 ) となる。 現在 t は 1 から始まるエポック番号です
0.77
After 10 epochs, the learning rate is decayed by 1/5 every 2 epochs. 10エポックの後、学習率は2エポックごとに1/5減少する。 0.58
All the models are trained up to 13 epochs with the same batch size of 64. すべてのモデルは最大13エポックまでトレーニングされ、同じバッチサイズは64である。 0.74
A.3.3. ABLATION STUDY A.3.3。 アブレーション研究 0.52
Table 8. Ablation study of the upward path in BABN on VQA. 表8。 VQA上のBABN上向き経路のアブレーション研究 0.68
ACCURACY ↑ PAVPU ↑ アクキュラシィ! PAVPU! 0.35
ρ = 0, σ=1.00e−6 ρ = 1.5, σ=0 ρ = 1.5, σ=1.00e−6 ρ = 0, σ=1.00e−6 ρ = 1.5, σ=0 ρ = 1.5, σ=1.00e−6 0.52
ORIGINAL NOISY 32.16 64.04 64.40 ORIGINAL NOISY 32.16 64.04 64.40 0.59
44.62 66.78 66.92 44.62 66.78 66.92 0.47
ORIGINAL NOISY 53.22 69.02 70.43 原音 53.22 69.02 70.43 0.48
50.93 69.99 72.21 50.93 69.99 72.21 0.47
We conduct ablation study to exam the role of the upwarddownward structure by turning the weight parameters ρ and σ to zeros. 重みパラメータ ρ と σ をゼロにすることで、上向き構造の役割を検証するためのアブレーション研究を行う。 0.75
Table 8 shows that tuning either parameter to zero would lead to performance drop, especially the parameter ρ, which demonstrates the necessity and effectiveness of the upward-downward structure. 表8は、どちらのパラメータを0にチューニングしてもパフォーマンスが低下し、特にパラメータρは上向きの構造の必要性と有効性を示している。 0.78
We also found that the experimental results are not sensitive to the choice of the value of the ρ. また,実験結果がρの値の選択に敏感でないことも判明した。 0.69
Any number from 1 to 4 would give similar results. 1から4までの数字も同様の結果が得られる。 0.78
The other is the scaling factor σ that controls the importance of the hl in λl. もう1つは λl における hl の重要性を制御するスケーリング因子 σ である。 0.84
We found that the performance is not that sensitive to its value and it is often beneficial to make it smaller. パフォーマンスはその価値にそれほど敏感ではなく、小さくすることはしばしば有益であることがわかったのです。 0.69
In all experiments considered in the paper, which cover various noise levels and model sizes, we have simply fixed it at 1.00e−6. 様々なノイズレベルとモデルサイズをカバーする論文で検討されたすべての実験において、1.00e−6で修正した。 0.73
Attention is utilized, during the decoding stage, to identify which source positions should be used to predict the target using a function of previous generated tokens as the query. デコード段階では、前回の生成されたトークンの関数をクエリとして使用してターゲットを予測するためにどのソース位置を使用するべきかを特定するために、注意が使用される。 0.63
The aggregated features are passed to an MLP to produce the distribution over the next target word (see details in Deng et al (2018)). 集約された特徴はMLPに渡され、次のターゲット語上の分布を生成する(詳細はDeng et al (2018)を参照)。 0.83
A.2.2. EXPERIMENTAL SETTINGS A.2.2。 実験設定 0.48
For NMT we use the IWSLT dataset (Cettolo et al , 2014). NMTでは、IWSLTデータセット(Cettolo et al , 2014)を使用します。 0.77
We follow the same preprocessing as in Edunov et al (2017) which uses Byte Pair Encoding vocabulary over the combined source/target training set to obtain a vocabulary size of 14k tokens (Sennrich et al , 2015) with sequences of length up to 125. Edunov et al (2017)では、ソース/ターゲットの組み合わせトレーニングセット上でByte Pair Encoding vocabularyを使用して14kトークンの語彙サイズ(Sennrich et al , 2015)を最大125のシーケンスで取得している。 0.73
A two-layer bi-directional LSTM with 512 units is used as the encoder and another two-layer LSTM with 768 units is used as the decoder. 512ユニットの2層双方向LSTMをエンコーダとし、768ユニットの2層LSTMをデコーダとする。
訳抜け防止モード: エンコーダは512ユニットの2層バイ方向LSTMを使用する。 768ユニットの層LSTMがデコーダとして使用される。
0.80
Other training details include: the batch size 6, dropout rate 0.3, and learning rate 3e−4 with Adam optimizer (Kingma & Ba, 2014). その他のトレーニングの詳細としては、バッチサイズ6、ドロップアウト率0.3、Adam Optimizationrによる学習率3e−4がある(Kingma & Ba, 2014)。 0.66
During testing, we use beam search with beam size 10 and length penalty as 1 (Wu et al , 2016). 実験ではビームサイズ10のビームサーチと長さペナルティを1として用いた(Wu et al , 2016)。 0.78
A.3. Visual Question Answering A.3。 Visual Question Answering 0.75
A.3.1. MODEL SPECIFICATIONS A.3.1。 モデル仕様 0.58
The state-of-the-art VQA model, MCAN (Yu et al , 2019), is used in the experiments. 実験には最先端のVQAモデルMCAN(Yu et al , 2019)が使用されている。 0.80
The MCAN consists of MCA layers. MCANはMCA層で構成されている。 0.67
Each MCA layer consists of self-attention (SA) over question and image features, and guided-attention (GA) between question and image features. 各MCA層は、質問と画像の特徴に関する自己注意(SA)と、質問と画像の特徴の間のガイド付き注意(GA)から構成される。
訳抜け防止モード: 各MCA層は、質問と画像の特徴に関する自己注意(SA)から構成される。 and guided - attention (GA ) between question and image features.
0.82
Multi-head structure as in Vaswani et al (2017), including the residual and layer normalization components, is incorporated in the MCA layer. 残留および層正規化成分を含むVaswani et al (2017)のようなマルチヘッド構造は、MCA層に組み込まれている。 0.69
MCAN represents the deep co-attention model which consists of multiple MCA layers cascaded in depth to gradually refine the attended image and question features. MCANは,複数のMCA層から構成される深部コアテンションモデルである。
訳抜け防止モード: MCANはDeep Co- attentionモデルを表す。 複数のMCA層が深くカスケードされ、画像や質問の特徴を徐々に洗練する。
0.75
We adopt the encoder-decoder structure in MCAN (Yu et al , 2019) with four co-attention layers. MCAN(Yu et al , 2019)のエンコーダ・デコーダ構造を4層に採用した。 0.73
A.3.2. EXPERIMENTAL SETTINGS A.3.2。 実験設定 0.48
We conduct experiments on the commonly used benchmark, VQA-v2 (Goyal et al , 2017), containing human-annotated question-answer (QA) pairs. 一般的なベンチマークであるVQA-v2(Goyal et al , 2017)では,人間による質問応答(QA)ペアを含む実験を行った。 0.66
There are three types of questions: Yes/No, Number, and Other. yes/no、number、その他の3種類の質問がある。 0.76
The dataset is split into the training (80k images and 444k QA pairs), validation (40k images and 214k QA pairs), and testing (80k images and 448k QA pairs) sets. データセットはトレーニング(80kイメージと444kQAペア)、検証(40kイメージと214kQAペア)、テスト(80kイメージと448kQAペア)に分けられる。 0.69
We perform evaluation on the validation set as the true labels for the test set are not publicly available (Deng et al , 2018). テストセットの真のラベルが公開されていないため、検証セットの評価を行う(Deng et al , 2018)。 0.64
To construct the noisy dataset, we incorporate the Gaussian noise (mean 0, variance 5) to image features. ノイズデータセットを構築するために、画像特徴量にガウスノイズ(平均0, 分散5)を組み込む。 0.78
We use the same model hyperparameters and training settings in Yu et al (2019) as follows: the dimensionality of input image features, input question features, and fused multi-modal features are set to be 2048, 512, and 1024, respectively. 我々は,Yu et al (2019)のモデルハイパーパラメータとトレーニング設定を用いて,入力画像特徴の次元性,入力質問特徴,融合マルチモーダル特徴をそれぞれ2048,512,1024と設定した。 0.68
The latent dimensionality in 潜在次元性 0.51
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。