論文の概要、ライセンス

# (参考訳) トランスフォーマーは自然言語で右にジャンプできるのか? SCANのパフォーマンス移行を評価する [全文訳有]

Can Transformers Jump Around Right in Natural Language? Assessing Performance Transfer from SCAN ( http://arxiv.org/abs/2107.01366v1 )

ライセンス: CC BY-SA 4.0
Rahma Chaabouni, Roberto Dess\`i, Eugene Kharitonov(参考訳) 実際の成功にもかかわらず、現代のSeq2seqアーキテクチャは複数のSCANタスクを体系的に一般化することはできない。 したがって、SCANスタイルの合成一般化が現実的なNLPタスクに有用かどうかは不明である。 本研究では,このような構成性が機械翻訳タスクにもたらすメリットについて検討する。 そこで本研究では,SCANの一般化能力を大幅に向上するTransformerのいくつかの改良点を紹介し,標準的な機械翻訳(MT)タスクにおいて,バニラトランスフォーマーと同程度に残るものを選択する。 次に,低リソース環境および新たに導入された英仏翻訳タスクにおいて,その性能について検討する。 全体として、SCAN対応モデルの改善は、リソース豊富なMT設定に直接転送されない。 対照的に、低リソース設定では、一般的な変更により最大13.1%のbleuスコアw.r.tが改善される。 バニラ変換器。 同様に、導入された構成英仏翻訳タスクにおいて、精度に基づくメトリックの14%の改善が達成される。 このことは、SCANで評価された合成一般化が特に資源探索およびドメインシフトのシナリオで有用であることを示す実験的な証拠を与える。

Despite their practical success, modern seq2seq architectures are unable to generalize systematically on several SCAN tasks. Hence, it is not clear if SCAN-style compositional generalization is useful in realistic NLP tasks. In this work, we study the benefit that such compositionality brings about to several machine translation tasks. We present several focused modifications of Transformer that greatly improve generalization capabilities on SCAN and select one that remains on par with a vanilla Transformer on a standard machine translation (MT) task. Next, we study its performance in low-resource settings and on a newly introduced distribution-shifted English-French translation task. Overall, we find that improvements of a SCAN-capable model do not directly transfer to the resource-rich MT setup. In contrast, in the low-resource setup, general modifications lead to an improvement of up to 13.1% BLEU score w.r.t. a vanilla Transformer. Similarly, an improvement of 14% in an accuracy-based metric is achieved in the introduced compositional English-French translation task. This provides experimental evidence that the compositional generalization assessed in SCAN is particularly useful in resource-starved and domain-shifted scenarios.
公開日: Sat, 3 Jul 2021 07:45:41 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Can Transformers Jump Around Right in Natural Language? トランスフォーマーは自然言語で右にジャンプできるのか? 0.70
Assessing Performance Transfer from SCAN SCANのパフォーマンス移行を評価する 0.74
Rahma Chaabouni∗† Ecole Normale Superieure {chaabounirahma, roberto.dessi11}@gmail.com kharitonov@fb.com Ecole Normale Superieure {chaabounirahma, roberto.dessi11}@gmail.com kharitonov@fb.com 0.77
Facebook AI & Pompeu Fabra Facebook AI & Pompeu Fabra 0.85
Eugene Kharitonov∗ Eugene Kharitonov∗ 0.88
Roberto Dess`ı Roberto Dessı 0.48
Facebook AI Facebook AI 0.85
Abstract their practical Despite success, modern seq2seq architectures are unable to generalize systematically on several SCAN tasks. 概要 実用的です 成功したにもかかわらず、現代のseq2seqアーキテクチャは、複数のSCANタスクを体系的に一般化することはできない。 0.49
Hence, it is not clear if SCAN-style compositional generalization is useful in realistic NLP tasks. したがって、SCANスタイルの合成一般化が現実的なNLPタスクに有用かどうかは不明である。 0.59
In this work, we study the benefit that such compositionality brings about to several machine translation tasks. 本研究では,このような構成性が機械翻訳タスクにもたらすメリットについて検討する。 0.61
We present several focused modifications of Transformer that greatly improve generalization capabilities on SCAN and select one that remains on par with a vanilla Transformer on a standard machine translation (MT) task. そこで本研究では,SCANの一般化能力を大幅に向上するTransformerのいくつかの改良点を紹介し,標準的な機械翻訳(MT)タスクにおいて,バニラトランスフォーマーと同程度に残るものを選択する。
訳抜け防止モード: SCAN上の一般化機能を大幅に改善するTransformerのいくつかの改良点を示す。 一つ選んで 標準機械翻訳(MT)タスクのバニラトランスフォーマーと同等である。
0.75
Next, we study its performance in low-resource settings and on a newly introduced distribution-shifted English-French translation task. 次に,低リソース環境および新たに導入された英仏翻訳タスクにおいて,その性能について検討する。 0.62
Overall, we find that improvements of a SCAN-capable model do not directly transfer to the resource-rich MT setup. 全体として、SCAN対応モデルの改善は、リソース豊富なMT設定に直接転送されない。 0.71
In contrast, in the low-resource setup, general modifications lead to an improvement of up to 13.1% BLEU score w.r.t. 対照的に、低リソース設定では、一般的な変更により最大13.1%のbleuスコアw.r.tが改善される。 0.50
a vanilla Transformer. Similarly, an improvement of 14% in an accuracy-based metric is achieved in the introduced compositional English-French translation task. バニラ変換器。 同様に、導入された構成英仏翻訳タスクにおいて、精度に基づくメトリックの14%の改善が達成される。 0.65
This provides experimental evidence that the compositional generalization assessed in SCAN is particularly useful in resource-starved and domain-shifted scenarios. このことは、SCANで評価された合成一般化が特に資源探索およびドメインシフトのシナリオで有用であることを示す実験的な証拠を与える。 0.52
1 2 0 2 l u J 1 2 0 2 l u J 0.85
3 ] L C . s c [ 3 ]LC。 sc [ 0.60
1 v 6 6 3 1 0 1 v 6 6 3 1 0 0.85
. 7 0 1 2 : v i X r a . 7 0 1 2 : v i X r a 0.85
Introduction sequence-to-sequence はじめに sequence‐to‐sequence 0.45
1 While (seq2seq) models achieve remarkable performance in many tasks (Sutskever et al , 2014; Adiwardana et al , 2020; Raffel et al , 2019), they often fail to generalize in a systematic way (McCoy et al , 2020; Hupkes et al , 2020; Baroni, 2019; Kharitonov and Chaabouni, 2021). 1 while (seq2seq) モデルは多くのタスク(sutskever et al , 2014; adiwardana et al , 2020; raffel et al , 2019)において顕著な性能を発揮するが、体系的な方法では一般化できないことが多い(mccoy et al , 2020; hupkes et al , 2020; baroni, 2019; kharitonov and chaabouni, 2021)。 0.85
These shortcomings are particularly obvious in the experiments on the ∗ Equal contribution. これらの欠点は特に ∗ Equal の寄与の実験において明らかである。 0.72
† work was done while R.C. 作業はr.c.で行われました。 0.42
was at Facebook AI. その時 Facebook AI。 0.71
SCAN domain (Lake and Baroni, 2018; Loula et al , 2018; Bastings et al , 2018). SCANドメイン(Lake and Baroni, 2018; Loula et al , 2018; Bastings et al , 2018)。 0.80
In SCAN, inputs are instructions that describe trajectories and outputs define sequences of actions to follow them (see Table 1). SCANでは、入力は軌道を記述する命令であり、出力はそれらに従うアクションのシーケンスを定義する(表1)。 0.72
To illustrate how SCAN probes a model for compositional generalization, imagine that we train it on a set of instructions {jump, run, turn, turn twice, run twice}, but test it on jump twice. scanが構成一般化のためのモデルをどのように探すかを説明するために、jump, run, turn, turn twice, run twice}という一連の命令でトレーニングするが、2回ジャンプするとテストする。 0.80
Strictly speaking, nothing in the training data indicates that the model must output JUMP JUMP instead of e g JUMP. 厳密に言えば、トレーニングデータには、モデルがeg JUMPの代わりにJUMP JUMPを出力しなければならないことを示すものはありません。
訳抜け防止モード: 厳密に言えば、 トレーニングデータには モデルは、eg JUMPの代わりにJUMP JUMPを出力する必要がある。
0.77
However, it is hypothesised that a bias for such compositional, human-like induction is beneficial (Lake and Baroni, 2018; Lake, 2019). しかし、このような構成的、人間的な誘導のバイアスは有益であると推測されている(Lake and Baroni, 2018; Lake, 2019)。 0.60
This hypothesis stumbles into a perplexing situation: despite failing at compositional generalization, considered as a core requirement for language understanding, seq2seq models have tremendous success in practice. 合成の一般化に失敗し、言語理解の核となる要件と見なされているにもかかわらず、seq2seqモデルは実際に非常に成功しています。
訳抜け防止モード: この仮説は紛らわしい状況にぶつかる : にもかかわらず 言語理解のコア要件と見なされる構成一般化の失敗 seq2seqモデルは 非常に成功しています
0.85
Is the type of compositional generalization, that SCAN probes for, useful for NLP tasks? SCANが探索する合成一般化のタイプは、NLPタスクに役立ちますか? 0.72
If so, in what scenarios? もしそうなら、どのようなシナリオで? 0.72
In this work, we aim to answer this question. この作業では、この問題に答えることを目指しています。 0.56
Firstly, we introduce focused modifications to Transformer that greatly improve accuracy performance on SCAN. まず,SCAN の精度を大幅に向上させる Transformer の改良について述べる。 0.83
To build such modifications, we exploit two observations: (i) Transformer’s architecture is very similar to convolution-based seq2seq models (ConvS2S) (Gehring et al , 2017), (ii) ConvS2S performs well on SCAN (Dess`ı and Baroni, 2019). i) Transformer のアーキテクチャは、畳み込みベースの seq2seq モデル (ConvS2S) (Gehring et al , 2017)、 (ii) ConvS2S は SCAN (Dessı と Baroni, 2019) でよく機能する。
訳抜け防止モード: このような改造を行う。 i) Transformer のアーキテクチャは畳み込みモデル(ConvS2S)をベースにしたSeq2seqモデル(Gehring et al, 2017)と非常によく似ている。 (i)ConvS2SはSCAN(Dess`ı and Baroni)上でよく機能する。 2019 ) .
0.72
This capability (ii) is hypothesized to be due to explicitly localized representation of the sequences, where only deep layers of the model can access more distant tokens (Dess`ı and Baroni, 2019; Hupkes et al , 2020). この能力 (ii) は、モデルの深い層だけがより遠くのトークンにアクセスすることができるようなシーケンスの明示的に局所化された表現によるものであると仮定されている(Dessıı and Baroni, 2019; Hupkes et al , 2020)。 0.70
Such a capability should also benefit to natural language processing as human languages are proved to favor local syntactic constructions (Futrell et al , 2015). このような能力は、人間の言語が局所的な構文構築を好むことが証明される(Futrell et al , 2015)。 0.65
Motivated by these observations, we focus on the major differences between ConvS2S and Transformer, namely the localized receptive field span and the gating これらの観測結果に動機づけられて,convs2とトランスフォーマーの主な違い,すなわち局所受容場スパンとゲーティングに着目した。 0.67
英語(論文から抽出)日本語訳スコア
mechanism, to inject into Transformer inductive biases useful for SCAN . メカニズムは、SCANに有用なTransformer誘導バイアスに注入する。 0.65
As a testbed, we use the machine translation (MT) domain as one of the most popular applications for seq2seq models. テストベッドとして、seq2seqモデルの最も人気のあるアプリケーションの一つとして、機械翻訳(MT)ドメインを使用します。 0.68
We consider both resource-rich (IWSLT’14 German→English) and low-resource (Nepali&Sinhala↔English) setups. 資源豊か (IWSLT'14 German→ English) と低リソース (Nepali&Sinhala- English) の両方を考える。 0.66
Finally, to evaluate SCAN-style capabilities in natural language tasks, we build a dataset that probes whether models can systematically generalize w.r.t. 最後に、自然言語タスクにおけるSCANスタイルの機能を評価するために、モデルがw.r.tを体系的に一般化できるかどうかを探索するデータセットを構築した。 0.49
noun-adjective ordering while translating from English to French. 英語からフランス語に翻訳する際の名詞形容詞順 0.60
We construct this dataset by filtering the EuroParl corpus (a part of WMT’14). このデータセットはEuroParlコーパス(WMT’14の一部)をフィルタリングすることで構築する。 0.80
Our results indicate that combining two ConvS2S-inspired changes improves accuracy on one SCAN split (SCAN-jump) from 3.4% to 43.0%, while maintaining a high accuracy on the other splits (SCAN-simple and SCAN-aroundright). 我々の 結果 ConvS2Sにインスパイアされた2つの変更を組み合わせることで、1つのSCAN分割(SCAN-jump)の精度が3.4%から43.0%に向上し、他方の分割(SCAN-simpleとSCAN-aroundright)の精度が向上することを示している。 0.68
As expected, given that SCAN is an artificial diagnostic dataset, not all modifications lead to equal improvements on an MT task. SCANが人工的な診断データセットであることを考えると、すべての修正がMTタスクに等しく改善をもたらすわけではない。 0.74
We select one of the considered modifications that performs on par with the vanilla Transformer on IWSLT’14. IWSLT’14でバニラトランスフォーマーと同等に機能すると考えられる修正の1つを選択します。 0.63
Testing the selected modification on lowresource data, we observe that it provides between 3.6% and 13.1% BLEU improvements over Transformer. 低リソースデータに対して選択された修正をテストすると、Transformerよりも3.6%から13.1%のBLEU改善が提供される。 0.56
On the noun-adjective ordering dataset, we find that our modification results into gains in generalization of 14%. 名詞形容詞順序付けデータセットでは,修正によって14%の一般化が得られた。 0.68
This leads to the following picture: the localized attention, augmented by a gating mechanism, provides a useful inductive bias that proves to be beneficial for SCAN-style generalization. ゲーティング機構によって拡張された局所的な注意は、スキャンスタイルの一般化に有益であることを示す有用な帰納的バイアスを提供する。 0.55
Additionally, it turns out extremely useful in low-resource and domain-shifted settings. さらに、低リソースとドメインシフトの設定でも非常に便利です。 0.69
Thus, testing seq2seq models on SCAN while controlling for a nondegraded performance leads to improvement in domains where syntactic compositionality is crucial for a task success. したがって、seq2seqモデルの非劣化パフォーマンスを制御しながらscan上でのテストは、構文的構成性がタスクの成功に不可欠であるドメインの改善につながる。 0.64
2 Transformers and ConvS2S 2変圧器とconvs2 0.58
overview Both Architecture Transformer and ConvS2S are encoder-decoder architectures (Sutskever et al , 2014), where the decoder has an attention mechanism to peek into the encoder’s representation (Bahdanau et al , 2014). 概要 Architecture TransformerとConvS2Sはエンコーダ-デコーダアーキテクチャ(Sutskever et al , 2014)であり、デコーダはエンコーダの表現を覗くための注意機構を持っている(Bahdanau et al , 2014)。 0.58
These representations are obtained by embedding the inputs, adding a positional embedding, and passing them through a sequence of layers. これらの表現は、入力を埋め込み、位置埋め込みを追加し、それらをレイヤーのシーケンスを通して渡すことで得られる。 0.64
In Transformer’s encoder, the output representations are the result of a sequential application of transformerのエンコーダでは、出力表現はシーケンシャルなアプリケーションの結果である。 0.70
two (sub)layer types: self-attention and fully connected layers. 2つの(サブ)レイヤタイプ: セルフアテンションと完全接続層。 0.79
The input representation can “skip” any sublayer via a residual connection. 入力表現は、残余接続を介して任意のサブレイヤを“スキップ”することができる。 0.53
The output of the sublayer is passed through a dropout mechanism and added to the residual. サブレイヤーの出力はドロップアウト機構を通過し、残差に追加される。 0.61
This sum is then layer-normalized. この和は層正規化される。 0.52
Any relation between input tokens is modelled solely through self-attention modules. 入力トークン間の関係は、自己アテンションモジュールを通してのみモデル化される。 0.57
In ConvS2S, the encoder is also a sequence of identical blocks. ConvS2Sでは、エンコーダは同一ブロックのシーケンスでもある。 0.70
The inter-term dependencies are modeled by 1D convolutions with GLU activation functions (Dauphin et al , 2017).1 In contrast to self-attention, convolutions have a finite kernel size, thus effectively capping the maximal distance of intermediate dependencies that can be modeled. 期間間の依存関係は、GLU活性化関数を持つ1次元の畳み込みによってモデル化される(Dauphin et al , 2017)。
訳抜け防止モード: 項間の依存関係は、GLUアクティベーション関数(Dauphin et al)を持つ1D畳み込みによってモデル化される。 2017年)1 自己注意とは対照的に、畳み込みはカーネルサイズが有限である。 これにより、モデル化可能な中間依存関係の最大距離を効果的にカプセル化できます。
0.55
The GLU activation function serves as a gate, allowing ConvS2S to control the balance between residuals and the output of the convolution. GLU活性化機能はゲートとして機能し、ConvS2Sは残差と畳み込みの出力のバランスを制御できる。 0.71
After the GLU operation, the intermediate representation is added to the residual and scaled. GLU操作後、中間表現を残部に追加してスケールする。 0.50
The output of the final convolution is then passed into a fully connected layer. 最終的な畳み込みの出力は、完全に連結された層に渡される。 0.72
In ConvS2S and Transformer, decoders have similar structures to those of encoders, with an additional decoder→encoder attention layer after the convolution and self-attention blocks, respectively. ConvS2SとTransformerでは、デコーダはエンコーダと同様の構造を持ち、コンボリューションと自己アテンションブロックの後にデコーダ→エンコーダのアテンション層を追加する。 0.68
Despite the similarities, there are numerous low-level differences between the two architectures: normalization (layer norm (Ba et al , 2016) vs. weight normalization (Salimans and Kingma, 2016)), optimization (Adam (Kingma and Ba, 2014) with a ramp-up vs. 類似性にもかかわらず、2つのアーキテクチャの間には、正規化(レイヤノルム(Ba et al , 2016)と重量正規化(Salimans and Kingma, 2016))、最適化(Adam (Kingma and Ba, 2014)の2つの低レベルな違いがある。 0.80
NAG (Sutskever et al , 2013)), etc. NAG(Sutskever et al , 2013)など。 0.67
A priori, any of those can affect models’ inductive biases. 優先順位としては、いずれもモデルの帰納バイアスに影響を与える可能性がある。 0.44
However, we concentrate on some of the most obvious architectural differences: the limited convolution span and GLU activations. しかし、我々は最も明白なアーキテクチャ上の違い、限定的な畳み込みスパンとgluアクティベーションに集中しています。 0.57
We believe these features can greatly affect models’ performance on SCAN. これらの機能はSCAN上でのモデルの性能に大きく影響すると考えています。 0.59
Indeed, SCAN has only local dependencies between tokens, thus the ability to avoid spurious correlations with more distant tokens can be useful. 実際、SCANはトークン間の局所的な依存関係しか持たないため、より遠いトークンとの急激な相関を回避する能力は有用である。 0.63
Similarly, the ability to weight contributions from the token interactions into the intermediate representation is intuitively prerequisite to build compositional representation. 同様に、トークンインタラクションから中間表現への貢献を重み付ける能力は、直感的に構成表現を構築するのに必須である。
訳抜け防止モード: 同様に 能力も トークンの相互作用から中間表現への貢献の重み付け 構成表現を構築するのに直感的に必須です。
0.74
GLU (Dauphin et al , 2017) Given a vector input x, GLU splits it in two equally sized halves x1 and x2; one is passed through a sigmoid (σ(x) = (1 + e−x)−1). GLU (Dauphin et al , 2017) ベクトル入力 x が与えられたとき、GLU は x1 と x2 に分割し、シグモノイド (σ(x) = (1 + e−x)−1) を通り抜ける。 0.76
Then both parts are pointwise multiplied: すると、両方の部分が点乗算される。 0.50
GLU (x) := σ(x1) (cid:12) x2 GLU (x) :=σ(x1) (cid:12) x2 0.89
(1) 1GLU was introduced as a combination of a convolution network and an activation; we follow the Pytorch convention and consider it as separate blocks for convenience. (1) 1GLUは畳み込みネットワークとアクティベーションの組み合わせとして導入された。
訳抜け防止モード: (1) 1GLUは畳み込みネットワークとアクティベーションの組み合わせとして導入された 私たちはPytorchの規約に従い、便利のために別のブロックとして検討します。
0.73
英語(論文から抽出)日本語訳スコア
jump jump around right turn left twice jump opposite left after walk around left ⇒ LTURN WALK LTURN WALK LTURN WALK LTURN WALK LTURN LTURN JUMP LTURN WALK LTURN LTURN WALK LTURN LTURN JUMP 0.20
⇒ JUMP ⇒ RTURN JUMP RTURN JUMP RTURN JUMP RTURN JUMP ⇒ LTURN LTURN 〜ジャンプ〜rターンジャンプ〜rターンジャンプ〜rターンジャンプ〜rターンジャンプ〜lターンlターン〜 0.28
Table 1: Examples of SCAN trajectories and instructions, adopted from (Lake and Baroni, 2018). 表1: SCAN の軌道と指示の例(Lake and Baroni, 2018)から採用。 0.72
This allows a network to implement a gating mechanism, where one half of its output gates the signal from the second. これにより、ネットワークはゲーティング機構を実装することができ、出力の半分が第2からの信号を遮断する。 0.76
Self-attention Instead of convolutions, Transformer uses multi-headed self-attention to model interactions between tokens. 自己注意 畳み込みの代わりに、Transformerはトークン間の相互作用をモデル化するためにマルチヘッドの自己意識を使用する。 0.46
Given n embeddings, x1, x2, ...xn of dimensionality d, the self-attention layer transforms them in the following way. n 次元 d の埋め込み x1, x2, ...xn が与えられたとき、自己注意層はそれらを次のように変換する。 0.64
Firstly, each embedding xi is projected by three matrices Q, K, and V to get query qi, key ki, and value vi representations, respectively: qi, ki, vi ← Qxi, Kxi, V xi. まず、各埋め込みxiは3つの行列 Q, K, V によって投影され、クエリ qi, key ki, value vi 表現がそれぞれ qi, ki, vi , Qxi, Kxi, V xi となる。 0.80
Next, a scaled dot-product between query qi and key kj is calculated as follow: 次に、クエリqiとキーkjの間の拡張ドット積を次のように算出する。 0.60
1√ d qi · kT 1/d qi · kT 0.71
j (2) αij = j (2) αij= 0.84
This dot-product defines the attention weights この点積は注目重量を定義する 0.66
wij = eαij /(cid:80) eαij which are used to get the output representations: oi =(cid:80) wij = eαij /(cid:80) eαij 出力表現を取得するために使われる: oi =(cid:80) 0.81
j wijvj. This process is done in parallel for multiple heads, acting on independent slices of the input embeddings; their outputs are concatenated and passed through a fully connected layer. jjvj所属。 このプロセスは複数のヘッドに対して並列に行われ、入力埋め込みの独立したスライスに作用する。
訳抜け防止モード: jjvj所属。 このプロセスは複数のヘッドに対して並列に行われ、入力埋め込みの独立したスライスに作用する 出力は連結され、完全に接続された層を通過します。
0.62
3 Transformer Modifications Self-attention gate (SAG) The simplest way to imitate the effect of GLU activation (Eq. 3 変圧器は、gluアクティベーション(eq)の効果を模倣する最も簡単な方法であるセルフアテンションゲート(sag)を修正する。 0.59
1) is to weight (gate) the output of self-attention by a learned scalar parameter. 1)学習したスカラーパラメータによる自己注意の出力を重み付け(ゲート)すること。 0.68
To ensure that it is nonnegative and is scaled in [0, 1], we parameterize it as a sigmoid of a real-valued learned parameter β. Algorithm 1 illustrates the introduced change. 非負であり、[0, 1]でスケールすることを保証するため、実数値学習パラメータβのシグミドとしてパラメータ化する。
訳抜け防止モード: 非負であること、[0, 1]でスケールすることを保証する。 実数値学習パラメータβのsgmoidとしてパラメータ化する。 アルゴリズム1は、導入された変更を説明する。
0.70
In comparison to Transformer, SAG adds one scalar parameter for each encoder and decoder layer. Transformerと比較して、SAGはエンコーダ層とデコーダ層ごとに1つのスカラーパラメータを追加する。 0.66
We treat β0, the value β is initialized with before training, as a hyperparameter. トレーニング前にβが初期化されるβ0をハイパーパラメータとして扱う。 0.79
In the preliminary experiments, we found that after training, encoder layers often have small negative β values (−2..− 0.5), while decoder layers have positive values (0.2..4.5) that grow monotonically for higher layers. 予備実験では, エンコーダ層は小さい負のβ値 (−2..-0.5) を持つのに対し, デコーダ層は高い層に対して単調に成長する正の値 (0.2..4.5) を持つことがわかった。 0.74
A similar modification was considered in an effort to stabilize Transformer training in the Reinforcement Learning domain (Parisotto et al , 2020). 強化学習領域(parisotto et al , 2020)におけるトランスフォーマートレーニングの安定化のために、同様の修正が検討された。 0.71
Convolution as self-attention In the limit case, we can entirely replace self-attention with convolutions. 自己意図としての畳み込み 限界の場合、私たちは、自己意図を完全に畳み込みに置き換えることができます。 0.34
Similar to Gehring et al (2017) and Dauphin Gehring et al (2017) や Dauphin に似ている。 0.82
et al (2017), we add an appropriately sized padding on the left of the output sequence to prevent decoder from peeking into the “future”. et al (2017)では、デコーダが"future"に覗き込むのを防ぐため、出力シーケンスの左側に適切な大きさのパディングを追加しています。 0.73
This modification introduces one hyperparameter (kernel size). この変更は1つのハイパーパラメータ(カーネルサイズ)を導入する。 0.51
However, convolutional layers have fewer parameters than the self-attention mechanism. しかし、畳み込み層は自己着脱機構よりもパラメータが小さい。 0.64
One might consider this not to be a Transformer variant due to the lack of self-attention, but as self-attention generalizes convolutions (Cordonnier et al , 2020), we consider this as an extreme form of regularization. 自己意識の欠如によりトランスフォーマー変種ではないと考える人もいるが、自己意識が畳み込みを一般化する(Cordonnier et al , 2020)ため、我々はこれを極端に正規化の形式と考える。 0.64
Fixed-span self-attention A less extreme modification would be to use the regular multi-head self-attention mechanism, but without allowing attention to peek beyond some distance. 固定スパン・セルフアテンション エクストリームな変更は、通常のマルチヘッド・セルフアテンション機構を使用するが、ある程度離れたところから注意を覗くことはできない。 0.59
This mimics the limited kernel size of convolutions in ConvS2S. これはconvs2の畳み込みの制限されたカーネルサイズを模倣する。 0.52
We achieve this by adding a fixed bias term bij to the self-attention logits (Eq. 固定バイアス項bijを自己注意ロジット(Eq)に追加することでこれを実現する。 0.65
2): αij = 1√ d 2): αij= 1/d 0.75
qi · kT j + bij qi · kT j + bij 0.85
(3) Setting bij to −∞ when the difference |i − j| exceeds some fixed value s and to 0 otherwise prevents the self-attention to look beyond distance s. Fixed-span self-attention with a span parameter s has the same “receptive field” as 1D convolution with kernel size 2s + 1. (3) 差分 |i − j| がある固定値 s を超えるとき、bij を −∞ に設定し、それ以外は、距離 s を超える自己アテンションを防ぎ、スパンパラメータ s を持つ固定スパン自己アテンションは、カーネルサイズ 2s + 1 の 1d 畳み込みと同じ「受容場」を持つ。
訳抜け防止モード: (3) bij を −∞ に設定する i − j| の差は一定値 s を超え、0 はそれ以外は自己を妨げる -遠近視注意 s.固定 - 自尊心 はカーネルサイズ2s + 1の1D畳み込みと同じ"受容体"を持つ。
0.80
This modification adds one hyperparameter (span size), but does not introduce new learned parameters. この修正は1つのハイパーパラメータ(スパンサイズ)を追加するが、新しい学習パラメータは導入しない。 0.69
T5 attention Further relaxing constraints on self-attention, we consider the case where we allow Transformer to learn how to (soft-)limit its self-attention. T5 は自己注意の制約をさらに緩和し,トランスフォーマーが自己意識を(ソフトに)制限する方法を学ぶことができる場合を考える。 0.68
We introduce the bias term bij that is learned as a function of a (signed) difference i − j, capping it to [−s, +s] (e g , positions with difference above s would have the same bias bs). 我々は、(符号付き)差 i − j の関数として学習されたバイアス項 bij を導入し、それを [−s, +s] にキャップする(例えば、s 上の差のある位置は同じバイアス bs を持つ)。 0.77
This modification is similar to one introduced by Raffel et al (2019) in T5, with the only exception that we allow each head to have its own bias. この修正は、t5でraffel et al (2019) によって導入されたものと似ているが、唯一の例外は、それぞれの頭部が独自のバイアスを持つことである。
訳抜け防止モード: この修正は、T5でRaffel et al (2019 )によって導入されたものに似ている。 唯一の例外は それぞれの頭が独自のバイアスを持つことを許します
0.68
Again, the span size is a new hyperparameter. 繰り返すが、スパンサイズは新しいハイパーパラメータである。 0.69
In a model with nh heads and nl layers, this modification requires (2s + 1) × nl × nh new parameters, which is negligible in comparison with the sizes of fully connected layers. nh の頭と nl の層を持つモデルでは、この修正には (2s + 1) × nl × nh の新たなパラメータが必要である。
訳抜け防止モード: nhヘッドとnl層を持つモデルでは、この修正には (2s + 1 ) × nl × nh newパラメータが必要である。 完全連結層のサイズと比較すると 無視できます
0.74
Examples of the learned bij parameters are shown in Supplementary when training on SCAN. 学習したbijパラメータの例は、SCANのトレーニングで補助的に示されます。 0.70
英語(論文から抽出)日本語訳スコア
1: procedure COMPUTE SELFATTENTION 2: 3: 4: 5: 1:プロシージャ セルフアテンションを計算する 2: 3: 4: 5: 0.81
res ← x x ← self attn(x) x ← x ∗ σ(β) x ← layer norm(res + dropout(x)) res > x x > self attn(x) x > x ∗ σ(β) x > layer norm(res + dropout(x)) 0.67
Algorithm 1: Self-attention gate (SAG). アルゴリズム1:sag(self-attention gate)。 0.77
The only introduced change is on line 4. β is a learned per-layer scalar parameter. 導入された唯一の変更は、層ごとのスカラーパラメータである4. βである。 0.67
details We used Implementation the fairseq (Ott et al , 2019) implementation of Transformer seq2seq as a foundation, with its initialization and default parameters. 詳細 使用 実施 fairseq (Ott et al , 2019) は Transformer seq2seq を基盤として実装した。
訳抜け防止モード: 詳細 使用 実施 the fairseq (ott et al, 2019 ) implementation of transformer seq2seq as a foundation, 初期化とデフォルトパラメータで。
0.63
T5 and fixed-span attentions are implemented by providing additive attention masks to Transformer. t5および固定スパンアテンションはトランスフォーマーに付加的なアテンションマスクを提供することにより実装される。 0.50
4 Datasets 4.1 SCAN 4つのデータセット 4.1 SCAN 0.60
Introduced by Lake and Baroni (2018), SCAN is a collection of tasks used for studying systematic generalization of seq2seq models (see Table 1 for some input-output examples). Lake and Baroni (2018)によって導入されたSCANは、Seq2seqモデルの体系的な一般化を研究するために使われるタスクの集合である。 0.71
A set of 4 primitive verbs are combined with different modifiers generating around 27k unique samples. 4つのプリミティブ動詞のセットは、約27kのユニークなサンプルを生成する異なる修飾子と結合される。 0.62
Lake and Baroni (2018) and, later, Loula et al (2018) prepared several non-i.i.d. lake and baroni (2018) と loula et al (2018) はいくつかの非i.i.d.を作成した。 0.61
splits of the data into training and test sets. データをトレーニングとテストセットに分割します 0.73
To successfully generalize on such non-i.i.d. そのような非i.dをうまく一般化する。 0.45
splits, a model has to generalize systematically, in a compositional way. 分割、モデルは構成的な方法で体系的に一般化する必要があります。 0.62
We experiment with three tasks, often focused on in the literature2 (Dess`ı and Baroni, 2019). 我々は,文献2(dess`ıı and baroni, 2019)に焦点をあてた3つの課題を実験した。 0.71
SCANsimple splits all sequences in train and test sets uniformly at random. SCANsimpleは、列車とテストセットの全てのシーケンスをランダムに分割する。 0.77
Hence, both train and test are identically distributed. したがって、列車と試験の両方が同じ分布である。 0.73
Typically models succeed at it easily. 通常、モデルは簡単に成功します。 0.75
In SCAN-jump, the test set contains all compositional uses of one of the primitives, jump. SCAN-jumpでは、テストセットはプリミティブの1つ、ジャンプのすべての構成的使用を含んでいる。 0.66
The train set contains all uses of other primitives, and inputs where jump is used in isolation. 列車セットには、他のプリミティブのすべての使用と、ジャンプを分離して使用する入力が含まれている。 0.62
SCANaround-right tests if a model is capable to generalize to combinations of two modifiers, around and right, that never co-occur in the training data. SCANaround-rightテスト モデルがトレーニングデータに同一でない2つの修飾子の組み合わせに一般化できる場合。
訳抜け防止モード: SCANaround - 正しいテスト モデルは、左右の2つの修飾子の組み合わせに一般化することができる トレーニングデータには、決して発生しない。
0.79
The test data contain all examples where the two modifiers are combined. テストデータは、2つの修飾子を組み合わせるすべての例を含む。 0.77
4.2 Machine Translation We hypothesize that the type of systematic generalization that SCAN probes for could be most useful in data-poor tasks or tasks with train-test distribution shift. 4.2 機械翻訳 SCAN が探索する系統的一般化のタイプは、データマイニングタスクや、列車-テストの分散シフトを伴うタスクにおいて最も有用である、という仮説を立てる。
訳抜け防止モード: 4.2 機械翻訳 SCAN が探索する系統的一般化のタイプはデータに最も有用であると仮定する。 -粗末な仕事や電車での作業 テスト分散シフト
0.73
Hence, we complement the standard IWSLT’14 En-De dataset with a low-resource task, FLoRes. したがって、標準のIWSLT’14 En-Deデータセットを低リソースタスクであるFLoResで補完する。 0.70
To study whether our models can perform SCAN-style generalization on natural language data, we also build a dataset that probes for compositional generalization in noun-adjective ordering in French, when translating from English. また,本モデルが自然言語データ上でSCANスタイルの一般化を行うことができるかを検討するために,フランス語の名詞形容詞順序で合成一般化を探索するデータセットを構築した。 0.73
IWSLT’14 En-De This is a standard MT dataset, that includes train, validation, & test sets. IWSLT’14 En-De これは、トレイン、バリデーション、テストセットを含む標準のMTデータセットである。 0.80
We apply preprocessing as in the fairseq example.3 FLoRes (Guzm´an et al , 2019) FloRes is a lowresource dataset for English↔ Nepali and English ↔ Sinhala translation. FloRes (Guzm ́an et al , 2019) FloResは英語のネパール語翻訳と英語のシンハラ語翻訳のための低リソースデータセットである。 0.64
The dataset is split into dev, devtest, and test subsets. データセットは、開発、テスト、テストサブセットに分割される。 0.71
We only use the provided supervised data. 提供された教師付きデータのみを使用します。 0.51
Noun-adjective ordering We take inspiration from SCAN-jump to construct an MT dataset that probes for compositional generalization using noun-adjective ordering in French. 名詞形容詞順序付け SCAN-jump からインスピレーションを得て,フランス語の名詞形容詞順序付けを用いて合成一般化を探索する MT データセットを構築する。
訳抜け防止モード: 名詞 - 形容詞の順序 スキャンからインスピレーションを得る - jump to build an mt dataset that probes for compositional generalization using noun - adjective order in french (英語)
0.67
In French, both adjective noun (forward) and noun adjective (backward) orders are used, unlike English that only has the forward order. フランス語では、前順序のみを持つ英語とは異なり、形容詞名詞(前向き)と名詞形容詞(後向き)の両方が用いられる。 0.72
Which order is used largely depends on the adjective. どの順序が使われるかは形容詞に大きく依存する。 0.69
For example, to refer to a specific response, French speakers say r´esponse sp´ecifique (backward order), while new response would be nouvelle r´esponse (forward order). 例えば、特定の反応を示すために、フランス語話者は r ́esponse sp ́ecifique (後方順)、一方、新しい反応は nouvelle r ́esponse (前方順) である。 0.77
To draw a parallel with SCAN-jump, we consider the nouns as primitives and adjectives as modifiers. SCAN-jumpと平行に描画するために、名詞をプリミティブとみなし、形容詞を修飾子とみなす。 0.57
Modifiers appear with different primitives, however, some primitives appear with only one modifier. 修飾子は異なるプリミティブで現れるが、いくつかのプリミティブは1つの修飾子で現れる。 0.55
For instance, if, in the training set, response only appears with specific (backward), we test models on translating sentences containing new response, where new modifies many other nouns in the training set in the forward order. 例えば、トレーニングセットにおいて、レスポンスが特定の(後方に)のみ現れる場合、新しいレスポンスを含む文の翻訳モデルをテストする。
訳抜け防止モード: 例えば、もし トレーニングセットでは、レスポンスは特定の(後方)でのみ表示される。 新しい反応を含む翻訳文のモデルをテストし 新語は前順の訓練セットで 他の多くの名詞を修飾します
0.75
Such cases can be encountered in real tasks when dealing with rare or too specific nouns. このようなケースは、希少な名詞や特定の名詞を扱う場合、実際のタスクで発生することがある。 0.50
To construct our dataset, we start データセットを構築するには 0.64
from the English-French Europarl dataset (a part of WMT’14 En-Fr)4 and select 8 nouns, N ={response, institution, organisation, solution, source, decision, responsibility, population}. 英語とフランス語のeuroparlデータセット(wmt’14 en-fr)4から8つの名詞、n ={response, institution, organization, solution, source, decision, responsibility, population}を選択する。 0.84
We constrain our train set so that each of the nouns in N appears only with one adjective (hence in 我々は、N 内の各名詞が 1 つの形容詞 (hence) でのみ現れるように列車セットを拘束する。 0.73
2We have also ensured that our best modification performs on par (≈ 10%) with Transformer on SCAN-length; however SCAN-length is believed to require a different type of generalization (Gordon et al , 2019). また,SCAN 長の Transformer を用いて,最高の修正を 10% で行うことも保証していますが,SCAN 長は異なる種類の一般化を必要とすると考えられています(Gordon et al , 2019)。 0.67
3https://github.com/ pytorch/fairseq/ 3https://github.com/ pytorch/fairseq/ 0.34
tree/master/examples /translation tree/master/examples /translation 0.29
4http://www.statmt.o rg/europarl/ 4http://www.statmt.o rg/europarl/ 0.34
英語(論文から抽出)日本語訳スコア
backward order forward order 後方順 forward + order 0.66
(‘specific’, ‘response’) (「特殊」・「応答」) 0.65
(‘particular’, ‘institution’) (‘effective’, ‘organisation’) (‘permanent’, ‘solution’) (「特別」・「制度」・「効果」・「組織」・「永続」・「解決」) 0.50
(‘new’, ‘source’) (‘good’, ‘decision’) (‘new’,‘source’)(‘good’,‘decision’) 0.75
(‘big’, ‘responsibility’) (‘first’, ‘population’) (「大」・「責任」)(「第一」・「人口」) 0.70
Table 2: (adjective, noun) pairs in the train set of the noun-adjective ordering dataset, classified by their order in French language. 表2: (形容詞、名詞) 名詞形容詞順列の列車組のペアで、その順序によってフランス語で分類される。 0.72
one particular order) as shown in Table 2. 表2に示すように、1つの特定の順序) 0.76
For example, the noun response will only be composed with the adjective specific. 例えば、名詞の応答は形容詞指定でのみ構成される。 0.62
However, specific (and all other adjectives in Table 2) appears with other nouns. しかし、種別(および表2の他のすべての形容詞)は他の名詞と共に現れる。 0.66
To select these sentences, we use the CoreNLP parser (Manning et al , 2014).5 Finally, all sentences with nouns that are not among the selected ones are kept. これらの文を選択するには、corenlpパーサ(manning et al , 2014)を使用します。5 最後に、選択された文のうち、名詞を持たないすべての文が保持されます。
訳抜け防止モード: これらの文を選択する。 CoreNLPパーサ(Manning et al, 2014)を使用します。 選択された名詞に含まれないすべての文は、保存される。
0.67
In other words, the training set may contain sentences that have neither the selected adjectives nor the selected nouns. 言い換えると、訓練セットは、選択された形容詞も選択された名詞も持たない文を含むことができる。 0.66
This results to 1641681 sentence pairs split into train (1478195 pairs) and validation (163486 pairs) sets. その結果、1641681の文ペアが列車(1478195組)と検証(163486組)に分割された。 0.75
The test set is composed of the filtered sentences of the original Europarl dataset: we select sentences where nouns in the backward column of Table 2 ({response, institution, organism, solution}) are only modified by the adjectives in the forward column ({new, good, big, first}). テストセットは、元のeuroparlデータセットのフィルタリング文で構成されており、テーブル2の後方列({response, institution, organic, solution})の名詞が前方列({new, good, big, first})の形容詞によってのみ修飾される文を選択する。 0.77
Similarly, we also consider the sentences where the nouns of the forward column are composed with the adjectives of the backward column of the Table.6 This process will ensure that in the test set, the noun-adjective only appears in the reverse order compared to the train set. 同様に、前方カラムの名詞が表.6の後方カラムの形容詞で構成されている文も考慮し、このプロセスはテストセットにおいて、名詞形容詞が列車セットと比較して逆順にのみ現れることを保証します。 0.73
Unlike the training data, the test data contains only sentences with the target nouns and adjectives. 訓練データとは異なり、テストデータは、ターゲット名詞と形容詞を含む文のみを含む。 0.78
In total, we test models on 659 sentences. 合計で659文のモデルをテストする。 0.62
Note that the train and validation sets are identically distributed, however, the test set is domain-shifted w.r.t. 列車と検証セットは同じ分布であるが、テストセットはドメインシフトw.r.tである。 0.80
train, akin to SCAN-jump. train は SCAN-jump に似ている。 0.63
We follow the preprocessing steps on the fairseq example page for WMT’14 English to French.3 We follow the preprocessing steps on the fairseq example page for WMT'14 English to French.3 0.94
5 Methodology SCAN Lake and Baroni (2018) were concerned by the feasibility of systematic generalization in seq2seq models. 5 Methodology SCAN Lake and Baroni (2018) は,seq2seqモデルにおける体系的一般化の実現可能性について検討した。 0.63
Hence, in their experiments, they tuned the models on the train data and then directly evaluated them on test set, reporting test scores. そのため、実験では、列車のデータに基づいてモデルを調整し、テストセットで直接評価し、テストスコアを報告しました。 0.75
We follow the same protocol: given a grid of hy- 私たちは同じプロトコルに従っています: hyのグリッドが与えられたとき 0.58
5https://stanfordnlp .github.io/ 6We use the Stanford parser to select these sentences. 5https://stanfordnlp .github.io/ スタンフォードパーサーを使用してこれらの文を選択する。 0.47
perparameters, we fit models on the training data. パーパラメータ トレーニングデータに モデルを適合させます 0.75
Next, for each hyperparameter configuration, we average the performance of the models across random seeds. 次に、ハイパーパラメータの設定ごとに、ランダムな種にまたがるモデルのパフォーマンスを平均します。 0.67
Such a setup demonstrates that, at least for some hyperparameter configurations, the introduced models can learn to generalize systematically. このような設定は、少なくとも一部のハイパーパラメータ構成では、導入されたモデルが体系的に一般化することを学習できることを示しています。 0.51
At evaluation time, we decode greedily. 評価時に、私たちは欲深く解読する。 0.54
IWSLT’14 De-En We run a grid search on train data; next we select the best performing checkpoint on the validation dataset. iwslt’14 de-en 電車のデータでグリッド検索を実行し、次に検証データセットで最高のチェックポイントを選択します。 0.68
We report performance on the test data. テストデータのパフォーマンスを報告します。 0.70
We use the same training and evaluation protocols as suggested on the fairseq MT example page.3 We use beam size 5. fairseq MTのサンプルページ.3で提案されているのと同じトレーニングと評価プロトコルを使用します。 0.69
FLoRes This dataset has dev, devtest, and test splits provided. FLoRes このデータセットには、開発、テスト、テストの分割が提供されている。 0.58
We run a hyperparameter grid search training on the dev data. 開発データ上でハイパーパラメータグリッド検索トレーニングを実行します。 0.73
Next, we select the hyperparameter configuration that has the best average (across seeds) performance on devtest. 次に、デベスタ上で最高の平均(全種子)パフォーマンスを持つハイパーパラメータ構成を選択する。 0.72
We report the performance of the selected hyperparameter configuration on the test set, averaged across seeds. テストセット上で選択したハイパーパラメータ構成の性能を,種子間平均で報告した。 0.82
We use the training/evaluation scripts, tokenization and other parameters suggested on the dataset page: beam size 5 and length penalty 1.2. データセットページに提案されているトレーニング/評価スクリプト、トークン化、その他のパラメータ、ビームサイズ5と長さペナルティ1.2を使用します。 0.61
Noun-adjective ordering We run the hyperparameter search similarly to IWSLT’14 De-En. 名詞形順序付け IWSLTの14 De-Enと同様のハイパーパラメータ検索を実行する。 0.66
The training and evaluation protocols are the ones suggested by the fairseq page for WMT’14 En-Fr.3 We also use beam size 5. トレーニングと評価のプロトコルは、WMT'14 En-Fr.3のfairseqページで提案されているものだ。 0.62
As we aim to probe abilities for compositional generalization, we introduce an accuracy-based measure, COMP. 構成一般化能力の探索を目的として,精度に基づく尺度Compoを紹介した。 0.70
COMP is based on the qualitative observation that models do not generalize to the wrong noun-adjective order. Compは、モデルが間違った名詞形容詞順に一般化しないという定性的観察に基づいている。 0.57
Concretely, we encounter 3 common errors: (1) removing the adjective (example 1 in Table 6), (2) replacing the adjective with a synonym and reversing the order (examples 2 and 3 in Table 6), and (3) producing a completely wrong generalization while removing the adjective. 具体的には、(1)形容詞(表6の例1)を取り除き、(2)形容詞を同義語に置き換えて順序を反転させる(表6の例2,3)、(3)形容詞を取り除きながら完全に間違った一般化を生成するという3つの一般的な誤りに遭遇する。 0.73
While (2) provides a good enough translation, it is a mistake in the noun-adjective order. (2) は十分な翻訳を提供するが、名詞形容詞の順序では誤りである。 0.84
Hence, to measure if a model is compositional we only look if both the target adjective and the target noun appear in the prediction (irrespective of their order) when they are composed together in the target sentence. したがって、モデルが合成であるかどうかを測定するには、対象文に合成された場合に、対象形容詞と対象名詞の両方が予測(それらの順序に関係なく)に現れるかを見るのみである。
訳抜け防止モード: それゆえ、モデルが構成的であるかどうかを測定する 対象文に合成された場合、目的形容詞と目的名詞の両方が予測(順序に関係なく)に現れるかどうかを判断する。
0.78
We define thus COMP as the ratio of predicted sentences that include both the target adjective and noun.7 したがって、comp を目的形容詞と名詞.7の両方を含む予測文の比率と定義する。 0.71
7It happens that models use a synonym in the right order as shown in SAG+T5’s prediction 2 in Table 6. 7 SAG+T5の表6の予測2に示すように、モデルは正しい順序で同義語を使用する。 0.83
In that case, models had generalized well but are still penalized by COMP. その場合、モデルはよく一般化されたが、Compumによってまだ罰せられている。 0.57
COMP is hence only a proxy measure for compositional generalization based on the common failures. 従ってcompは、共通障害に基づいた構成一般化のためのプロキシ測度のみである。 0.65
英語(論文から抽出)日本語訳スコア
Transformer self-att. トランスフォーマーのセルフアット。 0.49
gate (SAG) gate (複数形 gates) 0.59
+ Conv as s.-a. +conv as s.a。 0.69
+ Fixed-span + T5 + Fixed-span + T5 0.74
LSTM seq2seq (Lake and Baroni, 2018) ConvS2S (Dess`ı and Baroni, 2019) LSTM seq2seq (Lake and Baroni, 2018) ConvS2S (Dessı and Baroni, 2019) 0.93
jump 3.4±2.0 17.2±5.8 25.7±20.4 33.6±9.5 43.0±9.5 jump 3.4±2.0 17.2±5.8 25.7±20.4 33.6±9.5 43.0±9.5 0.22
1.2 around-right 1.2 around‐right 0.58
97.6±1.5 85.2±10.0 38.4±7.8 97.6±1.3 92.6±2.8 97.6±1.5 85.2±10.0 38.4±7.8 97.6±1.3 92.6±2.8 0.20
2.5 simple 100.0±0.0 100.0±0.0 99.8±0.0 100.0±0.0 100.0±0.0 2.5 simple 100.0±0.0 100.0±0.0 99.8±0.0 100.0±0.0 100.0±0.0 0.41
99.8 69.2±8.2 99.8 69.2±8.2 0.44
56.7±10.2 100.0±0.0 56.7±10.2 100.0±0.0 0.29
Table 3: Accuracy on SCAN tasks, %. 表3: SCANタスクの正確さ、%。 0.71
For each architecture and task, we report the mean accuracy of the best hyperparameter configuration. 各アーキテクチャとタスクについて、最適なハイパーパラメータ設定の平均精度を報告する。 0.71
± denotes 1 SEM. ± は 1 SEM を表す。 0.73
Hyperparameter search Transformer models have multiple hyperparameters (embeddings dimensionality, number of layers and attention heads, dropout probabilities, etc.). ハイパーパラメータ検索トランスフォーマーモデルは、複数のハイパーパラメータを持つ(寸法、層数、注意ヘッド、ドロップアウト確率などを含む)。 0.70
On top of those, our introduced models add the attention span s, and the initial gate state β0. これらに加えて,導入したモデルでは注意スパン s と初期ゲート状態 β0 が付加される。 0.81
For MT tasks, we start from the existing strong baseline hyperparameter configurations (FLoRes: specified by Guzm´an et al (2019), De-En & En-Fr: following the fairseq example page) and only tune (a) the parameters introduced by our architectures, and (b) the attention dropout parameter (for all architectures, including Transformer). MTタスクでは、既存の強力なベースラインハイパーパラメータ設定(FLoRes: Guzm ́an et al (2019), De-En & En-Fr: following the fairseq example page)から始め、(a)アーキテクチャによって導入されたパラメータのみをチューニングし、(b)注目ドロップアウトパラメータ(Transformerを含むすべてのアーキテクチャ)から始めます。 0.83
For SCAN, there is no baseline hyperparameter configuration, so we start with tuning Transformer and then base hyperparameters of the introduced architectures on it. SCANでは、ベースラインのハイパーパラメータ設定がないので、Transformerをチューニングし、その上に導入されたアーキテクチャのベースハイパーパラメータをチューニングします。 0.61
We report full hyperparameter grids in Supplementary. 副次的に全パラメータグリッドを報告する。 0.56
6 SCAN experiments In our preliminary experiments, we found that our modifications of the self-attention mechanism do not lead to improvements over the standard Transformer when they are not combined with the selfattention gate (SAG). 6SCAN実験 予備実験では, 自己着脱機構の修正は, 自己着脱ゲート (sag) と組み合わさらない場合, 標準変圧器よりも改善しないことがわかった。 0.74
Hence, we focus our experiments on architectures that include SAG. したがって、私たちは実験をSAGを含むアーキテクチャに焦点を合わせます。 0.65
We report our results in Table 3. 結果は表3で報告します。 0.75
We also include results for LSTM- and Conv-based seq2seq models that were reported in earlier work (Lake and Baroni, 2018; Dess`ı and Baroni, 2019). また、初期の研究で報告されたLSTMおよびConvベースのSeq2seqモデル(Lake and Baroni, 2018; Dessı and Baroni, 2019)の結果も含んでいる。 0.83
From Table 3, we see that the unmodified Transformer has very low accuracy on jump (3.4%), which is only slightly above that of LSTM seq2seq (1.2%) and well below ConvS2S (69.2%). 表3から、修正されていないトランスフォーマーはジャンプ時に非常に低い精度(3.4%)であり、LSTM seq2seq (1.2%) よりもわずかに高く、ConvS2S (69.2%) よりかなり低い。 0.71
This indicates that Transformer models are indeed failing in compositional generalization on jump. これは、Transformerモデルがジャンプの合成一般化に失敗していることを示している。 0.53
However, they have a very high score on the around-right split (97.6%) and simple (≥ 99.8%). しかし、左右の分割(97.6%)と単純(99.8%以上)において非常に高いスコアを持つ。 0.74
By introducing the different modifications described in Section 3, making Transformers closer to ConvS2S, we aim at pre- 第3節で述べた異なる修正を導入することで、トランスフォーマーをconvs2に近づけることにより、プレ- 0.69
Transformer 34.64±0.03 変圧器34.64±0.03 0.30
SAG 34.28±0.08 SAG 34.28±0.08 0.57
+ Conv s.-a. +Conv s.a。 0.73
+ fix. span 34.32±0.01 33.44±0.04 + 修正。 スパン34.32±0.01 33.44±0.04 0.50
+ T5 34.66±0.04 +T5 34.66±0.04 0.55
Table 4: BLEU on test set. 表4: bleu on test set。 0.67
IWSLT’14 German to English dataset. IWSLT'14 ドイツ語から英語へのデータセット。 0.69
± denotes 1 SEM. ± は 1 SEM を表す。 0.73
serving the high performance of Transformers on around-right and simple while significantly improving it on jump. トランスフォーマーのハイパフォーマンスを右回りに、シンプルに提供し、ジャンプ時に大幅に改善する。 0.71
Adding SAG increases accuracy on jump 5fold (17.2%) at the expense of a small drop in around-right scores (not stat. SAGを追加することで、5倍のジャンプ(17.2%)の精度が向上する(統計値ではない)。 0.77
sig. ). Further, we observe that changes of the selfattention mechanism (replacing it with Convs, limiting its span, and adding a relative positiondependent bias), can further increase the performance on jump. シグ ). さらに,自着機構の変化(convで置き換えること,スパンを制限し,相対的な位置依存バイアスを加えること)がジャンプ時の性能をさらに高めることを観察する。 0.65
Apart from SAG+Conv as s.-a, the self-attention modifications do not significantly alter the performances on around-right. SAG+Conv を s.-a とする以外は、自己注意の修正は右回りのパフォーマンスを著しく変更しない。 0.66
Overall, we see that the architectural changes that we proposed improve the compositional capabilities of the Transformer models. 全体として,提案するアーキテクチャ変更により,トランスフォーマーモデルの構成能力が向上することがわかった。 0.74
As expected, the introduced hybrid architectures reach significantly better performances on jump (up to 12x improvements for SAG+T5) while keeping high performances on the around-right & simple tasks. 予想通り、導入されたハイブリッドアーキテクチャは、ジャンプ時のパフォーマンスが大幅に向上し(sag+t5の最大12倍の改善)、前後および単純なタスクでのハイパフォーマンスを維持している。 0.58
7 Machine Translation experiments IWSLT’14 De-En In Table 4, we report BLEU scores on German-English translation. 7 機械翻訳実験 IWSLT’14 De-En In Table 4では、BLEUのドイツ語翻訳のスコアが報告されている。 0.66
SAG + T5 performs slightly better (0.02 BLEU, not stat. SAG + T5 は stat ではなく 0.02 BLEU で若干改善されている。 0.67
sig. ), but other modifications underperform w.r.t. シグ 他の変更はw.r.t。 0.41
Transformer. トランスフォーマー。 0.60
Replacing self-attention with convolutions resulted in the largest drop, 3%. コンボリューションによる自己維持は、最大で3%の減少となった。 0.59
Other differences are smaller, ≤ 1%. 他の違いは小さいが ≤ 1% である。 0.80
For the following parts, we only experiment with the SAG + T5 model as the only non-degraded one. 以下の部分については、SAG + T5モデルのみを非劣化モデルとして実験する。 0.75
However, results with the remaining models on FLoRes and the Noun-adjective ordering datasets are reported in Supplementary. しかし、フロア上の残りのモデルと名詞形容詞順序データセットによる結果は補足的に報告される。 0.60
英語(論文から抽出)日本語訳スコア
FLoRes, Si/Ne ↔ En We report results on English↔Nepali and English↔Sinhala translation in Table 5. FLoRes, Si/Ne ) En We report results on English Nepali and English sinhala translation in Table 5 0.84
Following Guzm´an et al (2019), we use tokenized BLEU when translating from English. Guzm ́an et al (2019)に続いて、私たちは英語から翻訳する際にトークン化されたBLEUを使用します。 0.49
We run standard Transformer models as specified in Guzm´an et al (2019), but adding a search over the attention dropout probability. Guzm ́an et al (2019)で指定された標準トランスフォーマーモデルを実行するが、注意降下確率を探索する。 0.72
We verify that we have close results compared to Guzm´an et al (2019).8 Table 5 shows that SAG + T5 outperforms Transformer on all language pairs and directions with relative improvements between 3.6% (si-en) and 13.1% (en-ne). Guzm ́an et al (2019.8 Table 5)と比較すると、SAG + T5はトランスフォーマーを全ての言語対と方向で上回り、相対的な改善は3.6%(シエン)と13.1%(エンネ)である。 0.76
Noun-adjective ordering BLEU scores on the test set are reported in Table 5. テストセット上の名詞形順序付けBLEUスコアを表5に報告する。 0.68
SAG + T5 leads to a relative improvement of 1.39% compared to standard Transformer. SAG + T5は標準のTransformerに比べて1.39%改善した。 0.80
BLEU, however, is not informative about the particular noun-adjective generalization. しかし、BLEUは特定の名詞形容詞の一般化について情報的ではない。 0.46
We hence also report COMP scores. そのため、compスコアも報告します。 0.47
From Table 5, we see that SAG + T5 demonstrates a significant improvement with 14% relative gain compared to the standard Transformer architecture. 表5から SAG + T5 が標準の Transformer アーキテクチャと比較して 14% の差で大幅に改善されていることが分かる。 0.78
Our follow-up experiments show that the hybrid model recovers an average of 43.3% of cases where the best Transformer model (best seed w.r.t. 以上の結果から, トランスフォーマーモデルが最適である場合の平均43.3%をハイブリッドモデルが回収できることが示唆された。 0.78
COMP) failed in compositional generalization, whereas Transformer is only correct at 21.5% of SAG + T5’s errors. 一方 Transformer は SAG + T5 の誤差の 21.5% しか正しくない。
訳抜け防止モード: COMPは構成一般化に失敗したが、 Transformer は SAG + T5 のエラーの 21.5 % でのみ正しい。
0.85
We report in Table 6 examples comparing SAG + T5 and Transformer translations. SAG + T5 と Transformer 翻訳を比較した表 6 の例を報告する。 0.76
Discussion Upon analyzing our experiments on SCAN and machine translation tasks, we see the following picture. SCANと機械翻訳タスクの実験を分析すると、以下の図がわかる。 0.62
Indeed the hybrid models that we described in Section 2 have considerably higher accuracy on SCAN-jump w.r.t. 実際、第2節で説明したハイブリッドモデルはSCAN-jump w.r.tでかなり精度が高い。 0.63
Transformer and a comparable performance on the other SCAN splits. トランスフォーマーと他のSCANスプリットの同等のパフォーマンス。 0.66
Hence, our results suggest the importance of both gating and (the ability of) limiting the attention span for SCAN generalization. したがって,本研究の結果は,SCAN一般化の注意範囲を制限するため,ゲーティングと(能力)の両方の重要性を示唆している。 0.62
As expected, the improvement on SCAN do not consistently entail improvements on the resourcerich dataset, and only the combination of SAG and T5 showed a tiny improvement. 予想通り、SCANの改善は、リソース豊富なデータセットの改善を一貫して必要とせず、SAGとT5の組み合わせだけがわずかに改善した。 0.71
This emphasizes the importance of testing models on realistic setups to model from being too SCAN-tailored. これは、スキャンしすぎないように、現実的なセットアップでモデルをテストすることの重要性を強調している。 0.43
Finally, we test SAG + T5 on low-resource and compositional tasks. 最後に、低リソースおよび構成タスクでSAG + T5をテストする。 0.69
The hybrid architecture shows consistent improvements on FLoRes for all translation directions, with at up to 13.1% relative improvement, and on the the natural language compositional task with 14% relative improvement on ハイブリッドアーキテクチャは、翻訳方向のFLoReを最大13.1%の相対的改善で一貫した改善を示し、自然言語合成タスクでは14%の相対的改善を実現している。 0.81
8We got slightly better BLEU scores due to the extra grid 8 余分なグリッドによるBLEUスコアがわずかに改善 0.55
search. COMP. Our qualitative analysis also showed that SAG + T5 correctly handles noun-adjective ordering in most cases, while Transformer makes more mistakes. 捜索だ Comp。 定性的分析の結果,SAG+T5は名詞形容詞順を正しく処理するのに対し,Transformerは誤りが多いことがわかった。 0.57
That is, SCAN can be useful for model search in the low-resource and domain-shifted tasks provided controlling for SCAN-tailored models. つまり、SCANは、SCANのカスタマイズされたモデルを制御するための低リソースおよびドメインシフトタスクにおけるモデル検索に役立ちます。 0.72
8 Related Work Compositionally-bias ed models Several approaches were proposed to build SCAN-capable architectures. 8 関連作業構成バイアスモデル SCAN 対応アーキテクチャを構築するためのいくつかのアプローチが提案された。 0.57
They span from meta-learning (Lake, 2019), disentangling syntax and semantics (Russin et al , 2019), learning equivariant (Gordon et al , 2019) and disentangled representations (Li et al , 2019) or combining neural & symbolic computations (Chen et al , 2020). それらは、メタ学習(lake, 2019)、構文と意味論の分離(russin et al , 2019)、学習同変(gordon et al , 2019)、不等角表現(li et al , 2019)、あるいは神経と記号の計算(chen et al , 2020)から成り立っている。 0.76
In contrast, we do not build new models that are specialized to SCAN. 対照的に、SCANに特化した新しいモデルを構築していません。 0.77
Instead, we show that a standard model can be incrementally modified so that performs well on SCAN and still performs well on a standard MT task. 代わりに、標準モデルをインクリメンタルに修正できることを示し、SCANでよく機能し、標準のMTタスクでもよく機能することを示します。 0.72
Having such incrementally improved models allows us to step back and wonder if SCAN (or similar artificial tasks) should be used as a guidance when developing new models. このような漸進的に改善されたモデルを持つことで、SCAN(または同様の人工的なタスク)が新しいモデルを開発する際のガイダンスとして使われるべきか、という疑問を退けることができます。
訳抜け防止モード: このような漸進的に改善されたモデルを持つこと 一歩下がって SCAN(または同様の人工タスク)は、新しいモデルを開発する際のガイダンスとして使うべきです。
0.72
Bastings et al (2018) raised concerns due to SCAN being too artificial by showing that even degenerate architectures can perform well on some SCAN tasks. Bastings et al (2018)は、SCANがあまりにも人工的すぎるという懸念を提起した。
訳抜け防止モード: Bastings et al (2018 )はSCANがあまりにも人工的すぎることを懸念した。 縮退したアーキテクチャでさえ、SCANタスクでうまく機能することを示す。
0.58
Our results echo their findings: by developing architectures tailored for SCAN, one can easily come up with models that perform worse on general tasks. スキャン用にカスタマイズされたアーキテクチャを開発することで、一般的なタスクでパフォーマンスの悪いモデルを簡単に思いつくことができます。 0.59
However, we find that if one avoids this “SCAN overfitting” and endows a model with capabilities that SCAN probes for without harming its general performance, they can gain in lowresource scenarios and better handle relevant phenomena in language. しかし、もしこの"SCANオーバーフィッティング"を回避し、SCANが一般的なパフォーマンスを損なうことなく調査する機能を備えたモデルを提供するなら、低リソースのシナリオで得ることができ、言語における関連する現象をよりよく処理することができる。 0.66
Changing attention mechanisms Self- and cross-attention mechanisms were tweaked in earlier work in order to inject useful biases, e g , by adding information of relative positions of tokens (Shaw et al , 2018; Raffel et al , 2019) or accounting for the locality bias in cross-attention (Yang et al , 2018). トークンの相対的な位置の情報を追加する(Shaw et al , 2018; Raffel et al , 2019)か、あるいはクロスアテンションにおける局所性バイアスを考慮する(Yang et al , 2018)。
訳抜け防止モード: トークンの相対的な位置の情報を付加することにより、例えば、有用なバイアスを注入するために、初期の作業で自己と交差の注意機構を微調整した(Shaw et al)。 2018 ; Raffel et al, 2019 ) あるいはクロスアテンションにおける局所性バイアスを説明。
0.58
Sukhbaatar et al and Rae and Razavi (2020) demonstrated that having a short attention span on the lower layers of Transformer models is enough for good language modeling performance. Sukhbaatar et al and Rae and Razavi (2020) は、トランスフォーマーモデルの下位層に短い注意を向けることで、優れた言語モデリング性能が得られることを示した。 0.83
9 Conclusion In this work, we primarily focused on whether and in which scenarios the inductive bias for compositional generalization, that SCAN looks for, can be 9 結論 本研究では,SCANが求めている構成一般化の帰納的バイアスがどのようなシナリオで可能かに焦点をあてた。 0.68
英語(論文から抽出)日本語訳スコア
ne-en FLoRes (BLEU) en-ne si-en ねえん FLoRes (BLEU) en-ne si-en 0.64
en-si Transformer SAG + T5 en-si Transformer SAG + T5 0.78
7.94±0.05 8.40±0.02 7.94±0.05 8.40±0.02 0.24
7.15±0.07 2.32±0.08 7.41±0.10 5.01±0.10 2.54±0.03 7.15±0.07 2.32±0.08 7.41±0.10 5.01±0.10 2.54±0.03 0.20
4.43±0.01 Noun-Adj. 4.43±0.01 Noun-Adj 0.54
ordering COMP BLEU 40.86±0.34 0.64±0.01 41.43±0.29 0.73±0.01 Comp BLEU 40.86±0.34 0.64±0.01 41.43±0.29 0.73±0.01 0.28
Table 5: Models performances on FLoRes and Noun-adjective ordering (English to French) dataset. 表5: FLoResと名詞形容詞順序付け(フランス語)データセットのモデル。 0.78
For FLoRes, we report the BLEU dev-test scores for the different translation directions. FLoResでは,異なる翻訳方向のBLEU開発テストスコアを報告する。 0.60
For the Noun-adjective ordering dataset, we report both BLEU and COMP measures on the test set. In the Noun-jective ordering dataset, we report both BLEU and COMP measures on the test set。 0.85
In bold are values that stat. 大胆な価値は、その統計値です。 0.60
sig. improve over Transformer. シグ Transformerの改善。 0.53
± denotes 1 SEM. ± は 1 SEM を表す。 0.73
Target: Nous sommes face `a une responsabilit´e politique particuli`ere. ターゲット:nous sommes face `a une responsabilit ’e politique particuli`ere."。 0.83
Prediction SAG+T5: Nous sommes accabl´es par une responsabilit´e politique particuli`ere. 予測 SAG+T5: Nous sommes accabl ́es par une responsabilit ́e politique particuli`ere。 0.73
Prediction Transformer: Nous sommes accabl´es par une responsabilit´e politique. 予測トランスフォーマー:nous sommes accabl'es par une responsabilit ’e politique。 0.72
Target: Nous voulons trouver une bonne solution `a ce probl`eme. ターゲット: Nous voulons trouver une bonne solution `a ce probl`eme. 0.80
Prediction SAG+T5: Nous voulons trouver une bonne solution `a ce probl`eme. 予測 SAG+T5: Nous voulons trouver une bonne solution `a ce probl`eme。 0.94
Prediction Transformer: Nous voulons trouver une solution ad´equate `a ce probl`eme. 予測変換器: nous voulons trouver une solution ad ́equate `a ce probl`eme"。 0.86
Target: Ce qui nous d´ec¸oit par rapport `a cette d´ecision particuli`ere, c’est que le projet aurait pu clairement voir le jour. 原題:Ce qui nous d ́ec 'oit par rapport `a cette d ́ecision particuli`ere, c’est que le projet aurait pu clairement voir le jour。 0.83
Prediction SAG+T5: Ce qui est triste dans cette d´ecision pr´ecise, c’est que le projet aurait ´et´e clairement r´ealis´e. SAG+T5:Ce qui est triste dans cette d ́ecision pr ́ecise, c’est que le projet aurait ́et ́e clairement r ́ealis ́e。 0.65
Prediction Transformer: Ce qui est triste dans cette mauvaise d´ecision, c’est que le projet aurait clairement ´et´e. 予測トランスフォーマー:ce qui est triste dans cette mauvaise d'ecision, c'est que le projet aurait clairement ′et ′e。 0.86
Table 6: Generation Examples for Noun-adjective ordering dataset. 表6: 名詞形容詞順序付きデータセットの生成例。 0.72
Models are tested on the underlined and italic (adjective, noun). モデルは下線とイタリック(形容詞、名詞)でテストされる。 0.71
For the first 2 examples, SAG+T5 predicted the right (adjective, noun) translation. 最初の2例では、SAG+T5は右(形容詞、名詞)翻訳を予測した。 0.67
In the last one, SAG+T5 replaced the adjective with a synonym but in the right target order (the one not seen in the training set). 最後の1つでは、SAG+T5は形容詞を同義語に置き換えたが、正しい目標順(訓練セットにはない)に置き換えた。 0.77
In the first example, Transformer removed the adjective particuli`ere. 最初の例では、transformerは形容詞particuli`ereを取り除いた。 0.77
In the two following examples, Transformer replaced the right adjective with a close synonym adjective to be conform with the training order. 以下の2つの例では、トランスフォーマーは右形容詞を訓練順序に適合する近い同義語形容詞に置き換えた。 0.82
For instance, in the second example, bonne (an adjective that appears in the forward order) was replaced by ad´equate (an adjective that appears in the backward order) as the solution appears only in the backward order at training. 例えば、第2の例では、ボーン(前方の順に現れる形容詞)は、訓練中の後方の順にのみ解が現れるため、ad ́equate(後方の順に現れる形容詞)に置き換えられた。 0.66
useful in natural language tasks. 自然言語処理に役立ちます 0.67
We ran study in two steps. 私たちは2ステップで勉強した。 0.65
As the first step, by exploiting ConvS2S/Transformer similarities, we came up with a modification of the Transformer architecture that performs considerably better than vanilla Transformer on SCAN-jump (43.0% vs 3.4% accuracy) and performs equally well on SCAN-simple, SCAN-around-right, and on a standard resource-rich MT task (IWSLT’14 De-En). 最初のステップとして、ConvS2S/Transformerの類似性を活用することで、SCAN-jump上のバニラトランスフォーマー(43.0%対3.4%の精度)よりもかなり優れたパフォーマンスを実現し、SCAN-simple、SCAN-around-right、および標準リソース豊富なMTタスク(IWSLT’14 De-En)で等しく機能するTransformerアーキテクチャを改良しました。 0.70
Next, we tested this modification in low-resource and domain-shifted setups. 次に、この変更を低リソースとドメインシフトのセットアップでテストしました。 0.52
In the low-resource MT setup (FLoRes Si/Ne↔En), we found that our considered architecture improves by up to 13.1% in BLEU score over the vanilla Transformer. 低リソースのmt設定(flores si/nesen)では、バニラトランスよりも最大13.1%のbleuスコアでアーキテクチャが改善されていることが分かりました。
訳抜け防止モード: 低リソースの MT セットアップ (FLoRes Si / NeiEn ) では 我々の検討したアーキテクチャは、Vanilla Transformerよりも最大13.1%向上していることがわかった。
0.67
Then, we introduced a new dataset that probes specifically for compositional reasoning in natural language. そして、自然言語の合成推論に特化して探索する新しいデータセットを導入した。 0.79
Unlike SCAN, our compositional dataset is built by filtering an existing natural language corpus (EuroParl En-Fr) to probe how models perform noun-adjective ordering under a (minimal) distribution shift. SCANとは異なり、我々の構成データセットは既存の自然言語コーパス(EuroParl En-Fr)をフィルタリングして構築され、モデルが(最小限の)分布シフトの下で名詞形注文を行うかを調べる。 0.67
Thus, we are largely closer to testing the compositional generalization required by humans compared to SCAN, and succeeding on このように、私たちはSCANと比較して、人間が必要とする構成的一般化のテストに大きく近づき、成功している。
訳抜け防止モード: このようにして私たちは スキャン, 成功に比較して, 人間が要求する構成一般化の検証
0.69
the test set requires both compositional reasoning and good language model performances (see examples in Table 6). テストセットは合成推論と優れた言語モデルのパフォーマンスの両方を必要とする(表6の例を参照)。 0.75
We believe that such a dataset is beneficial for future research to test more complex compositionality skills. このようなデータセットは、より複雑な構成スキルをテストするための将来の研究に有益であると考えています。 0.58
Finally, our experiments on our dataset demonstrated that better SCAN generalization leads to better results on noun-adjective ordering (14% on COMP). 最後に、我々のデータセットにおける実験により、SCANの一般化が向上し、名詞形容詞の順序付け(Compumの14%)がより良くなることを示した。 0.55
Our findings indicate the following. 私たちの発見は次のことを示しています。 0.39
Firstly, as hypothesized before (Dess`ı and Baroni, 2019; Hupkes et al , 2018), the limited attention span provides a useful inductive bias that allows models to perform better on compositional generalization induction, that SCAN probes for. 第一に、以前に仮説を立てた(Dess`ı and Baroni, 2019; Hupkes et al , 2018)ように、限定された注意範囲は、SCANが求めている構成一般化帰納法においてモデルがより良く機能する有用な帰納的バイアスを提供する。
訳抜け防止モード: まず、以前に仮説を立てた(Dessı and Baroni, 2019; Hupkes et al, 2018)。 限られた注意範囲は 有益な帰納バイアスを与えます SCANが調査する合成一般化誘導において、モデルのパフォーマンスが向上する。
0.62
Further, endowing a model with SCAN-style generalization capabilities can lead to improvements in low-resource and distribution-shifted scenarios as long as we ensure that we do not overfit to SCAN. さらに、SCANスタイルの一般化機能を備えたモデルの提供は、SCANに過度に適合しない限り、低リソースおよび分散シフトシナリオの改善につながる可能性がある。 0.72
We believe that the contribution of diagnostic datasets like SCAN is of great value. SCANのような診断データセットの貢献は非常に価値があると考えています。 0.67
As performance grows on tasks such as MT, identifying gaps where a model’s performance lags will become fundamental and will guide us to develop architectures MTのようなタスクでパフォーマンスが向上するにつれて、モデルのパフォーマンスラグが基本となるギャップを特定し、アーキテクチャの開発を導くでしょう。 0.72
英語(論文から抽出)日本語訳スコア
that cover genuine new linguistic grounds and not just overfit to peculiarities of standard datasets. これは、通常のデータセットの特異性に過剰にフィットするだけでなく、真新しい言語的根拠をカバーする。 0.46
Acknowledgments The authors are grateful to Marco Baroni and the reviewers for feedback that helped us to make the paper clearer. 承認 著者たちはmarco baroni氏とレビュワーたちに、この論文をより明確にするためのフィードバックを求めている。 0.55
References Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al 2020. Daniel Adiwardana, Minh-Thang Luong, David R So, Jamie Hall, Noah Fiedel, Romal Thoppilan, Zi Yang, Apoorv Kulshreshtha, Gaurav Nemade, Yifeng Lu, et al 2020を参照。 0.88
Towards a human-like open-domain chatbot. 人間のようなオープンドメインチャットボットを目指す。 0.42
arXiv preprint arXiv:2001.09977. arXiv preprint arXiv:2001.09977 0.71
Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E HinarXiv preprint Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E HinarXiv 0.64
ton. 2016. Layer normalization. トン 2016. 層正規化。 0.60
arXiv:1607.06450. arXiv:1607.06450。 0.48
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Dzmitry Bahdanau,kyunghyun Cho,Yoshua Bengio 0.55
2014. Neural machine translation by jointly arXiv preprint learning to align and translate. 2014. 共用arxivプレプリント学習によるニューラルマシン翻訳によるアライメントと翻訳 0.73
arXiv:1409.0473. arXiv:1409.0473。 0.48
Marco Baroni. 2019. マルコ・バロン 2019. 0.67
Linguistic generalization and compositionality in modern artificial neural networks. 現代人工ニューラルネットワークにおける言語一般化と構成性 0.79
Philosophical Transactions of the Royal Society B: Biological Sciences, 375(1791):20190307. The Royal Society B: Biological Sciences, 375(1791):20190307。 0.59
Jasmijn Bastings, Marco Baroni, Jasmijn Bastings, Marco Baroni 0.70
Jason Weston, Jump Kyunghyun Cho, and Douwe Kiela. jason weston、jump kyunghyun cho、douwe kiela。 0.59
2018. to better conclusions: Scan both left and right. 2018年: より良い結論: 左と右の両方をスキャンする。 0.64
In MNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP. MNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP。 0.72
Xinyun Chen, Chen Liang, Adams Wei Yu, Dawn Song, and Denny Zhou. シンギュン・チェン、Chen Liang、Adams Wei Yu、Dawn Song、Denny Zhou。 0.56
2020. Compositional generalization via neural-symbolic stack machines. 2020. ニューラルシンボリックスタックマシンによる合成一般化 0.72
Jean-Baptiste Cordonnier, Andreas Loukas, and Martin Jaggi. Jean-Baptiste Cordonnier、Andreas Loukas、Martin Jaggi。 0.80
2020. On the relationship between selfattention and convolutional layers. 2020. 自己着脱層と畳み込み層との関係について 0.72
In ICLR. Yann N Dauphin, Angela Fan, Michael Auli, and David Grangier. ICLR。 Yann N Dauphin、Angela Fan、Michael Auli、David Grangier。 0.62
2017. Language modeling with gated convolutional networks. 2017. ゲート畳み込みネットワークを用いた言語モデリング 0.82
In ICML. Roberto Dess`ı and Marco Baroni. ICML。 ロベルト・デッス(Roberto Dessı)とマルコ・バロン(Marco Baroni)。 0.51
2019. CNNs found to jump around more skillfully than RNNs: Compositional generalization in seq2seq convolutional networks. 2019. cnnはrnnよりも巧みに飛び回る: seq2seq畳み込みネットワークにおける合成一般化。 0.75
In ACL. Richard Futrell, Kyle Mahowald, and Edward Gibson. ACL。 Richard Futrell、Kyle Mahowald、Edward Gibson。 0.61
2015. Large-scale evidence of dependency PNAS, length minimization in 37 languages. 2015. 依存関係PNASの大規模証拠,37言語における長さ最小化。 0.74
112(33):10336–10341. 112(33):10336–10341. 0.82
Jonas Gehring, Michael Auli, David Grangier, Denis Yarats, and Yann N. Dauphin. Joas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin。 0.67
2017. Convolutional sequence to sequence learning. 2017. シーケンス学習への畳み込みシーケンス。 0.78
In ICML. Jonathan Gordon, David Lopez-Paz, Marco Baroni, and Diane Bouchacourt. ICML。 ジョナサン・ゴードン、デヴィッド・ロペス=パス、マルコ・バロン、ダイアン・ブーチャクール。 0.51
2019. Permutation equivariant models for compositional generalization in language. 2019. 言語合成一般化のための置換同変モデル 0.75
In ICLR. Francisco Guzm´an, Peng-Jen Chen, Myle Ott, Juan Pino, Guillaume Lample, Philipp Koehn, Vishrav Chaudhary, and Marc’Aurelio Ranzato. ICLR。 Francisco Guzm ́an, Peng-Jen Chen, Myle Ott, Juan Pino, Guillaume Lample, Philipp Koehn, Vishrav Chaudhary, Marc’Aurelio Ranzato 0.68
2019. Two new evaluation datasets for low-resource machine translation: Nepali-english and sinhala-english. 2019. 低リソース機械翻訳のための2つの新しい評価データセット。 0.74
Dieuwke Hupkes, Verna Dankers, Mathijs Mul, and Elia Bruni. Dieuwke Hupkes、Verna Dankers、Mathijs Mul、Elia Bruni。 0.68
2020. Compositionality decomposed: How do neural networks generalise? 2020. 構成性の分解:ニューラルネットワークはどのように一般化するか? 0.69
Journal of Artificial Intelligence Research, 67:757–795. Journal of Artificial Intelligence Research, 67:757–795。 0.79
Dieuwke Hupkes, Anand Singh, Kris Korrel, German Kruszewski, and Elia Bruni. Dieuwke Hupkes, Anand Singh, Kris Korrel, German Kruszewski, Elia Bruni 0.68
2018. Learning compositionally through attentive guidance. 2018. 注意深い指導を通して作曲を学ぶ。 0.69
arXiv preprint arXiv:1805.09657. arXiv preprint arXiv:1805.09657 0.71
Eugene Kharitonov and Rahma Chaabouni. Eugene Kharitonov と Rahma Chaabouni。 0.81
2021. What they do when in doubt: a study of inductive biases in seq2seq learners. 2021. 疑わしい時は何をするか:Seq2seq学習者の帰納バイアスの研究。 0.78
In ICLR. Diederik P Kingma and Jimmy Ba. ICLR。 dieerik p kingmaとjimmy ba。 0.59
2014. Adam: A method for stochastic optimization. 2014. Adam: 確率最適化の方法です。 0.77
arXiv preprint arXiv:1412.6980. arXiv preprint arXiv:1412.6980 0.71
Brenden Lake. 2019. ブレンデン湖。 2019. 0.75
Compositional generalization In through meta sequence-to-sequence learning. 構成の一般化 メタシーケンスからシーケンス学習を通じてです。 0.58
NeurIPS. Brenden Lake and Marco Baroni. NeurIPS ブレンデン湖とマルコ・バロン 0.55
2018. Generalization without systematicity: On the compositional skills of sequence-to-sequence recurrent networks. 2018. 系統性のない一般化:シーケンス列リカレントネットワークの構成スキルについて 0.78
In ICML. Yuanpeng Li, Liang Zhao, Jianyu Wang, and Joel Hestness. ICML。 Yuanpeng Li, Liang Zhao, Jianyu Wang, Joel Hestness。 0.63
2019. Compositional generalization for primitive substitutions. 2019. 原始置換の合成一般化。 0.75
arXiv preprint arXiv:1910.02612. arXiv preprint arXiv:1910.02612。 0.63
Joao Loula, Marco Baroni, and Brenden M Lake. ジョアオ・ラウラ、マルコ・バロンニ、ブレンデンM湖がある。 0.55
2018. Rearranging the familiar: Testing compositional generalization in recurrent networks. 2018. リカレントネットワークにおける使い慣れた:テスト構成一般化の再構成。 0.71
EMNLP 2018. 2018年EMNLP。 0.68
Christopher Manning, Mihai Surdeanu, John Bauer, Jenny Finkel, Steven Bethard, and David McClosky. Christopher Manning、Mihai Surdeanu、John Bauer、Jenny Finkel、Steven Bethard、David McClosky。 0.74
2014. The Stanford CoreNLP natural language processing toolkit. 2014. Stanford CoreNLP 自然言語処理ツールキット。 0.81
In ACL: System Demonstrations. ACL: システムデモ。 0.59
R Thomas McCoy, Robert Frank, and Tal Linzen. R・トーマス・マコイ、ロバート・フランク、タル・リンゼン。 0.59
2020. Does syntax need to grow on trees? 2020. 構文は木に育つ必要があるか? 0.78
sources of hierarchical inductive bias in sequence-to-sequence networks. sequence-to-sequence networkにおける階層的帰納的バイアスの源 0.58
TACL, 8:125–140. TACL 8:125-140。 0.64
Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and fairseq: A fast, extensible Michael Auli. Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, fairseq: A fast, extensible Michael Auli 0.77
2019. In NAACL-HLT toolkit for sequence modeling. 2019. naacl-hlt toolkit for sequence modelingの略。 0.75
2019: Demonstrations. 2019年 - 実演。 0.55
Emilio Parisotto, Francis Song, Jack Rae, Razvan Pascanu, Caglar Gulcehre, Siddhant Jayakumar, Max Jaderberg, Raphael Lopez Kaufman, Aidan Clark, Seb Noury, et al 2020. Emilio Parisotto, Francis Song, Jack Rae, Razvan Pascanu, Caglar Gulcehre, Siddhant Jayakumar, Max Jaderberg, Raphael Lopez Kaufman, Aidan Clark, Seb Noury, et al 2020 0.82
Stabilizing transformers for reinforcement learning. 強化学習のための安定化変圧器 0.68
In ICLR. ICLR。 0.52
英語(論文から抽出)日本語訳スコア
Jack Rae and Ali Razavi. ジャック・レイとアリ・ラザヴィー 0.53
2020. Do transformers need 2020. トランスフォーマーが必要か 0.76
deep long-range memory? In ACL. 深い長距離記憶? ACL。 0.66
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J Liu. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J Liu
訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リウ(Peter J Liu)。
0.89
2019. Exploring the limits of transfer learning with a unified text-to-text transformer. 2019. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.83
arXiv preprint arXiv:1910.10683. arXiv preprint arXiv:1910.10683 0.71
Jake Russin, Jason Jo, Randall C O’Reilly, and Yoshua Bengio. Jake Russin、Jason Jo、Randall C O’Reilly、Yoshua Bengio。 0.70
2019. Compositional generalization in a deep seq2seq model by separating syntax and semantics. 2019. 構文と意味を分離した深部Seq2seqモデルの合成一般化 0.79
arXiv preprint arXiv:1904.09708. arXiv preprint arXiv:1904.09708 0.72
Tim Salimans and Durk P Kingma. ティム・サリマンスと ダーク・p・キングマ 0.36
2016. Weight normalization: A simple reparameterization to accelerate training of deep neural networks. 2016. 重み正規化:深層ニューラルネットワークのトレーニングを加速するための単純な再パラメータ化。 0.77
In NeurIPS. NeurIPSに登場。 0.80
Peter Shaw, Jakob Uszkoreit, and Ashish Vaswani. Peter Shaw、Jakob Uszkoreit、Ashish Vaswani。 0.62
2018. Self-attention with relative position representations. 2018. 相対的な位置表現による自己認識。 0.68
In NAACL, pages 464–468. NAACL 464-468頁。 0.62
Sainbayar Sukhbaatar, Sainbayar Sukhbaatar 0.56
´Edouard Grave, Piotr Bojanowski, and Armand Joulin. Edouard Grave、Piotr Bojanowski、Armand Joulin。 0.53
Adaptive attention span in transformers. 変圧器の適応的注意スパン 0.67
Ilya Sutskever, James Martens, George Dahl, and Geoffrey Hinton. Ilya Sutskever、James Martens、George Dahl、Geoffrey Hinton。 0.66
2013. On the importance of initialization and momentum in deep learning. 2013. 深層学習における初期化と運動量の重要性について 0.77
In ICML. Ilya Sutskever, Oriol Vinyals, and Quoc V Le. ICML。 Ilya Sutskever、Oriol Vinyals、Quoc V Le。 0.59
2014. Sequence to sequence learning with neural networks. 2014. ニューラルネットワークを用いたシーケンスからシーケンスへの学習。 0.76
In NeurIPS. NeurIPSに登場。 0.80
Baosong Yang, Zhaopeng Tu, Derek F Wong, Fandong Meng, Lidia S Chao, and Tong Zhang. Baosong Yang, Zhaopeng Tu, Derek F Wong, Fandong Meng, Lidia S Chao, Tong Zhang 0.71
2018. Modeling localness for self-attention networks. 2018. 自己注意ネットワークの局所性モデリング 0.79
arXiv preprint arXiv:1810.10182. arXiv preprint arXiv:1810.10182 0.70
A Hyperparameter grids A.1 SCAN For each architecture, we used the same hyperparameter grids for all splits of SCAN. ハイパーパラメータグリッド A.1 SCAN 各アーキテクチャでは、SCANのすべての分割に同じハイパーパラメータグリッドを使用しました。 0.72
All models were trained by Adam with default β1 and β2 parameters, for 250 epochs, with batch size 256, learning rate 5 · 10−4, dropout and attention dropout 0.1, random seeds {0, 1, 2}. 全てのモデルは、Adamによってデフォルトのβ1とβ2パラメータで訓練され、バッチサイズ256、学習率5 · 10−4、ドロップアウトとアテンションドロップアウト0.1、ランダムシード{0, 1, 2}で250エポックであった。 0.71
We vary the Encoder and Decoder parameters independently: number of attention heads {4, 8}, embedding dimensions {128, 256}, FFN dimensions {256, 512}, and the number of layers {4, 6, 8}; clip norm 1.0. 我々は、エンコーダとデコーダのパラメータを独立して変更する: 注意頭数 {4, 8}, 埋め込み次元 {128, 256}, FFN次元 {256, 512}, レイヤー数 {4, 6, 8}; クリップノルム 1.0。 0.67
For hybrids models, add the following parame- ハイブリッドモデルの場合、以下のparameを追加します。 0.62
ters. SAG To reduce the search space, we did not vary β0, setting it to −1. ターズ SAG 探索空間を小さくするため,β0 は変化せず −1 に設定した。 0.54
SAG + CNN as self-attention Span: {2, 4, 6}, β0 = −1, number of layers: {4, 6}. SAG + CNN as self-attention Span: {2, 4, 6}, β0 = −1, number of layer: {4, 6}。 0.92
SAG + {2, 4, 6}, β0 = −1, number of layers: 4. SAG + {2, 4, 6}, β0 = −1, 層数: 4。 0.77
SAG + T5 Span: {2, 4, 6}, β0 = −1, number of layers: 4. SAG + T5 Span: {2, 4, 6}, β0 = −1, 層数: 4。 0.82
self-attention Span: 自己注意 Span: 0.68
fixed span A.2 Machine Translation De-En We start from the standard architecture suggested by Fairseq examples for IWSLT’14 DeEn. 固定 スパン a.2 machine translation de-en 私たちは、fairseqがiwslt’14 deenで提案した標準アーキテクチャから始まります。 0.58
That is we share decoder input and output embeddings. つまりデコーダの入力と出力の埋め込みを共有します。 0.73
Both Encoder and decoder have an embedding size of 512 FFN dimensions of 1024, 4 attention heads, 6 encoder & decoder layers. エンコーダとデコーダの両方の埋め込みサイズは512ffnで、1024、アテンションヘッドは4、エンコーダとデコーダは6である。
訳抜け防止モード: エンコーダとデコーダの両方の埋め込みサイズは512 FFN次元は1024である。 4つのアテンションヘッド、6つのエンコーダとデコーダ層。
0.76
We used adam optimizer with learning rate of 5e-4, no clip norm, warm-up learning rate 1e-7, inverse square root learning rate scheduler, 4000 warmup updates, dropout 0.3, weight decay 1e-4, label smoothing 0.1, max. 5e-4, クリップノルムなし, ウォームアップ学習率1e-7, 逆正方根学習率スケジューラ4000, ウォームアップ更新, ドロップアウト0.3, ウェイト崩壊1e-4, ラベル平滑化0.1。 0.71
tokens per batch per GPU: 1024, 40 epochs. gpu当たりのバッチ当たりのトークン: 1024,40エポック。 0.66
We used 4 GPUs for training. トレーニングには4つのGPUを使用しました。 0.56
For SAG-enabled architectures, we additionally searched for Encoder’s β0 in {−1, 0} and {1, 0} for Decoder. SAG対応アーキテクチャでは、Decoder の {−1, 0} および {1, 0} で Encoder の β0 を検索する。 0.78
We varied attention span in {2, 4, 6}, ttention dropout in {0.0, 0.2} and pre-block encoder and decoder normalization. 2, 4, 6}, {0.0, 0.2},プリブロックエンコーダおよびデコーダ正規化では,注意の幅が異なっていた。
訳抜け防止モード: 注意範囲は { 2, 4, 6 } で変化した。 ttention dropout in { 0.0, 0.2 } and pre- block encoder and decoder normalization
0.78
For model selection, we also follow Fairseq example and checkpoint the best model on validation set based on BLEU score. モデル選択に関しても、Fairseqの例に従い、BLEUスコアに基づいて検証セットの最良のモデルをチェックポイントする。 0.70
BLEU score is computed with a beam of size 5. BLEUスコアは、大きさ5のビームで計算される。 0.80
FLoRes We used shared embeddings between Encoder and Decoder, embedding dimenions of 512, FFN dimensions of 2048, 2 attention heads, FLoRes 私たちはEncoderとDecoderの共有埋め込みを使用し、512, FFN次元2048, 2のアテンションヘッドを埋め込みました。 0.75
英語(論文から抽出)日本語訳スコア
5 encoder & decoder layers. 5 エンコーダとデコーダ層。 0.75
We used pre-block normalization9, learning rate of 1e-3, no clip norm, warm-up learning rate 1e-7, inverse square root learning rate scheduler, 4000 warm-up updates, dropout 0.4, activation dropout 0.2, weight decay 1e-4, label smoothing 0.2, max. プレブロック正規化9, 1e-3, no clip norm, warm-up learning rate 1e-7, inverse square root learning rate scheduler, 4000 warm-up updates, dropout 0.4, activation dropout 0.2, weight decay 1e-4, label smoothing 0.2, maxを用いた。 0.78
tokens per batch per GPU: 4000, 100 epochs. gpu当たりのバッチ当たりのトークン: 4000,100エポック。 0.67
We searched for attention dropout in {0.0, 0.2}. 我々は{0.0, 0.2} で注意降下を検索した。 0.65
We used 4 GPUs for training. トレーニングには4つのGPUを使用しました。 0.56
For SAG-enabled arcchitectures, we additionally searched for Encoder’s β0 in {−2,−1, 0} and {2, 1, 0} for Decoder. また, SAG 対応アークキテクチュアに対しては, エンコーダの β0 を {−2,−1, 0} と {2, 1, 0} で探索した。 0.77
We varied attention span in {2, 4, 6}. 注意範囲は {2, 4, 6} で異なっていた。 0.66
Noun-adjective order agreement We start from the standard architecture suggested by Fairseq examples for WMT’14 En-Fr. 名詞形容詞的順序合意 WMT'14 En-FrのFairseqの例から始める。 0.59
That is we share encoder, decoder and output embeddings. つまり、エンコーダ、デコーダ、出力埋め込みを共有します。 0.72
Both Encoder and decoder have an embedding size of 1024 FFN dimensions of 4096, 16 attention heads, 6 encoder & decoder layers. エンコーダとデコーダは、埋め込みサイズが1024 FFNで4096、アテンションヘッドが16、エンコーダとデコーダの層が6である。 0.71
We used adam optimizer with learning rate of 7e-4, no clip norm, warm-up learning rate 1e-7, inverse square root learning rate scheduler, 4000 warm-up updates, dropout 0.1, label smoothing 0.1, max. 学習速度7e-4,クリップノルムなし,ウォームアップ学習率1e-7,逆二乗根学習率スケジューラ,4000ウォームアップ更新,ドロップアウト0.1,ラベル平滑化0.1,maxを用いた。 0.74
tokens per batch per GPU: 4000, 30 epochs. gpu当たりのバッチ当たりのトークン: 4000,30エポック。 0.65
We used 6 GPUs for training. トレーニングには6つのGPUを使用しました。 0.54
For SAG-enabled architectures, we additionally searched for Encoder’s β0 in {−1, 0} and {1, 0} for Decoder. SAG対応アーキテクチャでは、Decoder の {−1, 0} および {1, 0} で Encoder の β0 を検索する。 0.78
We varied attention span in {2, 4, 6}, ttention dropout in {0.0, 0.2} and pre-block encoder and decoder normalization. 2, 4, 6}, {0.0, 0.2},プリブロックエンコーダおよびデコーダ正規化では,注意の幅が異なっていた。
訳抜け防止モード: 注意範囲は { 2, 4, 6 } で変化した。 ttention dropout in { 0.0, 0.2 } and pre- block encoder and decoder normalization
0.78
Best checkpoint is based on the loss of the vali- ベストチェックポイントは、valiの損失に基づいています。 0.64
dation set. B Other modifications on FloRes and ダイオードセット。 B FloResに関するその他の修正 0.56
Noun-adjective ordering datasets 名詞形容詞順序データセット 0.53
In the main paper, we only experimented with SAG + T5 as the only non-degraded modification on the IWSLT’14 En-De dataset. 本論文では、IWSLT’14 En-Deデータセットの非劣化修正として、SAG + T5のみを実験した。 0.74
Our intuition is that the remaining hybrid models are SCAN-tailored and would not lead to any improvement in the low-resource (FloRes) and domain-shifted (Nounadjective ordering dataset) settings. 私たちの直感では、残りのハイブリッドモデルはSCAN調整済みで、低リソース(FloRes)とドメインシフト(Nounadjective ordering dataset)設定の改善には至らないでしょう。 0.69
In this section, we verify our intuition and report the results of all the introduced variants. 本稿では直観を検証し,導入したすべての変種の結果を報告する。 0.68
The hyper-parameters search is reported in Section A. FloRes We report results on English↔Nepali and English↔Sinhala translation in Table 7. ハイパーパラメーター探索はセクションAで報告されている。 FloRes 我々は、表7における英語のNepaliと英語のSinhala翻訳について報告する。 0.51
We 9--encoder-normalize -before 私たち 9-エンコーダ-正規化前 0.59
--decoder-normalize- before in fairseq. --decoder-normalize- before in fairseq 0.72
and also report Guzm´an et al (2019) results under “Baseline”. そして guzm ́an et al (2019) もベースラインで結果を報告している。 0.69
Analyzing results of SAG, we notice that it is usually very close to Transformer’s results on all tasks, apart from Nepali→English, where it lags behind. SAGの結果を解析した結果、ネパール語→英語以外のすべてのタスクにおけるTransformerの結果に非常に近いことが分かりました。 0.65
The fixed-span modification performs worse than Transformer on in all directions. 固定スパン修正は、あらゆる方向のTransformerよりも悪化する。 0.72
Replacing self-attention with convolutions results in better scores on En→Ne and worse scores on Ne→En/En→Si. 自己アテンションを畳み込みで置き換えると、En→Neのスコアが良くなり、Ne→En/En→Siのスコアが悪くなる。 0.45
Hence, as expected, only the SAG + T5 model outperforms Transformer on all language pairs and directions, highlighting the importance of verifying the generality of the model on realistic datasets. したがって、予想通り、SAG + T5モデルのみがトランスフォーマーを全ての言語ペアと方向で上回り、現実的なデータセット上でモデルの汎用性を検証することの重要性を強調している。 0.69
Noun-adjective order agreement BLEU scores on the test set are reported in Table 8. テストセット上の名詞形順序一致BLEUスコアを表8に報告する。 0.61
SAG leads to a relative improvement of 1.44% compared to standard Transformer, closely followed by SAG + T5. SAGは標準のTransformerに比べて1.44%改善し、SAG + T5が続いた。 0.66
Still, in total, the differences are very small across all models. それでも、全体的な違いは、すべてのモデルで非常に小さい。 0.77
On the other hand, all introduced variants outperform standard Transformer on COMP. 一方、導入されたすべての変種はComputerの標準トランスフォーマーより優れている。 0.53
However, only SAG + T5 demonstrates a significant improvement with 14% relative gain. しかし、SAG + T5のみが14%の相対的な増加を示した。 0.70
Overall, we observe that the SCAN-tailored variants do not degrade performances on the Nounadjective order agreement dataset, but still do not lead to any significant improvement, contrary to SAG + T5. 全体としては,sag+t5とは対照的に,scan-tailored型はnounadjective order agreementデータセットのパフォーマンスを低下させることはないが,大きな改善は起こらない。 0.69
C Visualizing attention biases In this Section, we illustrate how a successful SAG + T5 model uses its bij terms (Eq. C 注意バイアスを可視化する この節では、成功した SAG + T5 モデルがそのbij 項 (Eq) をどのように使うかを説明する。 0.59
1) to control its attention. 1)注意を抑えること。 0.59
We take the most successful hyperparameter combination on SCAN-jump in Table 3 and select a model instance that has the best accuracy (≈ 60%). 表3のSCAN-ジャンプ上で最も成功したハイパーパラメータの組み合わせを取り上げ、最高の精度(60%)のモデルインスタンスを選択する。 0.81
Next, for each attention head of each encoder and decoder layer, we retrieve its learned relative-position bias bd, where d is a (signed) relative distance between positions i and j, that is capped to be within [−s, +s] (see Section 3). 次に、各エンコーダおよびデコーダ層の各注意ヘッドについて、学習した相対位置バイアスbdを検索し、dは[−s, +s]の範囲内にある位置i,j間の(符号)相対距離である(セクション3を参照)。 0.73
For each head, we apply a softmax, to find its “preference” ˆbd over relative positions d: 各頭部に対してソフトマックスを適用し、相対位置 d に対してその "preference" である bd を見つける。 0.68
(cid:80) ˆbd = (cid:80) ※bd= 0.66
exp(bd) d exp(bd) We report the results in Figure 1. exp(bd) d exp(bd) 図1で結果を報告します。 0.79
Interestingly, quite a few attention heads have very strong preferences for fixed relative positions and some are even dominantly focused on particular positions (Encoder: head 7 in the layer 0; heads 4, 5 in layer 興味深いことに、かなりの数の注目ヘッドは固定相対位置に対して非常に強い好みを持ち、特定の位置にさえ支配的である(エンコーダー:層0のヘッド7、層5のヘッド)。 0.75
英語(論文から抽出)日本語訳スコア
ne-en si-en en-ne en-si Ne-en si-en en-ne en-si 0.42
Baseline Transformer 7.94±0.05 7.15±0.07 4.43±0.01 2.32±0.08 ベースライントランス 7.94±0.05 7.15±0.07 4.43±0.01 2.32±0.08 0.25
7.6 7.2 4.3 1.2 7.6 7.2 4.3 1.2 0.45
SAG 7.58±0.06 7.14±0.10 4.36±0.08 2.37±0.10 SAG 7.58±0.06 7.14±0.10 4.36±0.08 2.37±0.10 0.53
+ Conv s.-a. +Conv s.a。 0.73
+ fixed span 7.59±0.02 7.44±0.08 .78±0.07 7.18±0.10 4.12±0.05 4.63±0.03 2.14±0.03 2.12±0.04 + fixed span 7.59±0.02 7.44±0.08 .78±0.07 7.18±0.10 4.12±0.05 4.63±0.03 2.14±0.03 2.12±0.04 0.24
+ T5 8.40±0.02 7.41±0.10 5.01±0.10 2.54±0.03 +T5 8.40±0.02 7.41±0.10 5.01±0.10 2.54±0.03 0.51
Table 7: BLEU dev-test scores on FLoRes. 表7: BLEU Dev-test scores on FLoRes 0.85
Baseline scores are taken from (Guzm´an et al , 2019). ベースラインスコアは (Guzm ́an et al , 2019) から取られる。 0.79
In bold are values that stat. 大胆な価値は、その統計値です。 0.60
sig. improve over Transformer (p < 10−3). シグ トランスフォーマー(p < 10−3)の改良。 0.53
± indicates 1 SEM. ±は1SEMを示す。 0.73
BLEU COMP Transformer 40.86±0.34 0.64±0.01 BLEU COMP 変圧器 40.86±0.34 0.64±0.01 0.55
SAG 41.45±0.14 0.70±0.03 SAG 41.45±0.14 0.70±0.03 0.54
+ Conv s.-a. +Conv s.a。 0.73
+ fixed span 41.01±0.24 39.89±0.27 0.67±0.01 0.68±0.01 +固定スパン41.01±0.2439.89±0.27 0.67±0.01 0.68±0.01 0.29
+ T5 41.43±0.29 0.73±0.01 +T5 41.43±0.29 0.73±0.01 0.52
Table 8: BLEU and COMP measures on test sets: compositional English to French dataset. 表 8: BLEU と COMP によるテストセットの計測: 合成英語からフランス語へのデータセット。 0.79
In bold are values that stat. 大胆な価値は、その統計値です。 0.60
sig. improve over Transformer (p < 0.05). シグ Transformer の改善 (p < 0.05)。 0.59
± denotes 1 SEM. ± は 1 SEM を表す。 0.73
1, heads 3, 7 in layer 2; head 2 in layer 3; Decoder: head 4 in layer 0, head 2 in layer 1, heads 3,4,5 in layer 2; heads 2, 6, 7 in layer 3)10. 層2のヘッド3、7、層3のヘッド2、層0のヘッド4、層1のヘッド2、層2のヘッド3,4,5、層2のヘッド2,6,7、層310。
訳抜け防止モード: 第1、第3、第7、第2層 ; 層3のヘッド2; デコーダ : 層0のヘッド4 ヘッド2は層1、ヘッド3,4,5は層2、ヘッド2, 6, 7は層3,10である。
0.84
More often than not, those “specialized” heads look within the span and not on the “border” values of d (due to d being capped, they also correspond to arbitrary distant positions to the left and right). 多くの場合、これらの「専門化された」ヘッドは、dの「ボーダー」値ではなく、スパン内に見える(dがカッピングされているため、左右の任意の離れた位置に対応する)。
訳抜け防止モード: 大抵の場合、これらの「専門」の頭はスパンの中に見えます d の " border " 値にはない(d がキャップされているため)。 また 左と右の 任意の距離の位置に対応する。
0.66
Hence we conclude that in a T5 model (among most successful on SCAN-jump), several heads leverage the ability pay attention locally; supporting our finding that local attention is connected with the compositional generalization needed to succeed at SCAN. したがって、T5モデル(SCAN-jumpでもっとも成功した)では、複数の頭が局所的に注意を払い、局所的な注意がSCANの成功に必要な構成的一般化と結びついていることが分かる。 0.69
At the same time, some heads have large relative-position bias for distant positions ([s, +∞[ or ] − ∞,−s]). 同時に、いくつかの頭部は離れた位置([s, +∞[ or ] − ∞,−s])に対して大きな相対配置バイアスを持つ。 0.81
This general ability to optionally look beyond a fixed span in T5 could be responsible for its better performance compared to the fixed span modification. オプションでT5の固定スパンを越えられるこの一般的な能力は、固定スパンの修正に比べてパフォーマンスが良くなった。 0.69
10T5 reduces to the vanilla Transformer if all bd are equal 10T5はすべてのbdが等しい場合、バニラ変換器に還元する 0.59
to zero. That corresponds to the uniform bias ˆbd. ゼロに これは、一様バイアス /bd に対応する。 0.49
英語(論文から抽出)日本語訳スコア
(a) Encoder layer 0. (a)エンコーダ層0。 0.74
(b) Encoder layer 1. (b)エンコーダ層1。 0.73
(c) Encoder layer 2. (c)エンコーダ層2。 0.76
(d) Encoder layer 3. (d)エンコーダ層3。 0.73
(e) Decoder layer 0. (e)デコーダ層0。 0.71
(f) Decoder layer 1. (f)デコーダ層1。 0.72
(g) Decoder layer 2. (g)デコーダ層2。 0.72
(h) Decoder layer 3. (h)デコーダ層3。 0.69
Figure 1: Relative attention biases for T5 + SAG architecture (after a softmax). 図1: T5 + SAGアーキテクチャ(ソフトマックスの後)に対する相対的な注意バイアス。 0.73
Each cell indicates preference of a head to a position at a signed relative distance. 各セルは、署名された相対距離の位置に対する頭部の好みを示す。 0.73
The relative distances are capped. 相対距離は上限である。 0.70
For the decoder we only represent relative attention biases for d ≤ 0, as positions with positive relative distance are masked in the autoregressive decoder. デコーダでは、正の相対距離を持つ位置が自己回帰デコーダに隠れているため、d ≤ 0 に対する相対的な注意バイアスのみを表す。 0.68
01234567head-..-4-3- 2-101234..relative distance0.20.40.6012 34567head-..-4-3-2-1 01234..relative distance0.20.40.6012 34567head-..-4-3-2-1 01234..relative distance0.20.4012345 67head-..-4-3-2-1012 34..relative distance0.20.4012345 67head-..-6-5-4-3-2- 10relative distance0.20.40.6012 34567head-..-6-5-4-3 -2-10relative distance0.20.4012345 67head-..-6-5-4-3-2- 10relative distance0.20.40.6012 34567head-..-6-5-4-3 -2-10relative distance0.250.500.75 01234567head-..-4-3- 2-101234..relative distance 0.20.40.601234567hea d-..-4-3-101234..rel ative distance 0.20.40.6012345head- ..-4-3-2-101234..rel ative distance 0.20.4012345head-..- 4-3-101234.relative distance 0.20.4012345head-.-6 -6-4-2-10relative distance 0.20.40.6012345head- ..-6-4-2-2-2-10relat ive distance 0.20.401234567head-. .6-6-4-2-2-2.relativ e distance 0.20.40.601234567hea d-..6-2-2-5-5-5-5-5 0.23
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。