論文の概要、ライセンス

# (参考訳) ニューラルネットワーク翻訳のための遷移型グラフデコーダ [全文訳有]

Transition based Graph Decoder for Neural Machine Translation ( http://arxiv.org/abs/2101.12640v1 )

ライセンス: CC BY 4.0
Leshem Choshen, Omri Abend(参考訳) ソース側のシンボリックシンタクティック構造とセマンティック構造をニューラルネットワーク翻訳(NMT)に組み込むことで多くの成果が得られたが、そのような構造の復号化に対処した作品はほとんどなかった。 そこで我々は,Dyer (2016) による RNN を用いた同様の手法に着想を得た,木およびグラフのデコーディングのための汎用的なトランスフォーマーベースアプローチを提案する。 提案する英語・ドイツ語・ドイツ語・英語・ロシア語への普遍的依存構文を持つデコーダを用いた実験では、標準トランスフォーマーデコーダよりも性能が向上し、モデルのアブレーション版も改善されている。

While a number of works showed gains from incorporating source-side symbolic syntactic and semantic structure into neural machine translation (NMT), much fewer works addressed the decoding of such structure. We propose a general Transformer-based approach for tree and graph decoding based on generating a sequence of transitions, inspired by a similar approach that uses RNNs by Dyer (2016). Experiments with using the proposed decoder with Universal Dependencies syntax on English-German, German-English and English-Russian show improved performance over the standard Transformer decoder, as well as over ablated versions of the model.\tacltxt{\footnote{All code implementing the presented models will be released upon acceptance.
公開日: Fri, 29 Jan 2021 15:20:45 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Transition-based Graph Decoder for Neural Machine Translation 遷移型ニューラルネットワーク翻訳用グラフデコーダ 0.75
Leshem Choshen レシェム・チョシェン(Leshem Choshen) 0.32
Department of Computer Science Hebrew University of Jerusalem エルサレム・ヘブライ大学計算機科学科 0.61
leshem.choshen@mail. huji.ac.il leshem.choshen@mail. huji.ac.il 0.39
Omri Abend Department of Computer Science Hebrew University of Jerusalem omri.abend@mail.huji .ac.il omriアセンド エルサレム大学 omri.abend@mail.huji .ac.il 0.52
Abstract While a number of works showed gains from incorporating source-side symbolic syntactic and semantic structure into neural machine translation (NMT), much fewer works addressed the decoding of such structure. 概要 ソース側のシンボリックシンタクティック構造とセマンティック構造をニューラルネットワーク翻訳(NMT)に組み込むことで多くの成果が得られたが、そのような構造の復号化に対処した作品はほとんどなかった。 0.55
We propose a general Transformerbased approach for tree and graph decoding based on generating a sequence of transitions, inspired by a similar approach that uses RNNs by Dyer et al. そこで我々は,DyerらによるRNNを用いた同様の手法に着想を得た,木とグラフのデコーディングのための汎用的トランスフォーマーアプローチを提案する。 0.75
(2016). Experiments with using the proposed decoder with Universal Dependencies syntax on English-German, German-English and English-Russian show improved performance over the standard Transformer decoder, as well as over ablated versions of the model. (2016). 提案したデコーダを英語、ドイツ語、ドイツ語、ロシア語のUniversal Dependencies構文で使用した実験では、標準のTransformerデコーダよりも性能が向上し、モデルが改良された。
訳抜け防止モード: (2016). 英語のUniversal Dependencies構文を用いたデコーダを用いた実験 ドイツ語、英語、ロシア語のショーは標準のTransformerデコーダよりもパフォーマンスが向上した。 モデルの短縮版だけでなく
0.82
1 Introduction The use of structure (mostly syntactic structure) in machine translation has deep roots, dating back to the early days of the field (Lopez, 2008). 1 はじめに 機械翻訳における構造(ほとんどが構文構造)の使用は、この分野の初期までさかのぼる深いルーツを持つ(lopez, 2008)。 0.70
While the focus has shifted more to string-to-string methods since the introduction of neural methods, considerable work has shown gains from integrating syntactic and semantic structure into NMT technologies, as well as in using similar architectures for other tasks, such as grammatical error correction and code generation (see §7). ニューラルメソッドの導入以来、よりストリングツーストリング法に焦点が移っているが、構文構造とセマンティック構造をNMT技術に統合することや、文法的誤り訂正やコード生成といった他のタスクに類似したアーキテクチャを使用することで、かなりの成果が示されている(図7参照)。 0.65
Incorporating target-side structure into NMT decoders has been less frequently addressed than source-side structure, possibly due to the additional conceptual and technical complexity it entails, as it requires jointly generating the translation and its structure. ターゲット側構造をNMTデコーダに組み込むことは、ソース側構造よりも少ない頻度で対処されている。
訳抜け防止モード: NMTデコーダへのターゲット-サイド構造の導入 ソース - サイド構造よりも、おそらく、それに伴う概念的および技術的な複雑さのために、対処される頻度は低い。 翻訳と構造を共同で生成する必要があるからです
0.62
In addition to linearizing the structure into a string, that allows easily incorporating source and target-side structure (Aharoni and Goldberg, 2017b; Nadejde et al., 2017), several works generated the nodes of the syntactic tree using RNNs, either in a top-down (G¯u et al., ソースとターゲット側の構造(Aharoni and Goldberg, 2017b; Nadejde et al., 2017)を簡単に組み込むことができる文字列に構造を線形化することに加えて、いくつかの作品は、トップダウン(G su et al.)で、RNNを使用してシンタクティックツリーのノードを生成しました。 0.69
2018; Wang et al., 2018) or a bottom-up manner (Wu et al., 2017). 2018; wang et al., 2018) or a bottom-up manner (wu et al., 2017)。 0.83
Other works have shown gains from multi-task training of a decoder with a syntactic parser (Eriguchi et al., 2016). 他の研究は、構文解析器を備えたデコーダのマルチタスクトレーニングの成果を示している(Eriguchi et al., 2016)。 0.71
However, we are not aware of any Transformer-based NMT architectures to support the integration of target-side structure in the form of a tree or a graph. しかし、我々は木やグラフの形でターゲット側構造の統合をサポートするトランスフォーマーベースのNMTアーキテクチャを知らない。
訳抜け防止モード: しかし、トランスフォーマーベースのnmtアーキテクチャには気づいていません。 対象-側構造を木またはグラフの形式で統合することを支援する。
0.71
Addressing this gap, we propose a flexible architecture for integrating a variety of syntactic and semantic structures into a Transformer decoder. このギャップに対処するために,様々な構文構造と意味構造をトランスフォーマデコーダに統合するフレキシブルなアーキテクチャを提案する。 0.76
Our approach is based on predicting the output tree/graph as a sequence of transitions (§3), following the transition-based tradition in parsing (Nivre, 2003, and much subsequent work). 我々のアプローチは、解析における遷移に基づく伝統に従って、出力ツリー/グラフを遷移の列として予測することに基づいている(Nivre, 2003, and much later work)。 0.75
The method (presented in §4) is based on generating the generated structure as a sequence of transitions. この方法は、生成した構造を遷移の列として生成することに基づいています。
訳抜け防止モード: メソッド (4 で示される) は、 生成した構造を遷移のシーケンスとして生成する。
0.79
As is customary in transition-based parsers, the parser uses an auxiliary stack in its predictions, and incrementally constructs the output graph. 遷移ベースのパーサーの慣例であるように、パーサーは予測に補助スタックを使用し、出力グラフを段階的に構築する。 0.65
However, unlike standard linearization approaches, our proposed decoder re-encodes the intermediate graph (and not only the generated tokens), thus allowing the decoder to take advantage of the information embedded in the hitherto produced structure in its further predictions. しかし、従来の線形化手法とは異なり、提案するデコーダは中間グラフ(および生成されたトークンだけでなく)を再符号化することで、デコーダはそのさらなる予測で生成した構造に埋め込まれた情報を活用することができる。 0.73
In §2, we discuss the possibilities offered by such decoders, that do not only auto-regress on their previous outputs, but also on (symbolic) structures defined by those outputs. 2 では、そのようなデコーダによって提供される可能性について論じる。これは、以前の出力を自動回帰するだけでなく、それらの出力によって定義される(記号的な)構造についても論じる。 0.54
Indeed, a decoder thus built can condition both on other types of information than the type it predicts (e.g., information from external knowledge bases) and information it predicted at a later stage. このように構築されたデコーダは、予測するタイプの情報(例えば、外部の知識ベースからの情報)と、後段に予測される情報の両方に条件を付けることができる。 0.81
We introduce a bidirectional attention mechanism allowing the representation of each word to be dependent on the following words that were predicted. 予測された次の単語に依存するように各単語の表現を可能にする双方向の注意メカニズムを紹介します。 0.75
This is similar to the operation of the encoder, where every word can attend to every word, and not only to preceding words. これはエンコーダの操作と似ており、すべての単語が先行する単語だけでなく、すべての単語に出席することができる。 0.75
Our architecture is flexible, supporting decoding into any graph structure for which a transition 私たちのアーキテクチャは柔軟で、遷移する任意のグラフ構造へのデコードをサポートする 0.76
1 2 0 2 n a J 1 2 0 2 n a J 0.85
9 2 ] L C . 9 2 ] L C。 0.78
s c [ 1 v 0 4 6 2 1 sc [ 1 v 0 4 6 2 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
英語(論文から抽出)日本語訳スコア
system exists. We test two architectures for incorporating the syntactic graph defined by the transitions. システムは存在する 遷移によって定義される構文グラフを組み込むための2つのアーキテクチャをテストする。 0.72
One inputs the graph into a Graph Convolutional Network (GCN; Kipf and Welling, 2016) and another dedicates an attention head to point at the syntactic head of each token. 1つはグラフをグラフ畳み込みネットワーク(GCN; Kipf and Welling、2016)に入力し、もう1つは各トークンのシンタクティックヘッドを指し示すために注意を向けます。 0.80
We analyze in §6 the impact of different parts of the architecture, showing improved performance of the full model over its ablated versions, as well as over the vanilla Transformer decoder. 第6章でアーキテクチャの異なる部分の影響を分析し、そのアブレーションバージョンやバニラトランスデコーダよりもフルモデルの性能が向上したことを示した。 0.70
Our findings show that the gating mechanism of the GCN is crucial for the results, but also that the contribution of the syntactic labels to the GCN is minor. 以上の結果から,GCNのゲーティング機構は,GCNに対するシンタクティックラベルの寄与は小さいことが示唆された。
訳抜け防止モード: 私たちの調査結果です。 GCNのゲージ機構は、結果のために重要です。 しかし、GCNへのシンタクティックラベルの貢献は軽微である。
0.64
Overall, we see that the proposed UD-based decoder outperforms the vanilla decoder on EnglishGerman (En-De), German-English (De-En) and English-Russian (En-Ru). 全体として、提案するUDベースのデコーダは、ドイツ語(En-De)、ドイツ語(De-En)、英語(En-Ru)のバニラデコーダよりも優れている。 0.49
Improved performance is further observed on the En-De and De-En challenge sets by Choshen and Abend (2019). Choshen and Abend(2019)のEn-De and De-Enチャレンジセットでさらにパフォーマンスが向上しました。 0.72
2 Decoding Approach 2 復号化アプローチ 0.77
Attention-based models are characterized by being state-less. 注意に基づくモデルはステートレスであることが特徴である。 0.56
They can therefore be viewed as conditional language models, namely as models for producing a distribution for the next word, given the generated prefix and source sentence. したがって、これらは条件付き言語モデル、すなわち生成されたプレフィックスとソース文から次の単語の分布を生成するモデルと見なすことができる。 0.89
Unlike RNNs, attention-based models do not inherently rely on past predictions in terms of inputs, weights and gradients (in contrast to methods such as backpropagation through time, standardly used in RNN training);1 the only connection to past predictions is mediated through their re-encoding back into the decoder. RNNとは異なり、注意に基づくモデルは、入力、重み、勾配の点で本質的に過去の予測に依存しない(RNNトレーニングで一般的に使用されるバックプロパゲーションのような方法とは対照的に)。
訳抜け防止モード: RNNとは異なり、注意に基づくモデルは、入力、重み、勾配(時間によるバックプロパゲーションのような方法とは対照的)という観点で、本質的に過去の予測に依存しない。 RNNトレーニングで標準的に使用される)1 過去の予測への唯一の接続 re-を通じてデコーダに復号する。
0.65
This architecture, therefore, allows more flexibility than in RNNs, where subsequent predictions are made by different cells of the same network. したがって、このアーキテクチャはRNNよりも柔軟性が高く、その後の予測は同一ネットワークの異なるセルによって行われる。 0.74
It is, therefore, possible to re-encode other information (not only the decoded output) into the decoder at each step. したがって、各ステップで他の情報(デコードされた出力だけでなく)をデコーダに再エンコードすることができる。 0.84
It is also possible to change the source sentence partially or completely (e.g., adding noise to increase robustness), condition on additional discrete or continuous information (§4) and change that information for different words, or even encode states given by the previous outputs. また、ソース文を部分的にあるいは完全に変更したり(例えば、強靭性を高めるためにノイズを追加する)、離散的または連続的な情報に条件を付け、異なる単語に対してその情報を変更したり、あるいは以前の出力で与えられた状態をエンコードしたりすることもできる。 0.66
One can also predict only tokens of interest, rather than the complete sequence. 完全なシーケンスではなく、興味のあるトークンだけを予測することもできる。 0.64
1Transformers do have gradients over-representation of past words, if they are fed into the network. 1Transformerは、ネットワークに入力された場合、過去の単語を過剰に表現する。 0.74
But unlike backpropagation through time, the preceding tokens can be changed. しかし、時間によるバックプロパゲーションとは異なり、前のトークンは変更できます。 0.64
Specifically, in our case, preceding tokens may have different representations at each generation step. 具体的には、この場合、前のトークンは各生成ステップで異なる表現を持つ可能性がある。 0.56
Nevertheless, the standard practice is to only re-encode past predictions.2 Moreover, existing Transformer implementations impose a further architectural bias, namely not allowing the decoders’ representation of a given token to attend to future tokens. それにもかかわらず、標準的なプラクティスは、過去の予測のみをエンコードすることである。2 さらに、既存のTransformerの実装では、さらなるアーキテクチャ上のバイアスが課されている。 0.58
Transformer models for MT mask attention in the following manner (as explained in (Vaswani et al., 2017); we did not find any alternative methods that were explored): token embeddings attend only to previously generated tokens, even when the following tokens are already known. MTマスク注意のためのトランスフォーマーモデル (Vaswani et al., 2017) では, トークン埋め込みは, 既に既知のトークンであっても, 以前に生成されたトークンにのみ対応している(Vaswani et al., 2017)。
訳抜け防止モード: mtマスク注意のための変圧器モデル(as) 解説 (vaswani et al ., 2017)。 ) ; 検討された他の方法を見つけられなかった。 :トークン埋め込みは,すでに次のトークンが知られている場合でも,以前に生成されたトークンにのみ対応します。
0.66
This practice “ensures that the predictions for position i can depend only on the known outputs at positions less than i.” この練習は、「位置 i の予測が i より小さい位置の既知の出力にのみ依存できることを保証する」。 0.71
The Transformer encoder is seen as sequentially producing a sequence of “columns”, one for each token. Transformerエンコーダは、トークン毎に1つずつ“カラム”のシーケンスをシーケンシャルに生成していると見なされる。 0.74
Each column takes past embeddings into account and the gradients direct past embeddings to be useful also for the current column. それぞれのカラムは過去の埋め込みを考慮に入れ、勾配は現在のカラムにも役立つように過去の埋め込みを指示します。 0.64
In a sense, the Transformer is viewed as an unrolled RNN. ある意味で、Transformerは、ロールされていないRNNと見なされる。 0.64
While improving computational efficiency, doing so introduces a bias into the model, which is unwanted for our purposes here. 計算効率を改善する一方で、それを行うとモデルにバイアスが発生します。
訳抜け防止モード: 計算効率を向上させます。 そうやって ここで私たちの目的のために不要であるモデルにバイアスを導入する。
0.67
Consider this simple motivating example “The Jaguar drove off”. この単純なモチベーションの例を“The Jaguar drove off”と考えてみましょう。 0.63
It seems plausible that a better representation of “Jaguar” may be computed if “drove” is taken into account. を考慮に入れれば、より優れた「ジャガー」の表現が計算される可能性はありそうに思える。
訳抜け防止モード: それはありそうに思える Jaguar ” のより優れた表現は,“ driven ” を考慮に入れれば計算することができる。
0.76
To reach this end, representation must be re-computed and improved, as further tokens are generated. この目的を達成するには、さらなるトークンが生成されるため、表現を再計算し、改善する必要がある。 0.52
We propose to allow tokens to attend to any known token (see Fig. トークンの既知のトークンへの参加を許可することを提案する(図参照)。 0.63
1), as done on the encoder side. 1)エンコーダ側で行うように。 0.63
Due to the motivational resemblance to Bidirectional RNN, we name it Bidirectional Transformer. 双方向RNNとモチベーションの類似性から、双方向トランスフォーマー(Bidirectional Transformer)と呼ぶ。 0.71
This is in symmetry to the encoder which is always bidirectional. これは、常に双方向であるエンコーダに対称です。 0.79
Formally, let X be a source sequence and O = o1 . 形式的には、X を元列とし、O = o1 とする。 0.60
. . on a predicted sequence. . . 予測されたシーケンスで 0.82
The attention in the vanilla Transformer decoder masks the attention of each token oi to attend to o1 . バニラトランスフォーマーデコーダの注意は、o1に出席する各トークンoiの注意をマスクします。 0.69
. . oi−1, while our implementation attends to o1 . . . oi−1,実装はo1に準拠している。 0.74
. . on. This change does not introduce any new parameters or hyperparameters, but still increases the expressivity of the model. . . どうぞ。 この変更は、新しいパラメータやハイパーパラメータは導入しないが、モデルの表現率を増加させる。 0.73
We note, however, that this modification does prevent some commonly implemented speed-ups relying on unidirectionality (e.g., in NEMATUS; Sennrich et al., 2017). しかしながら、この修正は、一方向性に依存して一般的に実装されているスピードアップ(例えば、NEMATUS; Sennrich et al., 2017)を防ぐことに留意する。 0.62
2This is true even in cases of bidirectional generation 2双方向生成の場合にも当てはまります。 0.73
(e.g., Zhang et al., 2018). (例:Zhang et al., 2018)。 0.62
英語(論文から抽出)日本語訳スコア
Figure 1: Illustration of the information re-encoded into the decoder with each method. 図1:各メソッドでデコーダに再エンコードされた情報のイラストレーション。 0.83
Left: Vanilla. Center: Bidirectional Decoder Right: Structural Decoder. 左:バニラ。 センター:双方向デコーダ右:構造デコーダ。 0.72
At a given step Bidirectional Decoder attends to all predicted words and Syntactic Transformer predicts edges and receives both edges and graph as input. あるステップで双方向デコーダは予測されたすべての単語に応答し、構文変換器はエッジを予測し、エッジとグラフの両方を入力として受信する。 0.60
3 Transition-based Structure Generation After setting the stage for a more flexible approach to Transformer decoding, we turn to describe how we represent structure within the proposed decoder. 3 トランジションベースの構造生成 トランスフォーマーデコーディングに対するより柔軟なアプローチのステージを設定した後、提案したデコーダ内の構造をどのように表現するかを説明します。 0.75
We take a transition-based approach to generate the target-side structure, motivated by the practical strength of such methods, as well as their sequential nature, which fits well with neural decoders. 神経デコーダに適合する逐次的な性質に加えて,そのような手法の実用的強度に動機付けられた目標側構造を生成するためのトランジッションベースアプローチを採用する。 0.75
A similar architecture, based on RNNs, was developed by Dyer et al. RNNをベースとした同様のアーキテクチャはDyerらによって開発された。 0.70
(2016). The decoder operates by reintroducing the partial syntax built at a certain timestep as input at the next timestep. (2016). デコーダは、ある時刻に構築された部分構文を次の時刻に入力として再導入することで動作する。 0.72
As edges and their tokens are not generated simultaneously (but rather by different transitions; see below), we rely on bidirectional attention to update the past embeddings when a new edge connects previously generated tokens.3 In this section, we will discuss the syntax we output and in the next §4 the ways we incorporate it back into the model. エッジとそのトークンは(しかし、異なる遷移によって)同時に生成されないので、私たちは、新しいエッジが以前に生成されたトークンを接続するときに、過去の埋め込みを更新するために双方向の注意を頼ります。
訳抜け防止モード: エッジとトークンは同時に生成されないため(むしろ異なるトランジションによって; 下記参照)。 我々は、新しいエッジが以前に生成されたトークンを接続するとき、過去の埋め込みを更新するために双方向の注意を頼りにしています。 この節では、出力する構文について論じます。 そして次の4では、それをモデルに組み込む方法です。
0.60
In this work, we use Universal Dependencies (UD; Nivre et al., 2016) to represent the targetside structure, but note that the framework can be easily adapted to other syntactic and semantic formalisms that have transition-based parsers, including a wide variety of semantic formalisms (Hershcovich et al., 2018; Oepen et al., 2020). 本研究では,Universal Dependencies (UD; Nivre et al., 2016) を用いて対象構造を表現するが,このフレームワークは,多種多様な意味論的形式主義(Hershcovich et al., 2018; Oepen et al., 2020)を含む,トランジションベースのパーサーを持つ他の構文的および意味論的形式主義に容易に適応できることに留意する。 0.78
We select UD due to its support of a wide variety of languages (over 100 to date) and its status as the defacto standard for syntactic representation in NLP. NLPにおける構文表現のデファクト標準として,多種多様な言語(現在まで100以上)がサポートされているため,UDを選択する。 0.75
We use the arc-standard transition system (Nivre, 2003), which can produce any projective tree. 我々は任意の射影木を生成できるarc-standard transition system (nivre, 2003) を用いる。 0.78
The only difference from the regular arcstandard is that we replace the SHIFT transition 通常のアークスタンダードとの違いは、SHIFTトランジションを置き換えることだけです。 0.69
3To be clear, we update the past embeddings after every 3過去の埋め込みを随時更新しています。 0.56
generation step. (that reads a token from the buffer into the stack) with a generation operation, that generates a new token. 世代別ステップ (これはバッファからスタックにトークンを読み込む) 生成操作で新しいトークンを生成する。 0.63
When a sub-word is generated, further tokens are generated until a full word is formed. サブワードが生成されると、フルワードが形成されるまでさらにトークンが生成される。 0.73
Formally, assume Σ is a stack of full words created and pushed into it. 形式的には、Σ は完全な単語のスタックであり、そこに押し込まれていると仮定する。 0.59
The possible tokens in the transitions are: tokens from the vocabulary that generates a new sub-word from a dictionary (replaces SHIFT); LEFT-ARC:label makes the top word in the stack Σ the head of the second word and removes the second; RIGHT-ARC:label makes the second word in the stack Σ the head of the top word and removes the top. トランジションの可能なトークンは、辞書から新しいサブワードを生成する語彙からのトークン(SHIFTを置き換える)。LEFT-ARC:labelはスタック内のトップワードを2番目の単語の先頭に置き、2番目の単語を削除します。RIGHT-ARC:labelはスタック内の2番目の単語をトップワードの先頭に置き、トップ単語を削除します。 0.74
An example translation sequence might be: 翻訳シーケンスの例は次のとおりです。 0.65
Thrill@@ ing paper LEFT-ARC:amod indeed RIGHT-ARC:advmod . Thrill@@ ing paper LEFT-ARC:amod indeed RIGHT-ARC:advmod 0.85
RIGHT-ARC:punct RIGHT-ARC:punct 0.78
That corresponds to the output: これは出力に対応します。 0.68
root amod advmod root アモッド advmod 0.74
punct Thrill@@ ing punctāte Thrill@@ ing 0.74
paper indeed . The transitions are added to the vocabulary of the network. 紙 確かに . 遷移はネットワークの語彙に追加される。 0.74
This allows the network to select in the sequence when to create a new word and when to connect words in the graph. これにより、ネットワークは、新しい単語を作成するときと、グラフ内の単語を接続する時をシーケンスで選択できる。 0.81
There are 45 labels and two directions of connections, summing up to 90 new tokens. 45のラベルと2つの接続方向があり、90の新しいトークンを合計します。 0.72
This hardly affects the vocabulary size, which usually consists of tens of thousands of tokens. これは、通常数万のトークンからなる語彙のサイズにはほとんど影響しない。 0.81
We treat both token and transition predictions in the same way, and do rescale their score as done in Stanojevi´c and Steedman (2020). 我々はトークンと遷移予測の両方を同じように扱い、Stanojevi ́c と Steedman (2020) で行ったようにスコアを再スケールする。 0.75
英語(論文から抽出)日本語訳スコア
It is possible to split the tokens to edges and labels (summing to 47), but this increases the length of the sentences unnecessarily, which is costly in terms of memory consumption. トークンをエッジとラベルに分割することは(47と仮定して)可能だが、これはメモリ消費の面でコストのかかる文の長さを不要に増加させる。 0.76
We did not experiment with other methods for encoding the transitions (e.g., embedding labels and edges separately, concatenating, and adding them as token embeddings). 遷移を符号化するための他の方法(例えばラベルとエッジを別々に埋め込み、連結し、それらをトークン埋め込みとして追加するなど)は実験しなかった。 0.70
We made two practical choices when creating the graph. グラフを作成する際に2つの実用的な選択をした。 0.56
First, we deleted the root edge, as the root is not a word in the translation. まず、根は翻訳中の単語ではないため、根端を削除しました。 0.64
Second, we train only on projective parses. 第二に、射影解析のみを訓練する。 0.57
This choice reduces noise due to the low reliability of current non-projective parsers (Fernández-González and Gómez-Rodríguez, 2018), while not losing many training sentences. この選択は、現在の非プロジェクティブパーサー(Fernández-GonzálezとGómez-Rodríguez、2018)の信頼性の低いためノイズを減らすが、多くの訓練文は失われない。 0.55
We do note, however, that this choice is not without its problems: it might be less fitting for some languages in which non-projective sentences are common. しかし、この選択には問題がないわけではなく、非プロジェクティブな文が一般的である言語には適さないかもしれないことに留意する。 0.66
4 Regressing on Generated Structure 4 生成構造への回帰 0.87
As discussed in §2, the state-less nature of the Transformer allows re-encoding not only the previous predictions, but any information that can be computed based on the previous predictions. 2で説明したように、Transformerのステートレスな性質は、以前の予測だけでなく、以前の予測に基づいて計算できる情報を再符号化することができます。 0.63
So far we proposed a network to predict syntax as a sequence. これまで、構文をシーケンスとして予測するネットワークを提案しました。 0.67
Converting the output sequence to a graph could be done deterministically, so there is no point training a network to do so. 出力シーケンスをグラフに変換することは決定論的に可能であるため、ネットワークをトレーニングするポイントは存在しない。 0.84
Before generating the next transition, we generate the intermediate graph based on the transitions hitherto generated. 次の遷移を生成する前に、生成した遷移に基づいて中間グラフを生成する。 0.81
The graph is then added as input to a designated architecture. グラフは指定されたアーキテクチャへの入力として追加される。 0.70
Overall, the input to the network at each step is the source sentence, the predicted tokens, and the intermediate labeled graph. 全体として、各ステップでネットワークへの入力は、ソース文、予測されたトークン、および中間ラベル付きグラフです。 0.77
We employ a tree/graph encoder for re-encoding the intermediate graph into the network. 中間グラフをネットワークに再エンコードするためにツリー/グラフエンコーダを用いる。 0.78
The graph terminals are not only tokens but also the transition tokens. グラフ端末はトークンだけでなく、トランジショントークンでもあります。 0.68
The transition tokens are not connected by edges, which may result in sub-optimal representations for them. 遷移トークンはエッジによって接続されないため、それらに対する準最適表現が生じる可能性がある。 0.61
Hence, for each edge created by a transition token, the transition token mediates between the head and the dependent, creating new edges between each of them and the transition token. 従って、トランジショントークンによって生成された各エッジに対して、トランジショントークンは、ヘッドと依存の間の仲介を行い、それぞれのエッジとトランジショントークンの間に新たなエッジを生成する。 0.60
For each transition token p that generates a new edge (h, d, t), an edge (h, p, t) and an edge (p, d, t) are added to the graph. 新しいエッジ(h, d, t)を生成する各遷移トークンpに対して、エッジ(h, p, t)とエッジ(p, d, t)がグラフに追加される。 0.77
This allows better use of the transition tokens and embedding of the edges and types. これにより、トランジッショントークンのより良い使用とエッジと型の埋め込みが可能になる。 0.57
Overall, the graph input takes the shape of a sparse matrix W ∈ RT×T , where T is the number of ter- 全体として、グラフ入力は、T が ter- の数であるスパース行列 W ∈ RT×T の形を取る。 0.79
minals. Another issue with the parse graph is that edges connect words and not tokens. マイナスだ parse graphのもうひとつの問題は、エッジがトークンではなく単語をつなぐことだ。 0.44
During preprocessing, some words are split into subwords. 前処理の間、いくつかの単語はサブワードに分割される。 0.53
Hence, given an edge (h, d, t), we duplicate edges and connect every subword hi ∈ h to every subword dj ∈ d by an edge (hi, dj, t), forming a complete bipartite graph between the sub-words. したがって、エッジ (h, d, t) が与えられたとき、すべてのサブワード hi ∈ h をエッジ (hi, dj, t) によってすべてのサブワード dj ∈ d に接続し、サブワード間の完全な二部グラフを形成する。 0.85
Our approach is modular and allows for any graph encoding method that is compatible with the Transformer architecture to be used. 当社のアプローチはモジュール化されており、Transformerアーキテクチャと互換性のあるグラフエンコーディングメソッドを使用できます。 0.78
We here report experiments with two prominent methods for introducing a graph structure to the source side. 本稿では、ソース側にグラフ構造を導入する2つの重要な方法による実験を報告する。 0.67
GCN Encoder. Graph Convolutional Networks (GCN; Kipf and Welling, 2016) are a type of graph neural network that aims at embedding a graph in a network. GCNエンコーダ。 グラフ畳み込みニューラルネットワーク(Graph Convolutional Networks、GCN; Kipf and Welling, 2016)は、グラフをネットワークに埋め込むことを目的としたグラフニューラルネットワークの一種である。 0.76
GCNs were used effectively to encode source-side syntactic and semantic structure for NMT (Bastings et al., 2017; Marcheggiani et al., 2018). GCNは、NMT(Bastings et al., 2017; Marcheggiani et al., 2018)のソース側構文と意味構造をエンコードするために有効に使用された。 0.74
The network learns weights for each type of edge and edge label, and applies them only on the embeddings from the previous layer that are connected to the currently embedded token by the edge of the relevant type and label. ネットワークは各タイプのエッジラベルとエッジラベルの重みを学習し、関連するタイプとラベルのエッジによって現在埋め込まれているトークンに接続されている以前のレイヤからの埋め込みにのみ適用します。 0.85
The network also contains gates allowing less emphasis or even partially ignoring the syntactic cue if the network chooses so. ネットワークはゲートも含み、ネットワークがそれを選んだ場合、強調度を下げたり、シンタクティックキューを部分的に無視したりする。 0.56
This is assumed to help in the case of noisy edges which we expect to be generated in our setting more than in regular parsing scenarios. これは、通常の解析シナリオよりも、我々の設定で生成されるであろうノイズの多いエッジの場合に役立つと仮定される。 0.67
We conduct ablation experiments to assess its impact in §6.2. 6.2でその影響を評価するためにアブレーション実験を行う。 0.59
Following Kipf and Welling (2016), we introduce three types of edges into the GCN. KipfとWelling(2016)に続いて、GCNに3種類のエッジを導入します。 0.69
Self typed edges are edges from each token to itself, while Left and Right are edges to and from the parent tokens respectively. セルフタイプされたエッジは各トークンからそれ自身へのエッジであり、左と右はそれぞれ親トークン間のエッジです。 0.72
Left and Right encode the directionality of the edges and Self the representation of the token itself in the previous layer. 左と右はエッジの方向性をエンコードし、自己はトークン自体を前のレイヤで表現する。 0.68
For a GCN layer over input layer h, a node v and a graph G containing nodes of size d, with activation function ρ, edge directions dir, labels lab, and a function N from a node in the graph to its neighbors is 入力層h上のGCN層に対しては、活性化関数ρ、エッジ方向dr、ラベルラボ、およびグラフ内のノードから隣り合うノードへの関数Nを含むノードvと、サイズdのノードを含むグラフGが用いられる。 0.81
(cid:32) (cid:88) (cid:32)(cid:88) 0.73
u∈N (v) (cid:33) u∈N (v) (cid:33) 0.81
gcn(h, v, G) = ρ gcn(h, v, G) = ρ 0.85
gu,v · fu,v gu,v · fu,v 0.85
where fu,v are graph weighted embedding: fu,vはグラフで重み付けされた埋め込みです 0.63
fu,v =(cid:0)Wdir(u,v) hu + blab(u,v) fu,v =(cid:0)Wdir(u,v) hu + blab(u,v) 0.93
(cid:1) (cid:1) 0.78
英語(論文から抽出)日本語訳スコア
and gu,v is the applied gate: そしてgu,vは応用ゲートです 0.61
(cid:16) gu,v = σ (cid:16) gu,v = σ 0.82
hu · ˆwdir(u,v) + ˆblab(u,v) hu · swdir(u,v) + sblab(u,v) 0.80
(cid:17) where σ is the logistic sigmoid function and ˆwdir(u,v) ∈ Rd, W ∈ Rd×d, ˆblab(u,v) ∈ R, b ∈ Rd are the learned parameters for the GCN. (cid:17) ここで σ はロジスティックなシグモイド関数であり、シュヴディル(u,v) ∈ Rd, W ∈ Rd×d, シュブラブ(u,v) ∈ R, b ∈ Rd はGCNの学習パラメータである。 0.79
Attending to Parent Token. 親トークンに参加する。 0.66
An alternative reencoding method operates by dedicating one of the attention heads to attend only to the parent(s) of the given token. 代替のリエンコード方法は、指定されたトークンの親にのみ出席するように注意ヘッドの1つを捧げることによって動作します。 0.63
In common approaches, the parent is given by an external parser (Hao et al., 2019) or learned locally, learning to predict the identity of the parent for each token in each layer, by assigning it most of the attention weight (Strubell et al., 2018). 一般的なアプローチでは、親は外部のパーサー(Hao et al., 2019)によって与えられるか、ローカルに学習され、各層におけるトークンごとの親の同一性を予測することを学習する(Strubell et al., 2018)。 0.72
Unlike such approaches, we rely on the predicted graph to provide the parents. このようなアプローチとは異なり、両親を提供するために予測グラフに依存します。 0.67
A parent might not be unique as discussed at the beginning of this section. この節の冒頭で述べたように、親は独特ではないかもしれない。 0.55
Moreover, at a given time, a parent may have not yet been generated. さらに、ある時点では、親が生成されていない可能性がある。 0.68
Therefore, we mask all but the parent(s) and the token itself. したがって、親(s)とトークン自身以外はすべてマスクします。 0.69
By attending the token, the network can ignore the parent when preferable. トークンに参加することで、ネットワークは好ましくても親を無視できます。 0.65
Parent attention differs from GCN encoders considerably. 親の注意はGCNエンコーダと大きく異なる。 0.66
On the one hand, they require minimal changes to the Transformer architecture. 一方で、トランスフォーマーアーキテクチャの変更を最小限に抑える必要がある。 0.71
They require much fewer hyperparameters than GCNs and they affect all layers of the network, serving as an attention head rather than an additional embedding. それらはgcnよりもはるかに少ないハイパーパラメータを必要とし、ネットワークの全層に影響し、追加の埋め込みではなく、注意ヘッドとして機能する。 0.60
On the other hand, parent attention does not represent labels, uses the Transformer architecture rather than introduces a dedicated one, and represents the parents rather than the whole graph, specifically children. 一方、親の注意はラベルを表すものではなく、専用のものを導入するのではなく、Transformerアーキテクチャを使用し、グラフ全体、特に子どもを表現している。 0.75
Considering both architectures shows how most suggestions to improve the Transformer encoder (Bastings et al., 2017) may be easily adapted to apply to the decoder. どちらのアーキテクチャも、Transformerエンコーダ(Bastings et al., 2017)を改善するための提案が、デコーダにどのように適応するかを示している。 0.72
It thus demonstrates the flexibility of the proposed framework for exploring methods for structure-aware NMT. これにより,構造対応NMTの手法を探索する上で,提案するフレームワークの柔軟性を示す。 0.68
5 Experimental Setup We experimented on three target languages using De-En, En-De and En-Ru pairs. 5 実験的なセットアップ De-En、En-De、En-Ruのペアを使用して3つのターゲット言語を実験した。 0.52
We used WMT16 data (Bojar et al., 2016) for En-De pair, and either News commentary or Wmt20 data (Barrault et al., 2020) for En-Ru. We used WMT16 data (Bojar et al., 2016) for En-De pair, and the News commentary or Wmt20 data (Barrault et al., 2020) for En-Ru。 0.97
As test sets, we used newstest 2013, 2014 and 2015 for German and Russian. テストセットとして、私達はドイツおよびロシアのために newstest 2013 2014 年および 2015 を使用しました。 0.67
For development, we used newstest 2012. 開発にはnewstest 2012を使用しました。 0.73
We used UDPipe English and German over UD 2.0 and Russian with 2.5 with syntagrus version. UDPipe English and German over UD 2.0 and Russian with 2.5 with syntagrus version。 0.86
We report results with both BLEU and chrF+, and carry out evaluation both on the complete test set, as well as on the challenge sets extracted by Choshen and Abend (2019). BLEUとchrF+の両方で結果を報告し、完全なテストセットとChoshen and Abend(2019)によって抽出されたチャレンジセットの両方で評価を行います。 0.67
The challenge sets focus on sentences that contain lexical longdistance dependencies, cases where two or more words that are not contiguous in the source sentence are translated into a single word. 課題セットは、語彙的長距離依存を含む文に焦点を当て、原文に連続しない2つ以上の単語が1つの単語に翻訳される場合である。 0.79
For example, “trat” in German translates to “stepped”, but “trat ... entgegen” translates to “confronted” (and there may be an unbounded number of intervening tokens between the two parts). 例えば、ドイツ語の「trat」は「stepped」に翻訳されますが、「trat ... entgegen」は「confronted」に翻訳されます(そして、2つの部分の間には無制限の介入トークンがあるかもしれません)。 0.60
The challenge sets consist of three test sets for English as the source language, and two for German as the source language. チャレンジセットは、英語をソース言語とする3つのテストセットと、ドイツ語をソース言語とする2つのテストセットで構成されている。
訳抜け防止モード: チャレンジセットは、ソース言語としての英語のための3つのテストセットで構成される。 ソース言語はドイツ語です。
0.75
For each phenomenon, they extract a large test set from the sizable books corpus (Tiedemann, 2012), and a smaller one from the news domain (Barrault et al., 2020). 各現象について、彼らは膨大な本コーパス(Tiedemann, 2012)から大きなテストセットを抽出し、ニュースドメイン(Barrault et al., 2020)から小さなテストセットを抽出します。 0.76
Improving the automatic measures on one such challenge set indicates better performance on a specific phenomenon, while better overall performance implies better handling of lexical long-distance dependencies. そのような課題セットに対する自動測定の改善は、特定の現象に対するより良いパフォーマンスを示し、全体的なパフォーマンスの改善は、語彙的長距離依存性のより良い処理を意味する。
訳抜け防止モード: そのような課題に対する自動対策の改善 特定の現象について より良いパフォーマンスを示す一方で 全体的なパフォーマンスが向上すると、語彙長-距離依存の扱いが向上する。
0.66
Networks are all trained with batch size 128, embedding size 256, 4 decoder and encoder blocks, 8 attention heads (one of which might be a parent head §4), 90K steps (where empirically some saturation is achieved), a learning rate of 1e−4 with 4K warm-up steps, Optimizing through Adam (Kingma and Ba, 2015) with beta 0.9 and 0.999 for the first and second moment and epsilon of 1e−8. ネットワークは、バッチサイズ128、エンベッドサイズ256、4デコーダおよびエンコーダブロック、8アテンションヘッド(親ヘッドである可能性がある)、90kステップ(ある程度の飽和が達成される)、学習レート1e−4、4kウォームアップステップ、adam (kingma and ba, 2015)、ベータ0.9と0.999による最適化、1e−8のエプシロンで訓練される。 0.69
We use the standard (structure-unaware) Transformer encoder in all our experiments. 私たちはすべての実験で標準(構造不明)トランスフォーマーエンコーダを使用します。 0.70
Each model was trained on 4 NVIDIA Tesla M60 or RTX 2080Ti GPUs for approximately a week. それぞれのモデルはnvidia tesla m60またはrtx 2080ti gpuで約1週間トレーニングされた。 0.77
The code is adapted from the NEMATUS code repository (Sennrich et al., 2017) . コードは NEMATUS code repository (Sennrich et al., 2017) から適応されている。 0.79
Preprocessing includes truecasing, tokenization as implemented by Moses (Koehn et al., 2007) and byte pair encoding (Sennrich et al., 2016b) without tying. 前処理には、真偽、モーゼ(Koehn et al., 2007)によるトークン化、およびバイトペア符号化(Sennrich et al., 2016b)が含まれる。 0.72
Empty source or target sentences were dropped. ソースまたはターゲットの文が削除された。 0.58
In training, the maximum target sentence length is 40 non-transition tokens (BPE). トレーニングでは、最大目標文長は40の非遷移トークン(BPE)である。 0.75
Whenever noisy and crawled data is used (WMT20 and Opus corpora) we have found filtering to be crucial for even the baselines to show reasonable results. ノイズやクロールデータを使用する場合(WMT20とOpus corpora)、ベースラインでさえ適切な結果を示すのにフィルタリングが不可欠であることが分かりました。 0.65
Specifically, we filter sentences not recognized as belonging to the relevant language by langID (Lui and Baldwin, 2012) or aligned by FastAlign (Dyer et al., 2013) with probability -180 or less. 具体的には、langID(Lui and Baldwin, 2012)またはFastAlign(Dyer et al., 2013)で関連言語に属すると認識されていない文章を確率180以下でフィルタリングします。 0.83
Overall, about half the sentences were filtered by those measures or by 概して 約半数の文章は これらの措置や 0.48
英語(論文から抽出)日本語訳スコア
length. We use chrF++.py with 0 words and beta of 3 to obtain the chrF+ (Popovic, 2017) score as in WMT19 (Ma et al., 2019) results and detokenized BLEU (Papineni et al., 2002) as implemented in Moses. 長さ We use chrF++.py with 0 words and beta of 3 to obtained chrF+ (Popovic, 2017) score as in WMT19 (Ma et al., 2019) results and detokenized BLEU (Papineni et al., 2002) as implemented in Moses。 0.83
We use two automatic metrics: BLEU as the standard measure and chrF+ as it was shown to better correlate with human judgments, while still being simple and understandable (Ma et al., 2019). bleuを標準尺度として,chrf+を人間の判断とよく関連付けると同時に,シンプルかつ理解可能な指標として使用する(ma et al., 2019)。
訳抜け防止モード: 2つの自動測度: BLEU を標準測度とし、chrF+ を標準測度とする。 人間の判断と相関性を示すことが示されました シンプルで理解しやすい(Ma et al ., 2019)。
0.72
Both metrics rely on n-gram overlap between the source and reference, where BLEU focuses on word precision, and chrF+ balances precision and recall and includes characters, as well as word n-grams. どちらの指標もソースと参照のn-gram重なりに依存しており、bleuは単語の精度を重視し、chrf+は精度と文字のリコールと文字を含む。 0.65
Unable to identify a preexisting implementation, we implemented labeled sparse GCNs with gating in Tensorflow. 既存の実装を識別できないため,テンソルフローのゲーティングを付加したラベル付きスパースGCNを実装した。 0.52
Implementation mostly focused on memory considerations, and was optimized for runtime when possible. 実装は主にメモリの考慮にフォーカスし、可能であればランタイムに最適化された。 0.57
6 Experiments We now proceed to assess the contribution of the different parts of the architecture. 6 実験 私たちは現在、アーキテクチャのさまざまな部分の貢献を評価しています。 0.72
We start by assessing the contribution of bidirectional attention, experimenting with En-De and De-En translations (§6.1). まず,双方向注意の寄与度を評価し,en-de と de-en の翻訳実験を行った(6.1)。 0.60
Then, the contribution of the component parts of the system is assessed in §6.2 through ablation experiments. その後、系の成分部分の寄与はアブレーション実験により6.2で評価される。 0.78
6.1 Results on En-De and De-En Our main results on En-De and De-En are presented in Table 1. 6.1 En-DeとDe-Enの結果を表1に示します。 0.66
Results show that both on EnDe and De-En (see also En-RU in §6.3), the UDbased decoders (GCN and Parent rows) show better performance over the vanilla decoder. EnDeとDe-Enの両方(6.3のEn-RUも参照)で、UDベースのデコーダ(GCNとペアレント行)はバニラデコーダよりも優れたパフォーマンスを示しています。 0.64
We also see a slight advantage to the GCN decoder on DeEn, and an advantage to Parent on En-De. また、DeEnのGCNデコーダにわずかな利点があり、En-DeのParentにも利点があります。 0.70
Table 2 presents results on the challenge sets. 表2は、チャレンジセットの結果を示します。 0.75
We find that in all German to English and 9 of 12 cases in English-German the syntactic variants improve over the non-syntactic variants (whether unidirectional or not). ドイツ語から英語への全例、英語とドイツ語の12例中9例において、構文的変種は非シンタクティック変種(一方向か否かに関わらず)よりも改善されていることが判明した。 0.51
When considering the syntactic variants together, they invariably outperform the vanilla decoder, one of which scores best in most challenges and test sets. 構文の変種を一緒に考えると、彼らは常にバニラデコーダを上回っており、その1つがほとんどの課題やテストセットで最高のスコアである。 0.53
6.2 Ablation Experiments In order to better understand the contribution of different parts of the architecture and to compare them, we consider various ablated versions. 6.2 アブレーション実験 アーキテクチャのさまざまな部分のコントリビューションをよりよく理解し、比較するために、様々な短縮バージョンを検討します。 0.73
In one, we train the Transformer over a series of transitions. 内 ひとつは、Transformerを一連のトランジションでトレーニングすることです。 0.63
This is reminiscent of the approach taken by (Aharoni and Goldberg, 2017b; Nadejde et al., 2017), albeit with a different type of linearization. これは、異なるタイプの線形化を伴うアプローチ(Aharoni and Goldberg, 2017b; Nadejde et al., 2017)を想起させる。 0.71
This variant corresponds to the Linearized in Tables 1 and 2. この変種は表1と表2の線形化に対応する。 0.79
The results of this experiment are mixed. この実験の結果は混合されている。 0.79
Overall results are not better than bi/unidirectional Transformer. 全体的な結果はbi/一方向トランスフォーマーほど良くない。 0.59
In terms of BLEU, they are also lower, while on all syntactic challenge sets it does improve. BLEUに関しては、それらも低いが、すべての構文的課題セットでは改善される。 0.66
That shows that while overall cases did not improve, the network did manage to better cope with the challenging syntactic sentences. その結果、全体的なケースは改善されなかったが、ネットワークは難解な構文文に対処することができた。 0.65
Moreover, it shows that improvement in the average score does not guarantee improvement over the challenge sets, which target rare but potentially important phenomena in the long tail. さらに, 平均スコアの改善は, 長い尾の稀だが潜在的に重要な現象を標的とした課題セットよりも改善が保証されないことを示す。 0.81
We turn to experimente with ablated versions of the GCN decoder, and compare them against the full GCN decoder. 我々は、gcnデコーダのアブレーションバージョンを実験し、それらを完全なgcnデコーダと比較する。
訳抜け防止モード: 我々はGCNデコーダの短縮バージョンを試す。 そして、それらを完全なGCNデコーダと比較する。
0.68
The ablated versions are denoted Unlabeled, which ignores the labels of the graph, and relies only on the graph structure. 短縮版はUnlabeledと表記され、グラフのラベルを無視し、グラフ構造のみに依存する。
訳抜け防止モード: 省略されたバージョンはUnlabeledと表記されます。 グラフのラベルを無視し、グラフ構造のみに依存します。
0.80
The last, denoted Ungated, also relies solely on the graph structure but does not include the gating in the architecture. 最後に示されるUngatedは、グラフ構造のみに依存しますが、アーキテクチャのゲーティングは含まれていません。 0.74
Gating was hypothesized to be important to avoid over-reliance on the graph in cases of errors (Bastings et al., 2017; Hao et al., 2019). ゲーティングは、エラー(Bastings et al., 2017; Hao et al., 2019)の場合のグラフの過度な信頼性を避けるために重要であると仮定された。 0.75
As our graphs are generated by the network, rather than fed into it by an external parser, this is a good place to check this hypothesis. 私たちのグラフは、外部パーサではなくネットワークによって生成されるので、この仮説をチェックするのに適しています。 0.69
We find that labels hardly contribute to the results, accounting for a 0.09 BLEU change on average in En-De and none on De-En. 結果にはラベルがほとんど寄与せず、平均で0.09 bleu 変化があり、de-en にはない。 0.67
We note, that interpreting this result is not trivial, and one should not conclude, based on these results alone that syntactic labels are redundant. この結果の解釈は自明なものではなく、構文ラベルが冗長であることのみに基づいて結論付けるべきではないことに留意する。 0.68
There are two technical points to consider. 考慮すべき技術的ポイントは2つある。 0.71
First, the labels are still found as tokens from past predictions, and hence have token embeddings which might compensate for the GCN architecture’s disregard of labels. まず、ラベルはいまだに過去の予測からのトークンとして見出されており、そのためGCNアーキテクチャのラベルの無視を補うトークンの埋め込みがある。 0.62
Second, the role of the labels in GCNs is small, as they contribute a large number of hyperparameters while only changing a bias term, it is likely that this is an inefficient way of using labels which should be addressed in future work. 第二に、GCNにおけるラベルの役割は小さく、バイアス項だけを変更しながら多数のハイパーパラメータに貢献するため、これは将来の作業で対処されるべきラベルを使用する非効率的な方法である可能性が高い。 0.78
Unlike labels, gating appears to be crucial to the results. ラベルとは異なり、ゲーティングは結果に不可欠であるようだ。 0.63
The Ungated models achieve lower results than the Unlabeled variants in 8/10 cases in both directions and an overall lower BLEU. Ungatedモデルは、両方の方向で8/10ケースと全体的な低いBLEUでUnlabeledバリアントよりも低い結果を達成します。 0.63
This might indirectly support the hypothesis that when the parse contains errors, it is important to allow これは、パースがエラーを含む場合、許可することが重要であるという仮説を間接的にサポートするかもしれない。 0.47
英語(論文から抽出)日本語訳スコア
2013 2014 2015 2013 2014 2015 0.85
Average BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU 18.82 18.88 18.99 18.91 平均 BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU 18.82 18.99 18.91 0.74
47.37 47.60 48.27 48.25 47.37 47.60 48.27 48.25 0.45
45.57 45.67 46.55 46.23 45.57 45.67 46.55 46.23 0.45
20.99 20.82 21.56 21.37 20.99 20.82 21.56 21.37 0.45
47.56 47.65 48.97 48.68 47.56 47.65 48.97 48.68 0.45
19.38 19.47 19.36 19.59 19.38 19.47 19.36 19.59 0.45
19.73 19.72 19.97 19.96 19.73 19.72 19.97 19.96 0.45
chrF+ 46.83 46.97 47.93 47.72 chrF+ 46.83 46.97 47.93 47.72 0.47
Vanilla BiTrans Parent GCN Vanilla BiTrans親GCN 0.78
-Gates -Labels 18.70 18.86 -ゲーツ-ラベル 18.70 18.86 0.52
48.40 45.93 48.51 46.21 (a) Test sets for English-German translation 48.40 45.93 48.51 46.21 (a)英語-ドイツ語翻訳のためのテストセット 0.56
47.92 48.09 47.92 48.09 0.50
20.98 20.94 20.98 20.94 0.50
19.20 19.51 19.20 19.51 0.50
19.63 19.77 19.63 19.77 0.50
47.42 47.61 47.42 47.61 0.50
Vanilla BiTrans Parent GCN Vanilla BiTrans親GCN 0.78
2013 2014 2015 2013 2014 2015 0.85
Average BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU 22.90 23.02 23.36 23.28 平均 BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU 22.90 23.02 23.36 23.28 0.69
47.93 48.21 48.80 48.85 47.93 48.21 48.80 48.85 0.45
22.93 22.94 23.08 23.51 22.93 22.94 23.08 23.51 0.45
22.72 22.75 22.68 22.79 22.72 22.75 22.68 22.79 0.45
48.22 48.65 49.07 49.39 48.22 48.65 49.07 49.39 0.45
47.89 48.35 48.93 49.39 47.89 48.35 48.93 49.39 0.45
22.85 22.90 23.04 23.19 22.85 22.90 23.04 23.19 0.45
Linearized -Gates -Labels Linearized -Gates -Labels 0.78
21.95 23.19 23.20 21.95 23.19 23.20 0.47
48.62 48.87 49.04 (b) Test sets for German-English translation 48.62 48.87 49.04 (b)ドイツ語翻訳のためのテストセット 0.63
22.20 22.94 23.14 22.20 22.94 23.14 0.47
21.83 22.78 22.59 21.83 22.78 22.59 0.47
49.22 49.31 49.39 49.22 49.31 49.39 0.47
49.09 49.03 49.20 49.09 49.03 49.20 0.47
21.99 22.97 22.98 21.99 22.97 22.98 0.47
chrF+ 48.01 48.41 48.93 49.21 chrF+ 48.01 48.41 48.93 49.21 0.47
48.98 49.07 49.21 48.98 49.07 49.21 0.47
Table 1: Results on English to German (Top) and German to English (Bottom) translation systems. 表1: 英語からドイツ語(トップ)、ドイツ語から英語(ボット)への翻訳システムの結果。 0.81
Results are reported on newstest 2013-15. 結果は newstest 2013-15 で報告されます。 0.63
Ablated models include the Transformer decoder with linearized syntax (Linearized), GCN without labels or gating (-Gates) and GCN without labels (-Labels). 抽象モデルには、線形化された構文(Linearized)を持つTransformerデコーダ、ラベルやゲーティング(-Gates)のないGCN、ラベルのないGCN(-Labels)が含まれる。 0.69
The syntactic variants consistently outperfom the vanilla and ablated variants, and the Bidirectional Transformer (BiTrans) slightly outperforms Vanilla Transformer. 構文上の変種はバニラと短縮された変種を一貫して上回り、Bidirectional Transformer (BiTrans) はバニラ・トランスフォーマーをわずかに上回っている。 0.59
the network not to rely on it. ネットワークはそれを頼りにしません 0.75
It also hints at a possible improvement for the Parent model, by introducing similar mechanisms to it. また、同様のメカニズムを導入することで、親モデルの改善の可能性も示唆している。 0.71
A small but consistent improvement is observed when using the bidirectional attention alone (see also En-RU in §6.3). 双方向の注意を単独で使用する場合、小さいが一貫性のある改善が観察される(6.3のEn-RUも参照)。 0.62
Indeed, the bidirectional attention model outperforms the vanilla Transformer in two of the three En-De datasets and in the three De-En ones in terms of BLEU scores, and in all datasets in terms of chrF+. 実際、双方向の注意モデルは、3つのEn-Deデータセットの2つとBLEUスコアの3つのDe-Enデータセット、およびすべてのデータセットのchrF+でバニラトランスフォーマーを上回っています。 0.60
We observe a similar trend in the challenge sets (Table 2): bidirectional attention improves results in fifteen of twenty syntactic challenge set scores across both translation directions. 我々は、課題セット(表2)で同様の傾向を観察します:双方向の注意は、両方の翻訳方向にわたって20のシンタクティックチャレンジセットスコアの15の結果を改善します。 0.71
We may conclude and say that bidirectionality by itself is beneficial to some extent, in general, and specifically for aggregating the syntactically correct context tokens. 結論として、双方向性自体がある程度、一般に、特に構文的に正しいコンテキストトークンを集約するのに有益であると言えるかもしれない。
訳抜け防止モード: 概して、双方向性自体がある程度有益である、と結論付けて述べることができる。 特に構文的に正しいコンテキストトークンを集約するために。
0.65
As a next step, we compare GCN and its ablated versions to Parent attention. 次のステップとして、GCNとその短縮バージョンと親の注意を比べます。 0.62
Like unlabeled GCNs, Parent does not rely on the labels and pro- ラベルなしのGCNと同様に、Parentはラベルやプロに依存しない。 0.58
vides a different way to incorporate the graph, which is shown to be successful without the labels. vides は、ラベルなしで成功することが示されているグラフを組み込む別の方法を示します。 0.76
We remind that while labels are not incorporated, they are still found as input tokens, and are attended to by the attention heads. ラベルは組み込まれていないが、それでも入力トークンとして存在し、注意ヘッドが出席していることを思い出します。 0.61
Comparing the two architectures, Parent attention shows significant gains over Unlabeled GCN. 2つのアーキテクチャを比較すると、Parentの注目は、Unlabeled GCNよりも大幅に向上している。 0.46
Despite being easier to implement and being much lighter in terms of memory, time and hyerparameters, Parent outperforms Unlabeled GCN in both performance and specific challenges. メモリ、時間、ハイアパラメータの点で実装が容易で、より軽量であるにもかかわらず、Parentはパフォーマンスと特定の課題の両方において、Unlabeled GCNより優れています。 0.47
It outperforms Unlabeled GCN in terms of BLEU in most test sets on English-German and all chrF+. BLEUは、英語とドイツ語のほとんどのテストセットとすべてのchrF+において、無ラベルGCNよりも優れている。 0.57
On EnglishGerman Parent is slightly better but it is slightly worse in German-English. 英語圏では親はやや劣るが、ドイツ語圏ではやや劣る。 0.69
It improves 3 out of the 5 German-English phenomena and non of the English-German when compared to the GCN variant. ドイツ語の5つの現象のうち3つを改良し、GCNの変種と比較して英語以外の現象も改善している。 0.62
These results paint a rough picture of a precedence: where Parent fares bests, then GCNs, then bidirectional attention, and finally the vanilla uni- これらの結果は、親が最善を尽くし、gcnを出し、双方向の注意を払い、最後にバニラユニを描きます。
訳抜け防止モード: これらの結果は、優先順位の粗い絵を描きます。 親は最高のお別れ、次にGCN、そして双方向の注意、そして最後にバニラユニ
0.61
英語(論文から抽出)日本語訳スコア
Vanilla BiTrans Parent GCN Vanilla BiTrans親GCN 0.78
Linearized -Gates -Labels Linearized -Gates -Labels 0.78
Particle Reflexive News 粒子 反射 ニュース 0.72
Books BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU chrF+ 44.31 45.16 46.22 46.36 BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU chrF+ 44.31 45.16 46.22 46.36 0.59
19.68 19.87 20.97 20.68 19.68 19.87 20.97 20.68 0.45
25.73 25.84 26.55 26.11 25.73 25.84 26.55 26.11 0.45
26.54 26.51 27.25 26.57 26.54 26.51 27.25 26.57 0.45
44.20 44.35 45.48 46.06 44.20 44.35 45.48 46.06 0.45
17.79 18.58 19.66 20.13 17.79 18.58 19.66 20.13 0.45
6.83 6.80 7.49 7.11 6.83 6.80 7.49 7.11 0.45
7.15 7.02 7.82 7.32 7.15 7.02 7.82 7.32 0.45
Books News 26.91 7.62 7.75 著書 ニュース 26.91 7.62 7.75 0.60
19.20 27.04 27.46 19.20 27.04 27.46 0.47
20.25 26.51 26.80 (a) Syntactic challenge sets for German-English 20.25 26.51 26.80 (a)ドイツ語-英語の構文チャレンジセット 0.58
7.27 45.54 45.77 7.27 45.54 45.77 0.47
26.34 7.38 7.44 26.34 7.38 7.44 0.47
45.41 19.71 19.01 45.41 19.71 19.01 0.47
46.12 20.74 20.81 46.12 20.74 20.81 0.47
46.35 46.51 46.35 46.51 0.50
Preposition Stranding Preposition Stranding 0.85
Particle Reflexive Vanilla BiTrans Parent GCN 粒子 反射 Vanilla BiTrans親GCN 0.72
-Gates -Labels News -ゲーツ-ラベル ニュース 0.66
News Books BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU chrF+ 41.48 37.26 42.05 42.35 ニュース 書籍 BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU chrF+ 41.48 37.26 42.05 42.35 0.75
36.48 37.61 40.49 40.07 36.48 37.61 40.49 40.07 0.45
16.48 13.91 15.56 16.45 16.48 13.91 15.56 16.45 0.45
23.93 25.21 24.83 24.60 23.93 25.21 24.83 24.60 0.45
9.39 10.21 11.93 10.35 9.39 10.21 11.93 10.35 0.45
38.31 39.07 40.40 39.20 38.31 39.07 40.40 39.20 0.45
9.96 10.56 11.17 11.31 9.96 10.56 11.17 11.31 0.45
23.98 25.20 25.38 24.84 23.98 25.20 25.38 24.84 0.45
25.19 25.67 27.34 26.45 25.19 25.67 27.34 26.45 0.45
5.37 6.07 5.47 5.51 5.37 6.07 5.47 5.51 0.45
5.32 5.77 5.71 5.46 5.32 5.77 5.71 5.46 0.45
5.95 5.30 6.21 6.21 5.95 5.30 6.21 6.21 0.45
Books Books News 著書 著書 ニュース 0.63
5.29 5.83 25.09 26.36 5.29 5.83 25.09 26.36 0.50
11.64 8.62 11.64 8.62 0.50
40.16 37.90 40.16 37.90 0.50
5.30 5.41 24.11 24.70 5.30 5.41 24.11 24.70 0.50
10.01 11.98 10.01 11.98 0.50
37.87 41.13 37.87 41.13 0.50
5.31 5.42 24.59 24.89 5.31 5.42 24.59 24.89 0.50
12.08 16.55 12.08 16.55 0.50
36.34 40.77 36.34 40.77 0.50
(b) Syntactic challenge sets for English-German (b)英語-ドイツ語の構文チャレンジセット 0.76
Table 2: Results on the syntactic challenge sets, both on the large challenges from book domain and the smaller ones from news. 表2: 構文的チャレンジセットの結果は、書籍ドメインによる大きな課題と、ニュースによる小さな課題の両方に基づいています。 0.74
Models include Vanilla and Bidirectional Transformer baselines (top) and the GCN and Parent syntactic variants (middle). モデルには、バニラおよび双方向トランスフォーマーベースライン(トップ)、gcnおよび親構文変種(中間)が含まれる。 0.71
Ablated models (bottom) include the Transformer decoder with linearized syntax (Linearized), GCN without labels or gating (-Gates) and GCN without labels (Labels). 抽象モデル(下図)には、線形化構文(Linearized)のTransformerデコーダ、ラベルやゲーティング(-Gates)のないGCN、ラベルのないGCN(Labels)が含まれる。 0.78
Among the baselines, BiTrans is better. ベースラインの中で、BiTransはより良いです。 0.69
It is inconclusive which syntactic method is best, but they are clearly superior to the baselines. どの構文法が最適かは決定的ではないが、ベースラインよりも明らかに優れている。 0.63
directional attention. When comparing unidirectional and Parent attention the change is often more than a point of chrF+ and could reach up to 1.5 chrF+ and 0.6 BLEU. 方向への注意 一方向とペアレントの注意を比べると、変化はしばしばchrF+の点を超え、1.5 chrF+と0.6 BLEUに達する。 0.70
6.3 Results on English-Russian We evaluate the Parent syntactic architecture on English-Russian translation, comparing it to the vanilla Transformer. 6.3 英ロシア語翻訳における親語構文アーキテクチャの評価結果(Vanilla Transformer との比較)。 0.80
We select Russian as it is typologically more distant to English than German, and because relatively high-quality parallel data and UD parsers are available. ロシア語はドイツ語よりも英語に近いため、比較的高品質な並列データとUDパーサーが利用可能である。 0.64
Results show similar trends to those observed on En-De and De-En. その結果,En-De や De-En と同様の傾向を示した。 0.61
We find that the bidirectional Transformer slightly improves over the vanilla Transformer and the Parent syntactic variant further improves, achieving a 1.11 BLEU and 2.42 chrF+ improvement. 二方向変圧器はバニラ変圧器よりもわずかに改善され、親構文変異はさらに改善され、1.11 bleuと2.42 chrf+が向上した。 0.60
In summary, we find that adding syntax to the decoder improved results 要約すると、デコーダに構文を追加することで結果が改善された。 0.61
in all three target languages that we experimented with. 3つのターゲット言語で実験しました 0.65
7 Related Work While there are indications that Transformers implicitly learn some syntactic structure when trained as language models or as NMT systems given sufficient training data (e.g., Jawahar et al., 2019; Manning et al., 2020), it is not at all clear whether such information replaces the utility of incorporating syntactic structure. 7 関連作業 トランスフォーマーが言語モデルとして訓練されたり、NMTシステムとして十分なトレーニングデータ(例えばJawahar et al., 2019; Manning et al., 2020)を与えられたときに構文構造を暗黙的に学習する兆候があるが、そのような情報が構文構造を組み込む実用性に取って代わるかどうかは明らかではない。 0.72
Indeed, a considerable body of work suggests the contrary. 実際、かなりの作業体は反対を示唆しています。 0.62
Much previous work tested RNN-based and attention-based systems for their ability to make syntactic generalizations. 多くの以前の研究は、シンタクティック一般化を行う能力のためにRNNベースおよび注意ベースのシステムをテストした。 0.44
They showed that systems face difficulties when tested on their ability to generalize when generalizations based on syntactic structure is required of them (Ravfogel et al., 2019; McCoy et al., 2019). 彼らは、シンタクティック構造に基づく一般化が必要とされるときに一般化の能力をテストすると、システムが困難に直面することを示した(Ravfogel et al., 2019; McCoy et al., 2019)。 0.71
Moreover, while in また、その間も。 0.52
英語(論文から抽出)日本語訳スコア
2013 2014 2015 2013 2014 2015 0.85
Average BLEU chrF+ BLEU chrF+ BLEU chrF+ BLEU chrF+ 41.16 13.20 41.81 13.13 13.61 43.58 平均 BLEU chrF+ BLEU chrF+ BLEU chrF+ 41.16 13.20 41.81 13.13 13.61 43.58 0.70
38.71 39.04 40.60 38.71 39.04 40.60 0.47
14.19 14.59 15.75 14.19 14.59 15.75 0.47
17.17 17.63 18.53 17.17 17.63 18.53 0.47
43.88 44.81 46.57 43.88 44.81 46.57 0.47
40.90 41.58 43.58 40.90 41.58 43.58 0.47
14.85 15.12 15.96 14.85 15.12 15.96 0.47
Vanilla BiTrans Parent バニラBiTrans親。 0.67
Table 3: Results on English-Russian. 表3:英語とロシア語の結果。 0.70
Results are reported on newstest 2013-15. 結果は newstest 2013-15 で報告されます。 0.63
Models include Vanilla and Bidirectional Transformer as well as Parent syntactic variant. モデルには、VanillaとBidirectional Transformer、Parent Syntactic variantが含まれる。 0.74
The syntactic architectures improve over all datasets and on average. 構文アーキテクチャは、すべてのデータセットと平均で改善される。 0.68
many cases NMT systems do succeed in correctly translating sentences containing inter-dependent albeit linearly distant words, their performance is unstable: the same systems may well fail on other “obvious” cases of the same phenomena (Isabelle et al., 2017; Belinkov and Bisk, 2017; Choshen and Abend, 2019). 多くの場合、nmtシステムは、線形に遠く離れた単語を含む文を正しく翻訳するのに成功し、その性能は不安定である:同じシステムは、同じ現象の他の"観測"ケースで失敗する可能性がある(isabelle et al., 2017; belinkov and bisk, 2017; choshen and abend, 2019)。 0.78
This evidence provides motivation for efforts such as ours, to incorporate linguistic knowledge into the architecture. この証拠は、言語知識を建築に組み込むという我々のような努力への動機を与えている。 0.66
Syntactic structure was used to improve various tasks, including code generation (Chakraborty et al., 2018), question answering (Bogin et al., 2020), automatic proof generation (Gontier et al., 2020) and grammatical error correction (Harer et al., 2019). 構文構造は、コード生成(Chakraborty et al., 2018)、質問応答(Bogin et al., 2020)、自動証明生成(Gontier et al., 2020)、文法的誤り訂正(Harer et al., 2019)など、さまざまなタスクを改善するために使用された。 0.82
Such approaches, however, may not be readily used in machine translation. しかし、そのようなアプローチは機械翻訳では容易には使用できない。 0.73
For example, the latter makes very strong conditional independence assumptions, and seems less suitable for MT where the source and target side syntax may diverge considerably. 例えば、後者は条件付き独立性の仮定が非常に強く、ソースとターゲットの構文がかなりばらばらになるような MT には適さないように思われる。 0.71
In NMT, some works aimed to use structural cues by reinforcement learning (Wieting et al., 2019), but the gain from such methods seems to very much constrained by the performance presented by the pre-trained model (Choshen et al., 2020). NMTでは、強化学習による構造的手がかりの利用を目的とした作品(Wieting et al., 2019)もあるが、事前訓練されたモデル(Choshen et al., 2020)によって提示された性能により、そのような手法の利得は極めて制限されているようである。 0.57
Aharoni and Goldberg (2017a) proposed to linearize constituency parsing and replace the source and target tokens by the linearized graph. Aharoni and Goldberg (2017a)は、構文解析を線形化し、ソースとターゲットトークンを線形化グラフで置き換えることを提案した。
訳抜け防止モード: Aharoni and Goldberg (2017a ) の提案 カテゴリ解析を線形化し、ソーストークンとターゲットトークンを線形化グラフで置き換える。
0.76
Nadejde et al. Nadejde et al。 0.75
(2017) proposed a similar approach using CCG parses. 2017年)はCG解析を用いた同様のアプローチを提案した。 0.52
Eriguchi et al. Eriguchiら。 0.55
(2016) proposed a recursive neural network architecture to encode the source syntax. (2016)はソース構文をエンコードする再帰的ニューラルネットワークアーキテクチャを提案した。 0.69
Some works suggested modifications to the RNN architecture for NMT that encodes source-side syntax (Chen et al., 2017, 2018; Li et al., 2017). 一部の作品は、ソースサイド構文をエンコードするNMTのRNNアーキテクチャの変更を提案した(Chen et al., 2017; Li et al., 2017)。 0.82
Song et al. (2019) used a graph recurrent network to encode source-side AMR structures. 歌など。 (2019)は、ソース側amr構造の符号化にグラフリカレントネットワークを用いた。 0.54
Few works suggested changes in the Transformer to incorporate source-side syntax: Nguyen et al. ソース側の構文を組み込むためのTransformerの変更を提案する作業はほとんどない。 0.64
(2020) and Bugliarello and Okazaki (2020) proposed a tree-based attention mechanism to encode source syntax, while Zhang et al. (2020) と Bugliarello と Okazaki (2020) はソース構文をエンコードする木に基づくアテンション機構を提案し, Zhang らは al。 0.86
(2019) in- corporated the first layers of a parser in addition to the source-side token embeddings. (2019)in- ソース側トークンの埋め込みに加えて、パーサの最初のレイヤをコーポレートする。 0.80
A parallel line of work used syntactic information in order to preprocess the data, improving results. 並列作業ラインは、データを前処理するために構文情報を使用し、結果を改善しました。 0.65
Zhou et al. (2019a) used word order typological features and syntactic parses in order to create training data that is syntactically similar to the target language. 周ら。 (2019a) は, 対象言語と構文的に類似した訓練データを作成するために, 語順の類型的特徴と構文解析を用いた。 0.59
Ponti et al. Ponti et al。 0.79
(2018) used rule-based manipulations of the UD structure of the input, so as to make it less divergent with the target side. (2018)では,入力のUD構造をルールベースで操作することで,対象側とのばらつきを軽減した。 0.76
Much fewer works focused on structure-based decoding. 構造に基づく復号化に注力する作業は少ない。 0.59
Eriguchi et al. Eriguchiら。 0.55
(2017), building on Dyer et al. (2017年)、Dyer et al.で構築。 0.47
(2016), train a decoder in a multi-task setting of translation and parsing. (2016)、翻訳と解析のマルチタスク設定でデコーダを訓練します。 0.64
We note that unlike in the method we propose here, the generated translation in their case is not constrained by the parse during the decoding, but rather the two tasks are not related through their joint training. ここで提案する手法とは異なり,生成した翻訳はデコード中のパースによって制約されるのではなく,両者の協調学習によって関連づけられるものではないことに注意する。 0.71
Few works proposed alternating between two connected RNNs one translating and one creating a linearized graph using a tree-based RNN (Wang et al., 2018) or transition-based parsing (Wu et al., 2017). 木ベースのRNN(Wang et al., 2018)または遷移ベースの解析(Wu et al., 2017)を使用して線形化されたグラフを作成する2つの接続RNNの間で交互に提案された作品はほとんどありません。
訳抜け防止モード: 木を用いた線形化グラフを作成する2つの連結RNN間の交互化に関する研究は少ない。 -RNN(Wang et al ., 2018)または移行。 ベース解析(Wu et al , 2017)。
0.78
G¯u et al. (2018) both parse and generate, using a recursive RNN representation. と言いました。 (2018) 再帰的 RNN 表現を用いて解析および生成を行う。 0.53
Somewhat similar to the bidirectional attention we employ is non-monotonic translation in which translation is not done left-to-right (Welleck et al., 2019; Emelianenko et al., 2019; Chan et al., 2020). 私たちが採用している双方向の注意は、左から右への翻訳を行わない非単調翻訳である(welleck et al., 2019; emelianenko et al., 2019; chan et al., 2020)。 0.86
In such works, the network receives a position and a context of other positions and tokens, and predicts a token for the given position. そのような作業では、ネットワークは、他の位置とトークンの位置とコンテキストを受信し、所定の位置に対するトークンを予測する。 0.75
However, such work mainly focuses on selecting the order of prediction, not on what is the network learning and representing. しかし、そのような仕事は主に、ネットワーク学習と表現であるものではなく、予測の順序を選択することに焦点を当てています。 0.64
Another related line of work use two separate decoders, and combines their results in various ways (Liu et al., 2016; Sennrich et al., 2016a; Zhang et al., 2018). 別の関連作業は2つのデコーダを使用しており、その結果をさまざまな方法で組み合わせています(Liu et al., 2016; Sennrich et al., 2016a; Zhang et al., 2018)。 0.80
Recently, Zhou et al. 最近、Zhou et al。 0.47
(2019b) proposed to have two unidirectional decoders, one of which is decoding in reverse order (rightmost token first), and uses both, where the beam search alternates between predicting a token (2019b)は、2つの一方向復号器を持ち、そのうちの1つは逆順序で復号化され(一番右のトークン)、両方を使用します。
訳抜け防止モード: (2019b)は、2つの一方向デコーダを持ち、そのうちの1つは逆順序でデコードすることを提案した。 両方を使って トークンの予測と ビームサーチの交互に
0.78
英語(論文から抽出)日本語訳スコア
from the end or the start. Other work changed the RNN (Tai et al., 2015) or Transformer architecture to include structural inductive biases, but without explicit syntactic information. 終わりか始めから。 その他の研究はRNN(Tai et al., 2015)やTransformerアーキテクチャを構造的帰納バイアスを含むように変更した。 0.55
Wang et al. (2019) suggested an unsupervised way to train Transformers that learn treelike structures following the intuition that such representations are more similar to syntax than unrestricted self-attention. 王等。 (2019)では,木のような構造を学習するトランスフォーマーの訓練方法が,制約のない自己意図よりも構文に類似していることが示唆された。 0.60
Shiv and Quirk (2019) altered the positional embeddings to allow encoding tree-structured data. shiv と quirk (2019) は木構造データをエンコードできるように位置埋め込みを変更した。 0.63
8 Discussion Several motivations drive us towards this work, which aims to combine linguistic representation and improvements to the Transformer decoder. 8 議論 言語表現とTransformerデコーダの改善を両立することを目的としています。
訳抜け防止モード: 8 議論 モチベーションもいくつかありますが 言語表現とトランスフォーマデコーダの改良を組み合わせることを目的としている。
0.70
Expert human translators are native in the target language, but don’t have to be so in the source language. 専門家の人間翻訳者はターゲット言語でネイティブですが、ソース言語でそうである必要はありません。 0.77
This makes one wonder, why most effort ignores the role of decoders for translation. これはなぜほとんどの努力が翻訳のためのデコーダの役割を無視しているのか不思議に思う。 0.63
The second motivation is that Transformers for Machine Translation (MT) are trained in the same way that former sequence to sequence models are trained (e.g., RNNs) and to many, they are just a better architecture for the same task. 第二の動機は、MT(Transformers for Machine Translation)が、以前のシーケンスからシーケンスモデルへのトレーニング(RNNなど)と同じ方法で訓練され、多くの人にとって、同じタスクのためのより良いアーキテクチャであるということです。 0.74
We challenge this view, and emphasize the possibility of conditional training using Transformers; namely, Transformers should be able to predict the third token given the first two, even without previously predicting them. 我々はこの見解に異議を唱え、トランスフォーマーを用いた条件付きトレーニングの可能性を強調し、トランスフォーマーは前もって予測することなく、最初の2つが与えられた第3のトークンを予測することができるべきである。 0.62
Although mostly not implemented as such, Transformers are already conditional networks, and allow for flexibility not found in RNNs. 多くは実装されていないが、Transformerはすでに条件付きネットワークであり、RNNには柔軟性がない。 0.62
Another motivation for conditional Transformers is the finding that MT quality differs between beginnings and ends of predicted sentences both in recurrent networks and in attention-based ones (Liu et al., 2016; Zhou et al., 2019b). 条件付きトランスフォーマーのもう1つの動機は、MT品質が繰り返しネットワークと注意に基づく文の両方で予測文の開始と終了の間で異なることを見つけることである(Liu et al., 2016; Zhou et al., 2019b)。 0.71
This is often explained by lack of context and disregard to the future tokens. これはしばしばコンテキストの欠如と将来のトークンを無視して説明される。 0.82
This future context is used by humans (Xia et al., 2017) and may help translations (Tu et al., 2016; Mi et al., 2016). この将来の文脈は人間によって使用され(Xia et al., 2017)、翻訳を助けることができます(Tu et al., 2016; Mi et al., 2016)。 0.84
The encoded input is the same throughout the prediction, so the varying performance is likely due to the decoder. エンコードされた入力は予測を通して同じであるため、さまざまなパフォーマンスはデコーダに起因する可能性があります。 0.69
Attending to all predictions, as we propose here, aims to provide more of this required information.4 ここで提案するすべての予測は、必要な情報をより多く提供することを目的としています。 0.63
Finally, previous work raised questions about 最後に 前回の研究は 0.44
4We do note, that for the very first generated tokens, bidirectional attention will not help, as there is nothing to attend to. 4 注意すべき点は、最初のトークンが生成されても、双方向の注意が役に立たないことです。 0.61
the reasons for which incorporating source syntax help RNNs (Shi et al., 2018) and Transformers (Pham et al., 2019; Sachan et al., 2020) systems. ソース構文を取り入れた理由は、RNN(Shi et al., 2018)とTransformers(Pham et al., 2019; Sachan et al., 2020)システムに役立つ。 0.79
These works failed to see improvement between incorporating (source) syntax and using a similar architecture without doing so, i.e., incorporating a non-syntactic predefined tree/graph structure. これらの作業は、(ソース)構文の組み込みと、同様のアーキテクチャの使用の間に改善は見られず、非構文の事前定義ツリー/グラフ構造を組み込んだものではなかった。 0.65
A hypothesis followed, that graph-like architectures are helpful, but the syntactic information is redundant. その後の仮説では、グラフのようなアーキテクチャは役に立つが、構文情報は冗長である。 0.58
In our experiments, we observed that the Parent architecture achieves gains over the bidirectional decoding without further architectural changes. 実験では,親アーキテクチャによる双方向デコードによる利益が,アーキテクチャの変更を伴わずに達成できることを観察した。 0.65
These benefits from syntactic information challenge this hypothesis. シンタクティック情報によるこれらの利点は、この仮説に挑戦する。 0.42
9 Conclusion We presented a novel flexible method for constructing decoders capable of outputting trees and graphs. 9 結論 本稿では,木やグラフを出力可能な新しいフレキシブルデコーダ構築法を提案する。 0.72
While there have been several works on source-side tree and graph encoding, much fewer works addressed target-side structure, especially using an attention-based architectures. ソースサイドツリーとグラフエンコーディングに関する作業はいくつかあるが、ターゲットサイド構造、特に注目ベースのアーキテクチャを使った作業は少ない。 0.69
Our work addresses this gap. 私たちの仕事はこのギャップに対処する。 0.46
Our proposal is based on two main modifications to the standard Transformer decoder: (1) autoregression on structure; (2) bidirectional attention in the decoder, which allows recomputing token embeddings in light of newly decoded tokens. 提案手法は,(1)構造に対する自己回帰,(2)デコーダにおける双方向の注意,(2)新たにデコードされたトークンの埋め込みを反映して再計算可能なトークン埋め込みという,標準トランスフォーマーデコーダの2つの主な変更に基づいている。 0.69
In both cases, the system presented superior results over the vanilla Transformer decoder, as well as over ablated versions of the decoder. どちらの場合でも、システムはバニラトランスフォーマーデコーダよりも優れた結果を示し、デコーダのアブレーションバージョンよりも優れています。 0.65
The method is flexible enough to allow outputting a wide variety of graph and tree structures. この手法は柔軟性があり、さまざまなグラフやツリー構造を出力できます。
訳抜け防止モード: その方法は十分柔軟です 多種多様なグラフおよび木構造を出力することができる。
0.83
This work opens many avenues for future work. この仕事は将来の仕事のための多くの道を開く。 0.57
One direction would be to focus on conditional networks, training with (intentionally) noisy prefixes, randomly masking "predicted" spans during training (as done in masked language models, Devlin et al., 2019) and data augmentation through hard words or phrases rather than full sentences. 1つの方向性は、条件付きネットワーク、(意図しない)ノイズプレフィックスによるトレーニング、トレーニング中にランダムに"予測"スパンをマスキングすること(マスク付き言語モデル、Devlin et al., 2019)、そして全文ではなくハードワードやフレーズによるデータ拡張である。 0.73
Another might focus and enhance bidirectionality by allowing regretting and changing past predictions. もうひとつは、過去の予測を後悔したり変えたりすることで、双方向性を重視し、強化するかもしれない。 0.39
Finally, the work opens possibilities for better incorporating structure into language genenerators, of incorporating semantic structure and of enforcing meaning preservation (thus targeting hallucinations, Wang and Sennrich, 2020), by incorporating source and target structure together. 最後に、本書は、意味構造と意味保存(幻覚を標的とするwang and sennrich, 2020)を、ソースとターゲット構造を一緒に組み込むことによって、言語ジェネリテータに構造を組み込む可能性を開く。 0.69
英語(論文から抽出)日本語訳スコア
References Roee Aharoni and Yoav Goldberg. 参考文献 Roee AharoniとYoav Goldberg。 0.73
2017a. Morinflection generation with hard In Proc. 2017年。 ハードインプロックによるモリンフレクション発生。 0.66
of ACL, pages ACL (複数形 ACLs) 0.58
phological monotonic attention. 2004–2015. 生理的単調な注意。 2004–2015. 0.58
Roee Aharoni and Yoav Goldberg. Roee AharoniとYoav Goldberg。 0.80
2017b. Towards string-to-tree neural machine translation. 2017年。 ストリング・トゥ・ツリーニューラルマシン翻訳に向けて 0.64
In ACL. Loïc Barrault, Magdalena Biesialska, Ondrej Bojar, Marta R. Costa-jussà, C. Federmann, Yvette Graham, Roman Grundkiewicz, B. Haddow, Matthias Huck, E. Joanis, Tom Kocmi, Philipp Koehn, Chi kiu Lo, Nikola Ljubesic, Christof Monz, Makoto Morishita, M. Nagata, T. Nakazawa, Santanu Pal, Matt Post, and Marcos Zampieri. ACL所属。 loic barrault, magdalena biesialska, ondrej bojar, marta r. costa-jussà, c. federmann, yvette graham, roman grundkiewicz, b. haddow, matthias huck, e. joanis, tom kocmi, philipp koehn, chi kiu lo, nikola ljubesic, christof monz, morishita, m. nagata, t. nakazawa, santanu pal, matt post, marcos zampieri
訳抜け防止モード: ACL所属。 ロシュ・バラルト、Magdalena Biesialska、Ondrej Bojar、Marta R. Costa - jussà。 C. Federmann, Yvette Graham, Roman Grundkiewicz, B. Haddow Matthias Huck、E. Joanis、Tom Kocmi、Philipp Koehn。 Chi kiu Lo, Nikola Ljubesic, Christof Monz, 森下誠, 長田さん、中沢さん、サンタヌ・パルさん、マット・ポストさん。 そしてマルコスZampieri。
0.76
2020. Findings of the 2020 conference on machine translation (wmt20). 2020. 機械翻訳(wmt20)に関する2020年の会議の発見。 0.83
In WMT. Jasmijn Bastings, WMT所属。 Jasmijn Bastings 0.57
Ivan Titov, Wilker Aziz, Diego Marcheggiani, and Khalil Sima’an. Ivan Titov、Wilker Aziz、Diego Marcheggiani、Khalil Sima’an。 0.63
2017. Graph convolutional encoders for syntax-aware neural machine translation. 2017. 構文認識型ニューラルマシン翻訳のためのグラフ畳み込みエンコーダ 0.77
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
Yonatan Belinkov and Yonatan Bisk. ヨナタン・ベリンコフとヨナタン・ビスク。 0.39
2017. Synthetic and natural noise both break neural machine translation. 2017. 合成と自然ノイズはどちらもニューラルマシン翻訳を破る。 0.77
ICLR, abs/1711.02173. ICLR, abs/1711.02173。 0.60
Ben Bogin, Sanjay Subramanian, Matt Gardner, and Jonathan Berant. Ben Bogin、Sanjay Subramanian、Matt Gardner、Jonathan Berant。 0.72
2020. Latent compositional representations improve systematic generalization in grounded question answering. 2020. 潜在合成表現は、接地質問応答における体系的一般化を改善する。 0.67
arXiv preprint arXiv:2007.00266. arXiv preprint arXiv:2007.00266。 0.64
Ondˇrej Bojar, Rajen Chatterjee, Christian Federmann, Yvette Graham, Barry Haddow, Matthias Huck, Antonio Jimeno Yepes, Philipp Koehn, Varvara Logacheva, Christof Monz, et al. Ond'rej Bojar, Rajen Chatterjee, Christian Federmann, Yvette Graham, Barry Haddow, Matthias Huck, Antonio Jimeno Yepes, Philipp Koehn, Varvara Logacheva, Christof Monzなど。 0.81
2016. Findings of the 2016 conference on machine translation. 2016. 機械翻訳に関する2016年の会議の発見。 0.84
In Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers, pages 131–198. In Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers, page 131–198。 0.88
William Chan, Mitchell Stern, Jamie Kiros, and Jakob Uszkoreit. William Chan、Mitchell Stern、Jamie Kiros、Jakob Uszkoreit。 0.65
2020. An empirical study of generation order for machine translation. 2020. 機械翻訳における生成順序に関する実証的研究 0.81
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), Online. 自然言語処理の実証的方法に関する2020会議(EMNLP)の進捗状況、オンライン。 0.74
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Kehai Chen, Rui Wang, Masao Utiyama, Lemao Liu, Akihiro Tamura, Eiichiro Sumita, and Tiejun Zhao. Kehai Chen, Rui Wang, Masao Utiyama, Lemao Liu, Akihiro Tamura, Eiichiro Sumita, Tiejun Zhao。 0.74
2017. Neural machine translation with source dependency representation. 2017. ソース依存表現を用いたニューラルマシン翻訳 0.81
In Proc. of EMNLP. Proc。 EMNLPの。 0.60
Kehai Chen, Rui Wang, Masao Utiyama, Eiichiro Sumita, and Tiejun Zhao. Kehai Chen、Rui Wang、Utiyama Masao、Sumita Eiichiro、Tiejun Zhao。 0.67
2018. Syntaxdirected attention for neural machine translation. 2018. ニューラルマシン翻訳のための構文指向的注意 0.76
In Proc. of AAAI. Proc。 AAAIの略。 0.62
Leshem Choshen and Omri Abend. Leshem ChoshenとOmri Abend。 0.75
2019. Automatically extracting challenge sets for non-local phenomena in neural machine translation. 2019. ニューラルマシン翻訳における非局所現象に対するチャレンジセットの自動抽出 0.81
In Proceedings of the 23rd Conference on Computational Natural Language Learning (CoNLL), pages 291–303, Hong Kong, China. 第23回計算自然言語学習会議(CoNLL)の進行において、291-303ページ、香港、中国。 0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Leshem Choshen, Lior Fox, Zohar Aizenbud, and Omri Abend. Leshem Choshen、Lior Fox、Zohar Aizenbud、Omri Abend。 0.62
2020. On the weaknesses of reinforcement learning for neural machine translation. 2020. ニューラルネットワーク翻訳における強化学習の弱点について 0.77
ArXiv, abs/1907.01752. ArXiv, abs/1907.01752。 0.60
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.78
2019. BERT: Pre-training of deep bidirectional transformers for language In Proceedings of the 2019 understanding. 2019. BERT: 言語のための深い双方向トランスの事前トレーニング 2019年の理解の進行。 0.82
Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186, Minneapolis, Minnesota. The North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186, Minneapolis, Minnesota 0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Chris Dyer, Victor Chahuneau, and Noah A. Smith. Chris Dyer、Victor Chahuneau、Noah A. Smith。 0.75
2013. A simple, fast, and effective reparameterization of ibm model 2. 2013. ibmモデル2の単純かつ高速かつ効果的な再パラメータ化 0.83
In HLT-NAACL. HLT-NAACL。 0.75
Emanuele Bugliarello and N. Okazaki. Emanuele BugliarelloとN.okazaki。 0.88
2020. Enhancing machine translation with dependencyaware self-attention. 2020. dependencyaware self-attention による機械翻訳の強化 0.79
In ACL. Chris Dyer, Adhiguna Kuncoro, Miguel Ballesteros, and Noah A. Smith. ACL所属。 Chris Dyer、Adhiguna Kuncoro、Miguel Ballesteros、Noah A. Smith。 0.73
2016. Recurrent neural network grammars. 2016. 繰り返しニューラルネットワークの文法。 0.80
In HLT-NAACL. HLT-NAACL。 0.75
Saikat Chakraborty, Miltiadis Allamanis, and Baishakhi Ray. Saikat Chakraborty、Miltiadis Allamanis、Baishakhi Ray。 0.63
2018. Tree2tree neural translation model for learning source code changes. 2018. ソースコード変更学習のためのTree2treeニューラルトランスレーションモデル。 0.78
ArXiv, abs/1810.00314. ArXiv, abs/1810.00314。 0.59
Dmitrii Emelianenko, P. Serdyukov. ドミトリイ Emelianenko、P. Serdyukov。 0.65
2019. with unconstrained generation order. 2019年 制限なしの世代注文で 0.61
NeurIPS. Elena Voita, and Sequence modeling In NeurIPS Elena Voita氏とシーケンスモデリング 0.57
英語(論文から抽出)日本語訳スコア
Akiko Eriguchi, Kazuma Hashimoto, and Yoshimasa Tsuruoka. 江口明子、橋本和馬、鶴岡義政。 0.35
2016. Tree-to-sequence attentional neural machine translation. 2016. tree-to-sequence attentional neural machine translation(英語) 0.70
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 823–833, Berlin, Germany. 第54回計算言語学会年次大会(Volume 1: Long Papers, 823–833, Berlin, Germany)に参加して 0.66
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Akiko Eriguchi, Yoshimasa Tsuruoka, 江口明子、鶴岡義政、 0.42
and Kyunghyun Cho. そしてKyunghyunチョー。 0.64
2017. Learning to parse and translate improves neural machine translation. 2017. 解析と翻訳の学習は、ニューラルマシン翻訳を改善する。 0.77
ArXiv, abs/1702.03525. ArXiv, abs/1702.03525。 0.60
Daniel Fernández-González and Carlos GómezRodríguez. Daniel Fernández-GonzálezとCarlos GómezRodríguez。 0.87
2018. Non-projective dependency parsing with non-local transitions. 2018. 非局所遷移による非射影依存性解析。 0.70
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), pages 693–700, New Orleans, Louisiana. 2018年アメリカ計算言語協会(Association for Computational Linguistics: Human Language Technologies, Volume 2 (Short Papers), Page 693–700, New Orleans, Louisiana)の議事録。 0.73
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Nicolas Gontier, Koustuv Sinha, Siva Reddy, and Christopher Pal. Nicolas Gontier、Koustuv Sinha、Siva Reddy、Christopher Pal。 0.65
2020. Measuring systematic generalization in neural proof genarXiv preprint eration with transformers. 2020. 変圧器を用いたニューラル証明 genarXiv プレプリントエレーションの系統的一般化の測定 0.77
arXiv:2009.14786. arXiv:2009.14786。 0.48
Jetic G¯u, Hassan S. Shavarani, and Anoop Sarkar. Jetic G、Hassan S. Shavarani、Anoop Sarkar。 0.72
2018. Top-down tree structured decoding with syntactic connections for neural machine translation and parsing. 2018. ニューラルネットワーク翻訳と解析のための構文接続を備えたトップダウンツリー構造化デコーディング。 0.75
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 401–413, Brussels, Belgium. 自然言語処理における経験的手法に関する2018年会議の議題401-413ページ、ブリュッセル、ベルギー。 0.78
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Jie Hao, Xing Wang, Shuming Shi, Jinfeng Zhang, and Zhaopeng Tu. Jie Hao、Xing Wang、Shuming Shi、Jinfeng Zhang、Zhaopeng Tu。 0.67
2019. Multi-granularity selfattention for neural machine translation. 2019. ニューラルマシン翻訳のためのマルチグラニュラリティセルフアテンション 0.73
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 887–897, Hong Kong, China. 2019年の自然言語処理の実証的方法に関する会議と第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)の進行において、ページ887-897、香港、中国。 0.80
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Daniel Hershcovich, Omri Abend, and Ari Rappoport. Daniel Hershcovich、Omri Abend、Ari Rappoport。 0.63
2018. Multitask parsing across semantic representations. 2018. 意味表現にまたがるマルチタスク解析。 0.73
In Proc. of ACL, pages 373– 385. Proc。 ACL の 373– 385 ページ。 0.63
Pierre Isabelle, Colin Cherry, and George Foster. ピエール・イザベル、コリン・チェリー、ジョージ・フォスター。 0.55
2017. A challenge set approach to evaluating machine translation. 2017. 機械翻訳の評価のためのチャレンジセットアプローチ。 0.83
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2486–2496, Copenhagen, Denmark. 2017年の自然言語処理の実証的方法に関する会議の進行において、デンマークのコペンハーゲン2486-2496ページ。 0.76
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Ganesh Jawahar, Benoît Sagot, and Djamé Seddah. ガネシュ・ジャワハル、ベノワ・サゴット、ジャメ・セッダ。 0.32
2019. What does BERT learn about the In Proceedings of the structure of language? 2019. BERTは、言語の構造のIn Proceedingsについて何を学びますか? 0.85
57th Annual Meeting of the Association for Computational Linguistics, pages 3651–3657, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, pages 3651–3657, Florence, Italy 0.89
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Diederik P. Kingma and Jimmy Ba. Diederik P. KingmaとJimmy Ba。 0.91
2015. Adam: A method for stochastic optimization. 2015. Adam: 確率最適化の方法です。 0.77
CoRR, abs/1412.6980. CoRR, abs/1412.6980。 0.58
Thomas N. Kipf and Max Welling. トーマス・N・キップとマックス・ウェリング。 0.58
2016. Semisupervised classification with graph convolutional networks. 2016. グラフ畳み込みネットワークによる半教師付き分類 0.79
CoRR, abs/1609.02907. CoRR, abs/1609.02907。 0.59
Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, Wade Shen, C. Moran, R. Zens, Chris Dyer, Ondrej Bojar, A. Constantin, and E. Herbst. Philipp Koehn, Hieu Hoang, Alexandra Birch, Chris Callison-Burch, M. Federico, N. Bertoldi, B. Cowan, Wade Shen, C. Moran, R. Zens, Chris Dyer, Ondrej Bojar, A. Constantin, E. Herbst 0.97
2007. Moses: Open source toolkit for statistical machine translation. 2007. Moses: 統計機械翻訳のためのオープンソースツールキット。 0.82
In ACL. Junhui Li, Deyi Xiong, Zhaopeng Tu, Muhua Zhu, Min Zhang, and Guodong Zhou. ACL所属。 Junhui Li, Deyi Xiong, Zhaopeng Tu, Muhua Zhu, Min Zhang, Guodong Zhou 0.70
2017. Modeling source syntax for neural machine translation. 2017. ニューラルマシン翻訳のためのソース構文のモデリング 0.82
In Proc. of ACL. Proc。 ACLの略。 0.63
L. Liu, M. Utiyama, A. Finch, L. Liu, M. Utiyama, A. Finch 0.96
and Eiichiro Sumita. 2016. そして墨田英一郎。 2016. 0.70
Agreement on targetbidirectional neural machine translation. 指向性ニューラルマシン翻訳に関する合意 0.70
In HLT-NAACL. HLT-NAACL。 0.75
Adam Lopez. 2008. アダム・ロペス。 2008. 0.67
Statistical machine transla- 統計機械トランスラ- 0.82
tion. ACM Computing Surveys (CSUR), 40:8. 禁忌だ ACM Computing Surveys (CSUR) 40:8。 0.56
Jacob Harer, C. Reale, and P. Chin. Jacob Harer、C.Reale、P.Chin。 0.79
2019. Treetransformer: A transformer-based method for ArXiv, correction of abs/1908.00449. 2019. Treetransformer: ArXivのトランスベースの方法、abs/1908.00449の修正。 0.76
tree-structured data. Marco Lui and Timothy Baldwin. ツリー構造データ。 マルコ・ルイスとティモシー・ボールドウィン。 0.62
2012. langid. 2012. ラングイド 0.60
py: An off-the-shelf language identification In Proceedings of the ACL 2012 system tool. py: ACL 2012システムツールのProceedingsで、既製の言語識別。 0.66
demonstrations, pages 25–30. デモ、25-30ページ。 0.65
英語(論文から抽出)日本語訳スコア
Qingsong Ma, Johnny Wei, Ondˇrej Bojar, and Yvette Graham. チョン・マ、ジョニー・ウェイ、オンデレジュ・ボジャル、イヴェット・グラハム。 0.42
2019. Results of the WMT19 metrics shared task: Segment-level and strong In ProMT systems pose big challenges. 2019. WMT19メトリクス共有タスクの結果:セグメントレベルと強力なIn ProMTシステムは大きな課題を引き起こします。 0.81
ceedings of the Fourth Conference on Machine Translation (Volume 2: Shared Task Papers, Day 1), pages 62–90, Florence, Italy. 第4回機械翻訳会議(Volume 2: Shared Task Papers, Day 1)、62-90頁、イタリアのフィレンツェ。 0.68
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Christopher D. Manning, Kevin Clark, John Hewitt, Urvashi Khandelwal, and Omer Levy. Christopher D. Manning、Kevin Clark、John Hewitt、Urvashi Khandelwal、およびOmer Levy。 0.85
2020. Emergent linguistic structure in artificial neural networks trained by self-supervision. 2020. 自己スーパービジョンによる人工ニューラルネットワークの創発的言語構造 0.79
PNAS. Diego Marcheggiani, Jasmijn Bastings, and Ivan Titov. PNAS。 Diego Marcheggiani、Jasmijn Bastings、Ivan Titov。 0.70
2018. Exploiting semantics in neural machine translation with graph convolutional networks. 2018. グラフ畳み込みネットワークを用いたニューラルネットワーク翻訳における意味論の解明 0.75
In Proc. of NAACL. Proc。 NAACLの略。 0.62
Tom McCoy, Ellie Pavlick, and Tal Linzen. トム・マッコイ、エリー・パヴリック、タル・リンゼン。 0.48
2019. Right for the wrong reasons: Diagnosing syntactic heuristics in natural language inference. 2019. 間違った理由:自然言語推論における構文的ヒューリスティックの診断。 0.81
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 3428–3448. 57th Annual Meeting of the Association for Computational Linguistics』3428-3448頁。 0.68
Haitao Mi, B. Sankaran, Z. Wang, and Abe Ittycheriah. Haitao Mi、B. Sankaran、Z. Wang、Abe Ittycheriah。 0.75
2016. Coverage embedding models for neural machine translation. 2016. ニューラルネットワーク翻訳のためのカバレッジ埋め込みモデル。 0.76
In EMNLP. Maria Nadejde, Siva Reddy, Rico Sennrich, Tomasz Dwojak, Marcin Junczys-Dowmunt, P. Koehn, and Alexandra Birch. EMNLPで。 Maria Nadejde、Siva Reddy、Rico Sennrich、Tomasz Dwojak、Marcin Junczys-Dowmunt、P. Koehn、Alexandra Birch。 0.72
2017. Predicting target language ccg supertags improves neural machine translation. 2017. ターゲット言語ccgスーパータグの予測は、ニューラルマシン翻訳を改善する。 0.72
In WMT. Xuan-Phi Nguyen, Shafiq R. Joty, S. Hoi, and R. Socher. WMT所属。 Xuan-Phi Nguyen、Shafiq R. Joty、S. Hoi、R. Socher。 0.73
2020. Tree-structured attention with hierarchical accumulation. 2020. 階層的な蓄積によるツリー構造による注目。 0.69
ArXiv, abs/2002.08046. ArXiv, abs/2002.08046。 0.59
Joakim Nivre. Joakim Nivre 0.57
2003. An efficient algorithm for 2003. 効率的なアルゴリズムを 0.86
projective dependency parsing. プロジェクティブ依存関係解析。 0.62
In IWPT. Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajic, Christopher D. Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, and Daniel Zeman. IWPTで。 Joakim Nivre, Marie-Catherine de Marneffe, Filip Ginter, Yoav Goldberg, Jan Hajic, Christopher D. Manning, Ryan McDonald, Slav Petrov, Sampo Pyysalo, Natalia Silveira, Reut Tsarfaty, Daniel Zeman。 0.80
2016. Universal dependencies v1: A multilingual treebank collection. 2016. universal dependencies v1: 多言語ツリーバンクのコレクション。 0.86
In Proc. of LREC, pages 1659–1666. Proc。 LRECの1659-1666ページ。 0.60
Stephan Oepen, Omri Abend, Lasha Abzianidze, Johan Bos, Jan Hajic, Daniel Hershcovich, Bin Li, Tim O’Gorman, Nianwen Xue, Stephan Oepen, Omri Abend, Lasha Abzianidze, Johan Bos, Jan Hajic, Daniel Hershcovich, Bin Li, Tim O’Gorman, Nianwen Xue, 0.85
and Daniel Zeman. そしてダニエル・ゼマン。 0.69
2020. MRP 2020: The second shared task on cross-framework and cross-lingual meaning representation parsing. 2020. MRP 2020: クロスフレームワークとクロス言語意味表現解析に関する2番目の共有タスク。 0.77
In Proceedings of the CoNLL 2020 Shared Task: Cross-Framework Meaning Representation Parsing, pages 1–22, Online. Proceedings of the CoNLL 2020 Shared Task: Cross-Framework Meaning Representation Parsing, page 1–22, Online 0.82
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Kishore Papineni, S. Roukos, T. Ward, and WeiJing Zhu. Kishore Papineni、S. Roukos、T. Ward、WeiJing Zhu。 0.77
2002. Bleu: a method for automatic evaluation of machine translation. 2002. Bleu:機械翻訳の自動評価方法。 0.74
In ACL. Thuong-Hai Pham, Dominik Machácek, and Ondrej Bojar. ACL所属。 Thuong-Hai Pham、Dominik Machácek、Ondrej Bojar。 0.70
2019. Promoting the knowledge of source syntax in transformer nmt is not needed. 2019. トランスフォーマーnmtにおけるソース構文の知識の促進は不要である。 0.79
Computación y Sistemas, 23. Computación y Sistemas, 23。 0.78
Edoardo Maria Ponti, Roi Reichart, Anna Korhonen, and Ivan Vuli´c. Edardo Maria Ponti, Roi Reichart, Anna Korhonen, Ivan Vuli ́c 0.74
2018. Isomorphic transfer of syntactic structures in cross-lingual nlp. 2018. 言語間nlpにおける構文構造の同型転移 0.74
In Proc. of ACL, volume 1. Proc。 ACLで,第1巻。 0.58
Maja Popovic. 2017. chrf++: words helping char- マヤ・ポポヴィッチ 2017年 Chrf++: char 支援語 0.48
acter n-grams. acter n-grams 0.81
In WMT. Shauli Ravfogel, Y. Goldberg, and Tal Linzen. WMT所属。 Shauli Ravfogel、Y. Goldberg、Tal Linzen。 0.71
2019. Studying the inductive biases of rnns with synthetic variations of natural languages. 2019. 自然言語の合成変種によるrnnの誘導バイアスの研究 0.77
ArXiv, abs/1903.06400. ArXiv, abs/1903.06400。 0.60
D. Sachan, Yuhao Zhang, Peng Qi, and W. Hamilton. D. Sachan、Yuhao Zhang、Peng Qi、W. Hamilton。 0.81
2020. Do syntax trees help pre-trained ArXiv, transformers extract abs/2008.09084. 2020. Do構文木はArXivを事前訓練し、トランスフォーマーはabs/2008.09084を抽出する。 0.64
information? Rico Sennrich, Orhan Firat, K. Cho, Alexandra Birch, B. Haddow, Julian Hitschler, Marcin Junczys-Dowmunt, Samuel Läubli, A. Barone, Jozef Mokry, and Maria Nadejde. 情報? Rico Sennrich, Orhan Firat, K. Cho, Alexandra Birch, B. Haddow, Julian Hitschler, Marcin Junczys-Dowmunt, Samuel Läubli, A. Barone, Jozef Mokry, Maria Nadejde 0.81
2017. Nematus: a toolkit for neural machine translation. 2017. nematus: ニューラルマシン翻訳のためのツールキット。 0.81
In EACL. Rico Sennrich, B. Haddow, and Alexandra Birch. EACLで。 Rico Sennrich、B. Haddow、Alexandra Birch。 0.74
2016a. Edinburgh neural machine translation systems for wmt 16. 2016年。 edinburgh neural machine translation systems for wmt 16。 0.78
In WMT. Rico Sennrich, Barry Haddow, and Alexandra Birch. WMT所属。 Rico Sennrich、Barry Haddow、Alexandra Birch。 0.64
2016b. Neural machine translation of In Proceedrare words with subword units. 2016年。 サブワード単位を用いた逐次単語のニューラルマシン翻訳 0.72
ings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1715–1725, Berlin, Germany. ings of the 54th annual meeting of the association for computational linguistics ( volume 1: long papers) 1715–1725, berlin, germany (英語) 0.83
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
英語(論文から抽出)日本語訳スコア
Haoyue Shi, Hao Zhou, J. Chen, and Lei Li. Haoyue Shi, Hao Zhou, J. Chen, and Lei Li 0.79
2018. In On tree-based neural sentence modeling. 2018. 内 木に基づくニューラルセンテンスモデリングについて 0.67
EMNLP. Vighnesh Leonardo Shiv and Chris Quirk. EMNLP。 Vighnesh Leonardo ShivとChris Quirk。 0.78
2019. Novel positional encodings to enable tree-based transformers. 2019. 木ベースのトランスを可能にする新しい位置エンコーディング。 0.71
In NeurIPS. NeurIPSに登場。 0.80
Linfeng Song, Daniel Gildea, Yue Zhang, Zhiguo Wang, and Jinsong Su. Linfeng Song, Daniel Gildea, Yue Zhang, Zhiguo Wang, Jinsong Su 0.68
2019. Semantic neural machine translation using AMR. 2019. AMRを用いた意味的ニューラルマシン翻訳 0.83
TACL, 7. Miloš Stanojevi´c and Mark Steedman. TACL, 7。 Miloš StanojeviとMark Steedman。 0.79
2020. Max-margin incremental CCG parsing. 2020. Max-margin インクリメンタル CCG 解析。 0.78
In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, pages 4111–4122, Online. 第58回計算言語学会年次総会の進行において、4111-4122ページ、オンライン。 0.69
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Emma Strubell, Patrick Verga, Daniel Andor, David Weiss, and Andrew McCallum. Emma Strubell、Patrick Verga、Daniel Andor、David Weiss、Andrew McCallum。 0.75
2018. Linguistically-infor med self-attention for seIn Proceedings of the mantic role labeling. 2018. SeIn Proceedings of the Mantic Role labeling の言語学的インフォームド・セルフアテンション 0.71
2018 Conference on Empirical Methods in Natural Language Processing, pages 5027–5038, Brussels, Belgium. 2018 Conference on Empirical Methods in Natural Language Processing, Page 5027–5038, Brussels, Belgium (英語) 0.89
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Kai Sheng Tai, R. Socher, and Christopher D. Manning. Kai Sheng Tai、R. Socher、Christopher D. Manning。 0.80
2015. Improved semantic representations from tree-structured long short-term memory networks. 2015. ツリー構造付き長期短期記憶ネットワークによる意味表現の改善 0.80
In ACL. J. Tiedemann. ACL所属。 J. Tiedemann。 0.81
2012. Parallel data, tools and inter- 2012. 並列データ、ツール、およびインター- 0.84
faces in opus. In LREC. 顔はオプス。 LREC所属。 0.53
Zhaopeng Tu, Z. Lu, Y. Liu, X. Liu, and Hang Li. Zhaopeng Tu、Z. Lu、Y. Liu、X. Liu、Hang Li。 0.86
2016. Modeling coverage for neural maarXiv: Computation and chine translation. 2016. neural maarxiv: computational and chine translationのモデリングカバレッジ。 0.78
Language. Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. 言語。 Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Sukasz Kaiser、Illia Polosukhin。 0.70
2017. Attention is all you need. 2017. 注意はあなたが必要とするすべてです。 0.74
In Advances in Neural Information Processing Systems, pages 5998– 6008. In Advances in Neural Information Processing Systems, page 5998–6008。 0.85
Chaojun Wang and Rico Sennrich. Chaojun WangとRico Sennrich。 0.78
2020. On exposure bias, hallucination and domain shift in In Proceedings of neural machine translation. 2020. In Proceedings of neural Machine Translationにおける露光バイアス、幻覚およびドメインシフトについて 0.84
the 58th Annual Meeting of the Association for Computational Linguistics, pages 3544–3552, Online. 58th Annual Meeting of the Association for Computational Linguistics, page 3544–3552, Online. 0.94
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Xinyi Wang, Hieu Pham, Pengcheng Yin, and Graham Neubig. Xinyi Wang、Hieu Pham、Pengcheng Yin、およびGraham Neubig。 0.72
2018. A tree-based decoder for neural machine translation. 2018. ニューラルマシン翻訳のためのツリーベースのデコーダ。 0.78
arXiv preprint arXiv:1808.09374. arXiv preprint arXiv:1808.09374 0.71
Yau-Shian Wang, Hung yi Lee, and Yun-Nung IntegratIn Yau-Shian Wang、Hung yi Lee、Yun-Nung IntegratIn。 0.79
Chen. 2019. ing tree structures into self-attention. チェン。 2019年 - 木構造を自己維持化。 0.64
EMNLP/IJCNLP. EMNLP/IJCNLP。 0.58
Tree transformer: Sean Welleck, Kianté Brantley, Hal Daumé, and Kyunghyun Cho. 木変圧器 Sean Welleck、Kianté Brantley、Hal Daumé、Kyunghyun Cho。 0.63
2019. Non-monotonic sequential text generation. 2019. 非単調シーケンシャルテキスト生成。 0.82
In ICML. J. Wieting, Taylor Berg-Kirkpatrick, Kevin Gimpel, and Graham Neubig. ICMLで。 J. Wieting、Taylor Berg-Kirkpatrick、Kevin Gimpel、Graham Neubig。 0.81
2019. Beyond bleu: Training neural machine translation with semantic similarity. 2019. beyond bleu: セマンティックな類似性を備えたニューラルネットワーク翻訳のトレーニング。 0.75
In ACL. Shuangzhi Wu, Dongdong Zhang, Nan Yang, SequenceIn ACL所属。 Shuangzhi Wu、Dongdong Zhang、Nan Yang、SequenceIn。 0.76
Mu Li, and Ming Zhou. Mu LiとMing Zhou。 0.64
2017. to-dependency neural machine translation. 2017年 - ニューラルマシン翻訳。 0.62
Proc. of ACL. Proc ACLの略。 0.63
Yingce Xia, Fei Tian, Lijun Wu, Jianxin Lin, T. Qin, N. Yu, and T. Liu. Yingce Xia, Fei Tian, Lijun Wu, Jianxin Lin, T. Qin, N. Yu, T. Liu 0.85
2017. Deliberation networks: Sequence generation beyond onepass decoding. 2017. Deliberation Network: ワンパスデコーディングを超えるシーケンス生成。 0.80
In NIPS. Meishan Zhang, Zhenghua Li, Guohong Fu, and Min Zhang. NIPS所属。 Meishan Zhang氏、Zhenghua Li氏、Guohong Fu氏、Min Zhang氏。 0.71
2019. Syntax-enhanced neural machine translation with syntax-aware word representations. 2019. 構文認識型単語表現を用いた構文強調ニューラルマシン翻訳 0.75
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 1151–1161, Minneapolis, Minnesota. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 1151–1161, Minneapolis, Minnesota 0.77
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Xiangwen Zhang, Jinsong Su, Yue Qin, Y. Liu, R. Ji, and Hongji Wang. Xiangwen Zhang, Jinsong Su, Yue Qin, Y. Liu, R. Ji, Hongji Wang 0.77
2018. Asynchronous bidirectional decoding for neural machine translation. 2018. ニューラルマシン翻訳のための非同期双方向デコーディング 0.79
ArXiv, abs/1801.05122. ArXiv, abs/1801.05122。 0.60
Chunting Zhou, Xuezhe Ma, Junjie Hu, and Graham Neubig. Chunting Zhou, Xuezhe Ma, Junjie Hu, Graham Neubig。 0.70
2019a. Handling syntactic divergence in low-resource machine translation. 2019年。 低リソース機械翻訳における構文分岐処理 0.69
In Proc. of EMNLP-IJCNLP, pages 1388–1394. Proc。 EMNLP-IJCNLP, page 1388–1394。 0.61
Long Zhou, Jiajun Zhang, and Chengqing Zong. Long Zhou、Jiajun Zhang、Chengqing Zong。 0.66
2019b. Synchronous bidirectional neural machine translation. 2019年。 同期双方向のニューラルマシン翻訳。 0.71
Transactions of the Association for Computational Linguistics, 7:91–105. 計算言語協会の取引、7:91-105。 0.63
                             ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。