論文の概要、ライセンス

# (参考訳) SLUA:クロスリンガルコントラスト学習による超軽量非教師付きワードアライメントモデル [全文訳有]

SLUA: A Super Lightweight Unsupervised Word Alignment Model via Cross-Lingual Contrastive Learning ( http://arxiv.org/abs/2102.04009v1 )

ライセンス: CC0 1.0
Di Wu, Liang Ding, Shuo Yang, Dacheng Tao(参考訳) ダウンストリームの言語間理解と生成タスクには,単語アライメントが不可欠だ。 近年, ニューラルワードアライメントモデルの性能は統計的モデルの性能を上回っている。 しかし、それらは高度な翻訳モデルに大きく依存している。 本研究では,コントラスト学習目的に訓練された双方向対称的注意点を導入した超軽量非教師なし単語アライメント(slua)モデルを提案し,アライメントが鏡型対称性仮説に従うようにアライメントマップをバインドするために合意損失を用いる。 いくつかの公開ベンチマークにおける実験結果から,本モデルの性能は,単語アライメントにおける技術水準と比較して,平均的なトレーニング時間と復号時間を大幅に削減しながら,競争力を発揮できることが示されている。 さらなるアブレーション分析とケーススタディは,提案したSLUAの優位性を示している。 特に,二言語の単語埋め込みと単語アライメントを統一する先駆的な試みとして認識した。 提案手法は,Transformerベースのアライメント手法と比較して,GIZA++に対する16.4倍の高速化と50倍のパラメータ圧縮を実現している。 コミュニティを促進するためにコードをリリースします。

Word alignment is essential for the down-streaming cross-lingual language understanding and generation tasks. Recently, the performance of the neural word alignment models has exceeded that of statistical models. However, they heavily rely on sophisticated translation models. In this study, we propose a super lightweight unsupervised word alignment (SLUA) model, in which bidirectional symmetric attention trained with a contrastive learning objective is introduced, and an agreement loss is employed to bind the attention maps, such that the alignments follow mirror-like symmetry hypothesis. Experimental results on several public benchmarks demonstrate that our model achieves competitive, if not better, performance compared to the state of the art in word alignment while significantly reducing the training and decoding time on average. Further ablation analysis and case studies show the superiority of our proposed SLUA. Notably, we recognize our model as a pioneer attempt to unify bilingual word embedding and word alignments. Encouragingly, our approach achieves 16.4x speedup against GIZA++, and 50x parameter compression} compared with the Transformer-based alignment methods. We will release our code to facilitate the community.
公開日: Mon, 8 Feb 2021 05:54:11 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
SLUA: A Super Lightweight Unsupervised Word Alignment Model SLUA:超軽量非教師付きワードアライメントモデル 0.72
via Cross-Lingual Contrastive Learning クロスリンガル・コントラシブ・ラーニングを通じて 0.53
inbath@163.com inbath@163.com 0.78
Di Wu† Liang Ding‡ Shuo Yang‡ Dacheng Tao‡ †Peking University ‡The University of Sydney シドニー大学 (university of sydney) - シドニーの大学。 0.30
{ldin3097,syan9630}@uni.sydney.edu.au dacheng.tao@sydney.e du.au ldin3097,syan9630}@uni.sydney.edu.au dacheng.tao@sydney.e du.au 0.53
1 2 0 2 b e F 8 1 2 0 2 b e F 8 0.85
] L C . s c [ ] L C。 sc [ 0.62
1 v 9 0 0 4 0 1 v 9 0 0 4 0 0.85
. 2 0 1 2 : v i X r a . 2 0 1 2 : v i X r a 0.85
Abstract Word alignment is essential for the down-streaming cross-lingual language understanding and generation tasks. 概要 ダウンストリームの言語間理解と生成タスクには,単語アライメントが不可欠だ。 0.57
Recently, the performance of the neural word alignment models [Zenkel et al., 2020; Garg et al., 2019; Ding et al., 2019] has exceeded that of statistical models. 最近、ニューラルワードアライメントモデル[Zenkel et al., 2020; Garg et al., 2019; Ding et al., 2019]のパフォーマンスは統計モデルのそれを超えています。 0.79
However, they heavily rely on sophisticated translation models. しかし、それらは高度な翻訳モデルに大きく依存している。 0.57
In this study, we propose a Super Lightweight Unsupervised word Alignment (SLUA) model, in which a bidirectional symmetric attention trained with a contrastive learning objective is introduced, and an agreement loss is employed to bind the attention maps, such that the alignments follow mirror-like symmetry hypothesis. 本研究では,コントラスト学習目的で訓練された双方向の対称的注意を取り入れた超軽量非教師付き単語アライメント(SLUA)モデルを提案し,アライメントがミラー様対称性仮説に従うようにアライメントマップを結合するために合意の喪失を用いる。 0.85
Experimental results on several public benchmarks demonstrate that our model achieves competitive, if not better, performance compared to the state of the art in word alignment while significantly reducing the training and decoding time on average. いくつかの公開ベンチマークにおける実験結果から,本モデルの性能は,単語アライメントにおける技術水準と比較して,平均的なトレーニング時間と復号時間を大幅に削減しながら,競争力を発揮できることが示されている。 0.69
Further ablation analysis and case studies show the superiority of our proposed SLUA. さらなるアブレーション分析とケーススタディは,提案したSLUAの優位性を示している。 0.63
Notably, we recognize our model as a pioneer attempt to unify bilingual word embedding and word alignments. 特に,二言語の単語埋め込みと単語アライメントを統一する先駆的な試みとして認識した。 0.63
Encouragingly, our approach achieves 16.4× speedup against GIZA++, and 50× parameter compression compared with the Transformer-based alignment methods. GIZA++に対する16.4×スピードアップと、Transformerベースのアライメント法と比較して50×パラメータ圧縮を実現しました。 0.56
We will release our code to facilitate the community. コミュニティを促進するためにコードをリリースします。 0.72
1 Introduction Word alignment, aiming to find the word-level correspondence between a pair of parallel sentences, is a core component of the statistical machine translation (SMT, [Brown et al., 1993]). 1 単語アライメントは、一対のパラレル文間の単語レベルの対応を見つけることを目的としており、統計機械翻訳(SMT, [Brown et al., 1993])の中核的な構成要素である。 0.82
It also has benefited several downstream tasks, e.g., computer-aided translation [Dagan et al., 1993], semantic role labeling [Kozhevnikov and Titov, 2013], cross-lingual dataset creation [Yarowsky et al., 2001] and cross-lingual modeling [Ding et al., 2020]. また、コンピュータ支援翻訳(Dagan et al., 1993)、セマンティックロールラベリング(Kozhevnikov and Titov, 2013)、クロスリンガルデータセット生成(Yarowsky et al., 2001)、クロスリンガルモデリング(Ding et al., 2020)などの下流タスクにもメリットがある。
訳抜け防止モード: また、いくつかの下流タスク、例えばコンピュータ支援翻訳(Dagan et al , 1993)の恩恵を受けている。 意味的役割ラベリング [Kozhevnikov and Titov, 2013 ], cross - lingual dataset creation] Yarowsky et al , 2001 ] そしてクロス-言語モデリング [Ding et al , 2020 ]
0.87
Recently, in the era of neural machine translation (NMT, [Bahdanau et al., 2015; Vaswani et al., 2017]), the attention mechanism plays the role of the alignment model in translation system. 最近、 ニューラルマシン翻訳の時代(NMT[Bahdanau et al., 2015; Vaswani et al., 2017])において、この注意メカニズムは翻訳システムにおけるアライメントモデルの役割を担う。 0.70
Unfortunately, [Koehn and Knowles, 残念ながら、[Koehn and Knowles]。 0.81
Figure 1: Two examples of word alignment. 図1: 単語アライメントの2つの例。 0.83
The upper and bottom cases are the Chinese and Japanese references, respectively. 上部と下部のケースは、それぞれ中国語と日本語の参照です。 0.73
2017] show that attention mechanism may in fact dramatically diverge with word alignment. 2017] 注意メカニズムは、実際には単語アライメントと劇的に異なる可能性があることを示しています。 0.52
The works of [Li et al., 2019; Ghader and Monz, 2017] also confirm this finding. Li et al., 2019; Ghader and Monz, 2017]の作品もこの発見を確認しています。 0.86
Although there are some studies attempt to mitigate this problem, most of them are rely on a sophisticated translation architecture [Zenkel et al., 2020; Garg et al., 2019]. この問題を緩和しようとする研究はいくつかあるが、そのほとんどは高度な翻訳アーキテクチャ(Zenkel et al., 2020; Garg et al., 2019)に依存している。 0.80
These methods are trained with a translation objective, which computes the probability of each target token conditioned on source tokens and previous target tokens. これらのメソッドは翻訳目的でトレーニングされ、ソーストークンと以前のターゲットトークンで条件付けられた各ターゲットトークンの確率を計算する。 0.74
This will bring tremendous parameters and noisy alignments. これは膨大なパラメータとノイズの多いアライメントをもたらす。 0.65
Most recent work avoids the noisy alignment of translation models but employed too much expensive human-annotated alignments [Stengel-Eskin et al., 2019]. 最近の研究では、翻訳モデルのノイズの多いアライメントを避けますが、人為的なアライメントが高すぎる[Stengel-Eskin et al., 2019]。 0.58
Given these disadvantages, simple statistical alignment tools, e.g., FastAlign [Dyer et al., 2013] and GIZA++ [Och and Ney, 2003]1, are still the most representative solutions due to its efficiency and unsupervised fashion. これらの欠点を考えると、FastAlign [Dyer et al., 2013] や GIZA++ [Och and Ney, 2003]1 といった単純な統計アライメントツールは、その効率性と教師なしの手法により、依然として最も代表的なソリューションである。 0.62
We argue that the word alignment task, intuitively, is much simpler than translation, and thus should be performed before translation rather than inducing alignment matrix with heavy neural machine translation models. 単語アライメントタスクは直感的には、翻訳よりもはるかに簡単であり、重度ニューラルネットワーク翻訳モデルでアライメント行列を誘導するのではなく、翻訳前に実行するべきだと論じる。 0.70
For example, the IBM word alignment model, e.g., FastAlign, is the prerequisite of SMT. 例えば、IBMワードアライメントモデル、例えばFastAlignはSMTの前提条件である。 0.64
However, related research about super lightweight neural word alignment without NMT is currently very scarce. しかし、NMTのない超軽量ニューラルワードアライメントに関する関連研究は、現在非常に少ない。 0.74
Inspired by cross-lingual word embeddings (CLWEs) [Luong et al., 2015], we propose to implement a super lightweight unsupervised word alignment model in §3, named SLUA, which encourages the embeddings between 言語間単語埋め込み (CLWEs) [Luong et al., 2015] に触発された我々は,SLUA と呼ばれる超軽量な非教師付き単語アライメントモデルの実装を提案する。
訳抜け防止モード: 言語間単語埋め込み (CLWEs ) [ Luong et al , 2015 ] 我々は,超軽量な非教師付き単語アライメントモデルを3で実装することを提案する。 SLUA という名前で,組込みを奨励する
0.74
1GIZA++ employs the IBM Model 4 as default setting. 1GIZA++はIBM Model 4をデフォルト設定として採用している。 0.55
英語(論文から抽出)日本語訳スコア
aligned words to be closer. 一致した言葉が近くにある 0.58
We also provide the theoretical justification from mutual information perspective for our proposed contrastive learning objective in §3.4, demonstrating its reasonableness. また,3.4の対比学習目標として,相互情報の観点からの理論的正当化を行い,その合理性を示す。 0.72
Figure 1 shows an English sentence, and its corresponding Chinese and Japanese sentences, and their word alignments. 図1は、英語の文とその対応する中国語および日本語の文とその単語アライメントを示しています。 0.73
The links indicate the correspondence between English⇔Chinese and English⇔Japanese words. リンクは、英語の漢文と英語の和文の対応を示す。 0.60
If the Chinese word “ʹ” can be aligned to English word “held”, the reverse mapping should also hold. 中国語の単語「*」が英語の単語「held」に並べられる場合、逆マッピングも保持する必要があります。 0.68
Specifically, a bidirectional attention mechanism with contrastive estimation is proposed to capture the alignment between parallel sentences. 具体的には,並列文間のアライメントを捉えるために,コントラスト推定を伴う双方向注意機構を提案する。 0.75
In addition, we employ an agreement loss to constrain the attention maps such that the alignments follow symmetry hypothesis [Liang et al., 2006]. さらに、アライメントが対称性仮説[Liang et al., 2006]に従うように注意マップを制限するために合意損失を採用しています。 0.80
Our contributions can be summarized as follows: • We propose a super lightweight unsupervised alignment model (SLUA), even merely updating the embedding matrices, achieves better alignment quality on several public benchmark datasets compare to baseline models while preserving comparable training efficiency with FastAlign. 埋め込み行列を更新するだけでも、ベースラインモデルと比較していくつかの公開ベンチマークデータセットのアライメント品質が向上し、FastAlignとの比較トレーニング効率を比較できる超軽量な非監視アライメントモデル(SLUA)を提案します。
訳抜け防止モード: 貢献度は以下の通り: • 超軽量非監視アライメントモデル(SLUA)を提案します。 埋め込み行列を更新するだけでも いくつかの公開ベンチマークデータセットのアライメント品質をベースラインモデルと比較し、FastAlignとの比較トレーニング効率を向上します。
0.81
• To boost the performance of SLUA, we design a theoretically and empirically proved bidirectional symmetric attention with contrastive learning objective for word alignment task, in which we introduce extra objective to follow the mirror-like symmetry hypothesis. •sluaの性能を高めるために,単語アライメントタスクのための対照学習目標を用いて,理論上および経験的に証明された双方向対称注意をデザインし,ミラー様対称性仮説に従うための余分な目的を導入する。 0.75
• Further analysis show that the by-product of our model in training phase has the ability to learn bilingual word representations, which endows the possibility to unify these two tasks in the future. • 学習段階におけるモデルの副産物はバイリンガルな単語表現を学習する能力を有しており,これら2つのタスクを将来的に統一する可能性が示唆されている。 0.76
2 Related Work Word alignment studies can be divided into two classes: Statistical Models Statistical alignment models directly build on the lexical translation models of [Brown et al., 1993], also known as IBM models. 統計的モデル 統計的アライメントモデルはIBMモデルとしても知られる[Brown et al., 1993]の語彙的翻訳モデルに直接構築されます。
訳抜け防止モード: 2 関連作業語アライメント研究は2つのクラスに分けられる。 統計モデル 統計アライメントモデルは[Brown et al , 1993]の語彙変換モデルを直接構築する。 IBMモデルとしても知られる。
0.82
The most popular implementation of this statistical alignment model is FastAlign [Dyer et al., 2013] and GIZA++ [Och and Ney, 2000; Och and Ney, 2003]. この統計アライメントモデルの最も一般的な実装は、FastAlign [Dyer et al., 2013] と GIZA++ [Och and Ney, 2000; Och and Ney, 2003] である。 0.87
For optimal performance, the training pipeline of GIZA++ relies on multiple iterations of IBM Model 1, Model 3, Model 4 and the HMM alignment model [Vogel et al., 1996]. 最適なパフォーマンスのために、GIZA++のトレーニングパイプラインはIBM Model 1、Model 3、Model 4、HMMアライメントモデル[Vogel et al., 1996]の複数のイテレーションに依存している。
訳抜け防止モード: 最適なパフォーマンスを得るためには、GIZA++のトレーニングパイプラインはIBM Model 1の複数イテレーションに依存している。 モデル3 モデル4とHMMアライメントモデル [Vogel et al , 1996 ]
0.86
Initialized with parameters from previous models, each subsequent model adds more assumptions about word alignments. 前のモデルのパラメータで初期化され、後続のモデルには単語アライメントに関するより多くの仮定が追加される。 0.59
Model 2 introduces non-uniform distortion, and Model 3 introduces fertility. モデル2は非一様歪みを導入し、モデル3は不妊を導入する。 0.61
Model 4 and the HMM alignment model introduce relative distortion, where the likelihood of the position of each alignment link is conditioned on the position of the previous alignment link. モデル4とhmmアライメントモデルは、前回のアライメントリンクの位置に基づいて各アライメントリンクの位置の可能性を条件とする相対的歪みを導入する。 0.79
FastAlign [Dyer et al., 2013], which is based on a reparametrization of IBM Model 2, is almost the existing fastest word aligner, while keeping the quality of alignment. IBM Model 2の再パラメータ化に基づくFastAlign [Dyer et al., 2013]は、アライメントの品質を維持しながら、ほぼ既存の最速の単語アライナである。 0.70
In contrast to GIZA++, our SLUA model achieves nearly 15× speedup during training, while achieving the comparable performance. GIZA++とは対照的に、SLUAモデルはトレーニング中にほぼ15倍のスピードアップを実現し、同等のパフォーマンスを実現しています。 0.54
Encouragingly, our model is at least 1.5× faster to train than FastAlign and consistently outperforms it. 私たちのモデルはFastAlignよりも少なくとも1.5×高速で、一貫して性能を上回ります。 0.66
Neural Models Most neural alignment approaches in the literature, such as [Alkhouli et al., 2018], rely on alignments generated by statistical systems that are used as supervision for training the neural systems. ニューラルモデル 文学におけるほとんどの神経アライメントアプローチ、例えば[Alkhouli et al., 2018]は、ニューラルシステムのトレーニングの監督として使用される統計システムによって生成されるアライメントに依存している。
訳抜け防止モード: ニューラルモデル 文学におけるほとんどの神経アライメントアプローチ、例えば[Alkhouli et al , 2018 ] 統計システムによって生成されるアライメントに頼っています 神経系の訓練の監督に使われています
0.80
These approaches tend to learn to copy the alignment errors from the supervising sta[Zenkel et al., 2019] use attention to extistical models. これらのアプローチは、監視対象の sta[Zenkel et al., 2019] からのアライメントエラーのコピーを学ぶ傾向がある。 0.65
tract alignments from a dedicated alignment layer of a neural model without using any output from a statistical aligner, but fail to match the quality of GIZA++. 統計アライナからの出力を使用せずに、ニューラルネットワークの専用のアライメント層からのトラアライメントは、GIZA++の品質と一致しない。 0.66
[Garg et al., 2019] represents the current state of the art in word alignment, outperforming GIZA++ by training a single model that is able to both translate and align. [Garg et al., 2019]は,単語アライメントの最先端を表現し,翻訳とアライメントの両立が可能な単一のモデルをトレーニングすることで,GIZA++を上回ります。 0.70
This model is supervised with a guided alignment loss, and existing word alignments must be [Garg et al., 2019] provided to the model during training. このモデルは指導されたアライメントの損失で管理されており、既存のアライメントはトレーニング中にモデルに[garg et al., 2019]でなければならない。 0.71
can produce alignments using an end-to-end neural training pipeline guided by attention activations, but this approach underperforms GIZA++. 注意のアクティベーションによって導かれるエンドツーエンドの神経トレーニングパイプラインを使用してアライメントを生成することができるが、このアプローチはGIZA++に劣る。 0.46
The performance of GIZA++ is only surpassed by training the guided alignment loss using GIZA++ output. GIZA++のパフォーマンスは、GIZA++出力を使用してガイド付きアライメント損失をトレーニングすることによってのみ達成される。 0.53
[Stengel-Eskin et al., 2019] introduce a discriminative neural alignment model that uses a dot-productbased distance measure between learned source and target representation to predict if a given source-target pair should be aligned. Stengel-Eskin et al., 2019]は、学習したソースとターゲット表現の間のドット積ベースの距離測定を使用して、与えられたソースとターゲットのペアがアライメントされるべきかどうかを予測する識別的神経アライメントモデルを導入している。 0.60
Alignment decisions condition on the neighboring decisions using convolution. 畳み込みを用いた隣接意思決定におけるアライメント決定条件 0.70
The model is trained using gold alignments. モデルはゴールドアライメントを使用して訓練されます。 0.60
[Zenkel et al., 2020] uses guided alignment training, but with large number of modules and parameters, they can surpass the alignment quality of GIZA++. Zenkel et al., 2020]はガイド付きアライメントトレーニングを使用しますが、多数のモジュールやパラメータではGIZA++のアライメント品質を上回ります。 0.67
They either use translation models for alignment task, which introduces a extremely huge number of parameters (compare to ours), making the training and deployment of the model cumbersome. 彼らはアライメントタスクに翻訳モデルを使用するか、非常に多くのパラメータ(私たちのものと同じ)を導入し、モデルのトレーニングとデプロイが面倒になります。 0.68
Or they train the model with the alignment supervision, however, these alignment data is scarce in practice especially for low resource languages. あるいは、アライメントの監督でモデルをトレーニングするが、これらのアライメントデータは、特に低リソース言語では、実際にはほとんどない。 0.64
These settings make above approaches less versatile. これらの設定により、上記のアプローチはより多用途になる。 0.44
Instead, our approach is fully unsupervised at word level, that is, it does not require gold alignments generated by human annotators during training. 代わりに、我々のアプローチは単語レベルで完全に教師されていない。つまり、トレーニング中に人間のアノテータが生成する金のアライメントは不要である。 0.60
Moreover, our model achieves comparable performance and is at least 50 times smaller than them, i.e., #Parameters: 4M (ours) vs. 200M (above). さらに、我々のモデルは同等の性能を達成し、少なくとも50倍小さい(#Parameters: 4M (ours) vs. 200M (above))。 0.88
3 Our Approach Our model trains in an unsupervised fashion, where the word level alignments are not provided. 3 我々のアプローチ 我々のモデルは、単語レベルのアライメントが提供されない教師なしの方法で訓練する。 0.64
Therefore, we need to leverage sentence-level supervision of the parallel corpus. したがって,並列コーパスの文レベル管理を活用する必要がある。 0.62
To achieve this, we introduce negative sampling strategy with contrastive learning to fully exploit the corpus. これを達成するために、陰性サンプリング戦略とコントラスト学習を導入し、コーパスを十分に活用します。 0.57
Besides, inspired by the concept of cross-lingual word embedding, we design the model under the following assumption: If a target token can be aligned to a source token, then the dot product of their embedding vectors should be large. さらに、クロス言語の単語埋め込みの概念に触発されて、以下の仮定の下でモデルを設計する: ターゲットトークンがソーストークンに整列できるなら、その埋め込みベクトルのドット積は大きいべきである。 0.71
Figure-2 shows the schema of our approach SLUA. 図2は、我々のアプローチ SLUA のスキーマを示しています。 0.58
3.1 Sentence Representation For a given source-target sentence pair (s, t), si, tj ∈ Rd represent the i-th and j-th word embeddings for the source and target sentences, respectively. 3.1 Sentence Representation 与えられたソースとターゲットの文ペア (s, t), si, tj ∈ Rd はそれぞれ、ソースとターゲットの文に対する i-th と j-th の単語埋め込みを表す。 0.79
In order to capture the contextualized information of each word, we perform mean pooling 各単語の文脈情報を取得するために,平均プールを行う。 0.65
英語(論文から抽出)日本語訳スコア
Figure 2: Illustration of the SLUA, where a pair of sentences are given as example. 図2:一対の文を例に挙げたSLUAのイラストレーション。 0.61
Each xi and yj are the representation of words in source and target part respectively. xi と yj はそれぞれ、ソース部とターゲット部における単語の表現である。 0.77
Given yj, we can calculate context vector in source part. yj を与えられたら、ソース部分のコンテキストベクターを計算できます。 0.68
The NCE training objective is encouraging the dot product of this context vector and yj to be large. NCE トレーニングの目的は、このコンテキストベクトルと yj のドット積が大きくなることを奨励している。
訳抜け防止モード: NCEトレーニングの目標が奨励されている この文脈ベクトルとyjの点積は大きいのです
0.77
The process in the other direction is consistent. 他の方向のプロセスは一貫しています。 0.75
By stacking all of the soft weights, two attention maps As→t and At→s can be produced, which will be bound by an agreement loss to encourage symmetry. すべての柔らかい重みを積み重ねることで、2つの注意写像 As→t と At→s が生成され、対称性を促進するための合意損失によって束縛される。 0.63
operation with the representations of its surrounding words. 周囲の言葉の表現で操作すること。 0.64
Padding operation is used to ensure the sequence length. パディング操作はシーケンスの長さを保証するために使用される。 0.61
As a result, the final representation of each word can be calculated by element-wisely adding the mean pooling embedding and its original embedding: その結果、各単語の最終的な表現は、平均プール埋め込みとその元の埋め込みを要素的に加えることで計算できる。 0.78
xi =MEANPOOL([si]win) + si, the pooling window size. xi =MEANPOOL([si]win) + si, プールウィンドウサイズ。 0.70
(1) We can representations the (1)表現できる はあ? 0.45
derive sentence where win is therefore level (x1, x2, ..., x|s|), (y1, y2, ..., y|t|) for s and t. 3.2 Bidirectional Symmetric Attention Bidirectional symmetric attention is the basic component of our proposed model. 派生 文 そこで, y1, y2, ..., y|t|) の s と t.2 双方向対称性 双方向対称性 注意は, 提案されたモデルの基本的要素である。
訳抜け防止モード: 派生 文 勝利がレベル(x1,x2,...)である場合 x|s| ) ( y1, y2, ..., y|t| ) for s and t.3.2 Bidirectional Symmetric Attention Bidirectional symmetric attention is the basic component of our model。
0.60
The aim of this module is to generate the source-to-target (aka. このモジュールの目的は、source-to-target(別名)を生成することです。 0.64
s2t) and target-to-source (aka. s2t) と target-to-source (別名。 0.57
t2s) soft attention maps. t2s) ソフトアテンションマップ。 0.72
The details of the attention mechanism: given a source side word representation xi as query qi ∈ Rd and pack all the target tokens together into a matrix Vt ∈ R|t|×d. 注意メカニズムの詳細: ソース側単語表現 xi をクエリ qi ∈ Rd として与え、すべてのターゲットトークンを行列 Vt ∈ R|t|×d にまとめてパックする。 0.84
The attention context can be calculate as: ATTENTION (qi, Vt, Vt) = (ai 注意コンテキストは次のように計算できる。 attention (qi, vt, vt) = (ai) 0.84
(2) t ∈ R1×|t| represents the attention probawhere the vector ai bilities for qi in source sentence over all the target tokens, in which each element signifies the relevance to the query, and can be derived from: (2) t ∈ R1×|t| は、すべてのターゲットトークン上のソース文中の qi のベクトル ai ビリティーを、各要素がクエリの関連性を示し、そこから導出できる注意を表す。 0.79
(cid:124) t · Vt) (酸性:124) t · Vt) 0.85
t = SOFTMAX (Vt · qi) ai t = SOFTMAX (Vt · qi) ai 0.85
(3) For simplicity, we denote the attention context of qi in the target side as attt(qi). (3)単純化のために、ターゲット側における qi の注意コンテキストを attt(qi) と表現する。 0.80
s2t attention map As,t ∈ R|s|×|t| is constructed by stacking the probability vectors ai t corresponding to all the source tokens. s2t 注意マップ t ∈ R|s|×|t| は、すべての元トークンに対応する確率ベクトル ai t を積み重ねて構築される。 0.68
Reversely, we can obtain t2s attention map At,s in a symmetric way. 逆に、t2s 注意マップ At,s を対称的に得ることができる。 0.71
Then, these two attention matrices As,t and At,s will be used to decode alignment links. 次に、これら2つの注意行列 as,t と ats はアライメントリンクのデコードに使用される。 0.79
Take s2t for example, given a target token, the source token with the highest attention weight is viewed as the aligned word. 例えば、s2t を取ると、ターゲットトークンが与えられると、最も注意力の高いソーストークンが整列ワードとみなされます。 0.63
(cid:124) , (cid:124) , 0.82
. 3.3 Agreement Mechanism t,s should be Intuitively, the two attention matrices As,t and AT very close. . 3.3 合意機構 t,s は直観的に、2つの注意行列 as,t と非常に近い。 0.82
However, the attention mechanism suffers from symmetry error in different direction [Koehn and Knowles, 2017]. しかし、注意機構は異なる方向の対称性誤差に悩まされている[Koehn and Knowles, 2017]。 0.80
To bridge this discrepancy, we introduce agreement mechanism [Liang et al., 2006], acting like a mirror that precisely reflects the matching degree between As,t and At,s, which is also empirically confirmed in machine translation [Levinboim et al., 2015]. この矛盾を解消するために,as,t と at,s の一致度を正確に反映する鏡のように振る舞う合意機構 [liang et al., 2006] を導入し,機械翻訳 (levinboim et al., 2015) においても実証的に確認する。 0.77
In particular, we use an agreement loss to bind above two matrices: Lossdisagree = 特に、合意損失を使って2つの行列の上に結合する: Lossdisagree = 0.76
(cid:88) (cid:88) (cid:88) (cid:88) 0.78
i,j − At,s i,j − at,s 0.82
j,i )2. (As,t j,i )2。 (as,t) 0.86
(4) i j In §4.6, we empirically show this agreement can be complementary to the bidirectional symmetric constraint, demonstrating the effectiveness of this component. (4) 私は j 4.6では、この合意が双方向対称制約を補完し得ることを実証的に示し、この成分の有効性を示す。 0.73
3.4 Training Objective and Theoretical 3.4 訓練目的と理論 0.81
Justification Suppose that (qi, attt(qi)) is a pair of s2t word representation and corresponding attention context sampled from the joint distribution pt(q, attt(q)) (hereinafter we call it a positive pair), the primary objective of the s2t training is to maximize the alignment degree between the elements within a positive pair. 正当化 qi, attt(qi))が一対のs2tワード表現であり、結合分布pt(q, attt(q))からサンプリングされた対応する注意コンテキストであると仮定すると(以下、正のペアと呼ぶ)、s2tトレーニングの主な目的は、正のペア内の要素間のアライメント度を最大化することである。 0.60
Thus, we first define an alignment function by using the sigmoid inner product as: そこで,まず,シグモイド内積を用いてアライメント関数を定義する。 0.58
ALIGN(q, attt(q)) = σ((cid:104)q, attt(q)(cid:105)), ALIGN(q, attt(q)) = σ((cid:104)q, attt(q)(cid:105))) 0.96
(5) where σ(·) denotes the sigmoid function and (cid:104)·,·(cid:105) is the inner product operation. (5) ここでσ(·)はシグモイド関数を表し、(cid:104)··(cid:105)は内積演算である。 0.82
However, merely optimizing the alignment of positive pairs ignores important positive-negative relation knowledge [Mikolov et al., 2013]. しかし、単に正のペアのアライメントを最適化するだけで、重要な正負の関係知識は無視されます [Mikolov et al., 2013]。 0.53
To make the training process more informative, we reform the overall objective in the contrastive learning man- 学習過程をより有意義なものにするために,我々はコントラスト学習者における全体的な目標を改革する 0.62
x1y1x2y2xiyjx s -1y t -1x sy tContext VectorContext Vector0.20.10.10.10. 50.50.10.100.2NCE LOSSNCE LOSSAstAst x1y1x2y2xiyjx s -1y t -1x sy tContext VectorContext Vector0.20.10.10.10. 50.10.100.2NCE LOSSNCE LOSSAstAst 0.33
英語(論文から抽出)日本語訳スコア
Method NNSA FastAlign SLUA 方法 NNSA FastAlign SLUA 0.80
EN-FR FR-EN sym RO-EN EN-RO sym DE-EN EN-DE sym 29.5 27.0 24.8 EN-FR-EN sym RO-EN EN-RO sym DE-EN EN-DE sym 29.5 27.0 24.8 0.50
36.3 32.0 28.0 36.3 32.0 28.0 0.47
24.2 15.9 15.6 24.2 15.9 15.6 0.47
22.2 16.4 15.3 22.2 16.4 15.3 0.47
45.5 35.5 35.2 45.5 35.5 35.2 0.47
40.3 32.1 31.6 40.3 32.1 31.6 0.47
15.7 10.5 9.2 15.7 10.5 9.2 0.47
36.9 28.4 31.1 36.9 28.4 31.1 0.47
47.0 33.8 34.3 47.0 33.8 34.3 0.47
Table 1: AER of each method in different direction. 表1:異なる方向のそれぞれのメソッドのaer。 0.77
“sym” means grow-diag symmetrization. sym”は成長ダイアログのシンメトリゼーションを意味する。 0.48
], ner [Saunshi et al., 2019; Oord et al., 2018] with Noise Contrastive Estimation (NCE) loss [Mikolov et al., 2013]. ], ノイズコントラスト推定 (NCE) による ner [Saunshi et al., 2019; Oord et al., 2018] with noise Contrastive Estimation (NCE) loss [Mikolov et al., 2013]。 0.72
Specif2 ically, we first sample k negative word representations qj from the margin pt(q). Specif2 は、最初にマージン pt(q) から k の否定的な単語表現 qj をサンプリングする。 0.74
Then, we can formulate the overall NCE objective as following: Lossi その後、NCEの全体目標を次のように定式化できます。 0.59
s→t = − [log s→t = − [log] 0.80
E {attt(qi),qi,qj} へえ {attt(qi,qi,qj} 0.63
ALIGN(qi, attt(qi)) +(cid:80)k ALIGN(qi, attt(qi)) +(cid:80)k 0.96
ALIGN(qi, attt(qi)) ALIGN(qi, attt(qi)) 0.85
j=1 ALIGN(qj, attt(qi)) (6) It is evident that the objective in Eq. j=1 ALIGN(qj, attt(qi)) (6) 目的が Eq であることは明らかである。 0.92
(6) explicitly encourages the alignment of positive pair (qi, attt(qi)) while simultaneously separates the negative pairs (qj, attt(qi)). (6) は正の対 (qi, attt(qi)) のアライメントを明示的に奨励し、同時に負の対 (qj, attt(qi)) を分離する。 0.76
Moreover, a direct consequence of minimizing Eq. さらに、Eqを最小化する直接的な結果。 0.71
(6) is that the optimal estimation of the alignment between the representation and attention context is proportional to the ratio of joint distribution and the product of margins pt(q)·pt(attt(q)) which is the point-wise mutual information, and we can further have the following proposition with repect to the mutual information: Proposition 1. (6)は、表現と注意のコンテキスト間のアライメントの最適推定は、ポイントワイズ相互情報であるマージンpt(q)·pt(attt(q))の関節分布と積の比率に比例し、我々はさらに、相互情報に応答して次の提案をすることができます。 0.74
The mutual information between the word representation q and its corresponding attention context attt(q) is lower-bounded by the negative Lossi s→t in Eq. 単語表現qと対応する注意コンテキストattt(q)との相互情報は、eqにおける負の損失s→tにより下限となる。 0.74
(6) as: pt(q,attt(q)) (6)下記の通り。 pt(q,attt(q)) 0.73
s→t, where k is the number of the negative samples. s→t、ここでkは負のサンプルの数です。 0.73
I(q, attt(q)) ≥ log(k) − Lossi I(q, attt(q)) ≥ log(k) − Lossi 0.85
(7) The detailed proof can be found in [Oord et al., 2018]. (7) 詳細な証明は[Oord et al., 2018]で見ることができる。 0.81
Proposition 1 indicates that the lower bound of the mutual information I(q, attt(q)) can be maximized by achieving the optimal NCE loss, which provides theoretical guarantee for our proposed method. 提案1は,提案手法の理論的保証を提供する最適NCE損失を達成することにより,相互情報I(q,attt(q))の下位境界を最大化可能であることを示す。 0.87
Our training schema over parallel sentences is mainly inspired by the bilingual skip-gram model [Luong et al., 2015] and invertibility modeling [Levinboim et al., 2015]. 並列文に対するトレーニングスキーマは主に,バイリンガルのスキップグラムモデル [luong et al., 2015] とインバータビリティモデリング [levinboim et al., 2015] に着想を得ている。 0.79
Therefore, the ultimate training objective should consider both forward (s → t) and backward (t → s) direction, combined with the mirror agreement loss. したがって、究極的な訓練目的は、前方(s → t)方向と後方(t → s)方向の両方を、ミラー合意損失と組み合わせて考えるべきである。 0.69
Technically, the final training objective is: Loss = 技術的には、最終目標は以下のとおりである。 0.51
|s|(cid:88) |s|(cid:88) 0.65
|t|(cid:88) |t|(cid:88) 0.65
Lossj Lossi s→t + Lossj ロスシ s→t+ 0.69
t→s + α · Lossdisagree, (8) t→s + α · Lossdisagree, (8) 0.98
i j 2In the contrastive learning setting, qj and attt(qi) can be sampled from different sentences. 私は j 2 対比学習設定において、異なる文からqjとattt(qi)をサンプリングすることができる。 0.69
If qj and attt(qi) are from the same sentence, i (cid:54)= j; otherwise, j can be a random index within the sentence length. qj と attt(qi) が同じ文のものである場合、i (cid:54)= j である。
訳抜け防止モード: qj と attt(qi ) が同じ文であるなら、 i ( cid:54)= j でなければ、j は文の長さ内でランダムなインデックスとなる。
0.78
For simplicity, in this paper, we use qj where i (cid:54)= j to denote the negative samples, although with a little bit ambiguity. 単純性のために、この論文では、i (cid:54)= j という qj を用いて、少しあいまいさがあるが、負のサンプルを表す。
訳抜け防止モード: 単純さのため、本稿ではqjを使用します。 i (cid:54)= j は負のサンプルを表す。 曖昧さが少しありますが
0.77
EN-FR RO-EN DE-EN EN-FR RO-EN DE-EN 0.47
Model Naive Attention NNSA FastAlign SLUA [Zenkel et al., 2020] [Garg et al., 2019] GIZA++ Model Naive Attention NNSA FastAlign SLUA [Zenkel et al., 2020] [Garg et al., 2019] GIZA++ 0.93
31.4 15.7 10.5 9.2 8.4 7.7 5.5 31.4 15.7 10.5 9.2 8.4 7.7 5.5 0.43
39.8 40.3 32.1 31.6 24.1 26.0 26.5 39.8 40.3 32.1 31.6 24.1 26.0 26.5 0.43
50.9 - 27.0 24.8 17.9 20.2 18.7 50.9 - 27.0 24.8 17.9 20.2 18.7 0.63
Table 2: Alignment performance (with grow-diagonal heuristic) of each model. 表2:各モデルのアライメント性能(成長対角ヒューリスティック)。 0.70
where Losss→t and Losst→s are symmetrical and α is a loss weight to balance the likelihood and disagreement loss. losss→t と losst→s は対称であり、α は確率と不一致の損失のバランスをとる損失重みである。 0.64
4 Experiments 4.1 Datasets and Evaluation Metrics We perform our method on three widely used datasets: English-French (EN-FR), Romanian-English (RO-EN) and German-English (DE-EN). 4 実験 4.1 データセットと評価メトリクス 広く使用されている3つのデータセット(英語-フランス語 (EN-FR)、ルーマニア語-英語 (RO-EN)、ドイツ語-英語 (DE-EN)) で実施します。 0.54
Training and test data for EN-FR and RO-EN are from NAACL 2003 share tasks [Mihalcea and Pedersen, 2003]. EN-FR と RO-EN のトレーニングおよびテストデータは NAACL 2003 のタスクの共有である [Mihalcea and Pedersen, 2003]。 0.86
For RO-EN, we merge Europarl v8 corpus, increasing the amount of training data from 49K to 0.4M. RO-ENでは、Europarl v8コーパスをマージし、トレーニングデータの量は49Kから0.4Mに増加します。 0.55
For DE-EN, we use the Europarl v7 corpus as training data and test on the gold alignments. DE-ENでは、Europarl v7コーパスをトレーニングデータとして使用し、ゴールドアライメントをテストします。 0.63
All above data are lowercased and tokenized by Moses. 上記のすべてのデータは、Mosesによってローケース化およびトークン化されます。 0.46
The evaluation metrics are Precision, Recall, F-score (F1) and Alignment Error Rate (AER). 評価指標は、精度、リコール、Fスコア(F1)、アライメントエラーレート(AER)である。 0.76
4.2 Baseline Methods Besides two strong statistical alignment models, i.e. 4.2 ベースライン法 2 つの強い統計アライメントモデル、すなわち 0.82
FastAlign and GIZA++, we also compare our approach with neural alignment models where they induce alignments either from the attention weights or through feature importance measures. fastalignとgiza++は、注意重みから、あるいは特徴重要度によってアライメントを誘導するニューラルアライメントモデルと比較します。
訳抜け防止モード: FastAlign と GIZA++ のアプローチをニューラルアライメントモデルと比較する。 彼らは注意重みからアライメントを誘導する または特徴的重要度によって
0.68
FastAlign One of the most popular statistical method which log-linearly reparameterize the IBM model 2 proposed by [Dyer et al., 2013]. FastAlign は [Dyer et al., 2013] によって提案された IBM モデル 2 を線形に再パラメータ化する最もポピュラーな統計手法のひとつです。 0.71
GIZA++ A statistical generative model [Och and Ney, 2003], in which parameters are estimated using the Expectation-Maximiza tion (EM) algorithm, allowing it to automatically extract bilingual lexicon from parallel corpus without any annotated data. GIZA++ A statistics generative model [Och and Ney, 2003], which parameters are estimated using the expectation-Maximiza tion (EM) algorithm, which can automatically extract bilingual lexicon from parallel corpus without no annotated data。 0.82
NNSA A unsupervised neural alignment model proposed by [Legrand et al., 2016], which applies an aggregation operation borrowed from the computer vision to design sentencelevel matching loss. nnsaは[legrand et al., 2016]によって提案された教師なしニューラルネットワークアライメントモデルであり、コンピュータビジョンから借用した集約操作を適用して文レベルのマッチング損失を設計する。
訳抜け防止モード: NNSA [Legrand et al ] による教師なし神経アライメントモデルの提案 2016年 ] コンピュータビジョンから借用された集約操作を適用して、文レベルの一致損失を設計する。
0.72
In addition to the raw word indices, fol- 生語のインデックスに加えて、fol- 0.77
英語(論文から抽出)日本語訳スコア
Figure 3: An visualized alignment example. 図3: 視覚化されたアライメントの例。 0.68
(a-c) illustrate the effects when gradually adding the symmetric component, (d) shows the result of FastAlign, and (e) is the ground truth. (a-c) 対称成分を徐々に追加した場合の効果を示し、(d) は FastAlign の結果を示し、(e) は基底真理である。 0.76
The more emphasis is placed on the symmetry of the model, the better the alignment results model achieved. モデルの対称性に重点が置かれるほど、アライメントの結果モデルはより良くなります。 0.74
Meanwhile, as depicted, the results of the attention map become more and more diagonally concentrated. 一方、描かれているように、注目マップの結果はますます斜めに集中するようになります。 0.53
lowing three extra features are introduced: distance to the diagonal, part-of-speech and unigram character position. 対角線への距離、音声の一部、ユニグラムの文字位置の3つの付加的な特徴が導入された。
訳抜け防止モード: 余分な3つの特徴を減らし is introduced: distance to the diagonal, part - of - speech ユニグラム文字の位置も
0.61
To make a fair comparison, we report the result of raw feature in NNSA. 公平な比較を行うために、NNSAの生機能の結果を報告します。 0.76
Naive Attention Averaging all attention matrices in the Transformer architecture, and selecting the source unit with the maximal attention value for each target unit as alignments. Naive Attention トランスフォーマーアーキテクチャのすべての注意行列を平均化し、各ターゲットユニットの最大注意値を持つソースユニットをアライメントとして選択します。 0.82
We borrow the results reported in [Zenkel et al., 2019] to highlight the weakness of such naive version, where significant improvement are achieved after introducing an extra alignment layer. 我々は[zenkel et al., 2019]で報告された結果を借りて,アライメント層の追加によって大幅な改善が達成されるような,ナイーブなバージョンの弱点を強調した。 0.69
Others [Garg et al., 2019] and [Zenkel et al., 2020] represent the current developments in word alignment, which both outperform GIZA++. その他 [Garg et al., 2019] と [Zenkel et al., 2020] は,どちらも GIZA++ を上回っている,単語アライメントの現在の発展を表している。 0.73
However, They both implement the alignment model based on a sophisticated translation model. しかし、両者とも高度な翻訳モデルに基づいてアライメントモデルを実装している。 0.75
Further more, the former uses the output of GIZA++ as supervision, and the latter introduces a pre-trained state-of-the-art neural translation model. さらに、前者はGIZA++の出力を監督として使用し、後者はトレーニング済みの最先端のニューラルネットワークモデルを導入する。 0.56
It is unfair to compare our results directly with them. 我々の結果を彼らと直接比較するのは不公平だ。 0.69
We report them in Table 2 as references. 表2で参照として報告します。 0.74
4.3 Setup For our method (SLUA), all the source and target embeddings are initialized by xavier method [Glorot and Bengio, 2010]. 4.3 セットアップ 我々の方法(SLUA)では、すべてのソースとターゲットの埋め込みはxavier法により初期化されます [Glorot and Bengio, 2010]。 0.71
The embedding size d and pooling window size are set to 256 and 3, respectively. 埋め込みサイズdとプールウィンドウサイズはそれぞれ256と3に設定されている。 0.74
The hyper-parameters α is tested by grid search from 0.0 to 1.0 at 0.1 intervals. ハイパーパラメータ α は 0.1 間隔で 0.0 から 1.0 までのグリッド探索によってテストされる。 0.64
For FastAl- ign, we train it from scratch by the open-source pipeline3. FastAl- ign, オープンソースのpipeline3でスクラッチからトレーニングしています。 0.75
Also, we report the results of NNSA and machine translation based model(Sec.§4.2). また、NNSAと機械翻訳に基づくモデル(Sec.4.2)の結果も報告する。 0.76
All experiments of SLUA are run on 1 Nvidia K80 GPU. SLUAのすべての実験は1 Nvidia K80 GPUで実行されます。 0.81
The CPU model is Intel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHz. CPUモデルはIntel(R) Xeon(R) CPU E5-2620 v3 @ 2.40GHzである。 0.80
Both FastAlign and SLUA take nearly half a hour to train one million samples. FastAlignとSLUAの両方が100万のサンプルを訓練するのに約半時間かかります。 0.66
4.4 Main Results Table 2 summarizes the AER of our method over several language pairs. 4.4 主な結果 表2は、我々のメソッドのAERを複数の言語ペアで要約します。 0.69
Our model outperforms all other baseline models. 私たちのモデルは、他のすべてのベースラインモデルより優れています。 0.43
Comparing to FastAlign, we achieve 1.3, 0.5 and 2.2 AER improvements on EN-FR, RO-EN, DE-EN respectively. FastAlignと比較して、EN-FR、RO-EN、DE-ENでそれぞれ1.3、0.5、および2.2のAER改善を実現した。 0.46
Notably, our model exceeds the naive attention model in a big margin in terms of AER (ranging from 8.2 to 26.1) over all language pairs. 特に、私たちのモデルは、すべての言語ペアのAER(8.2から26.1)の点で大きなマージンで素朴な注意モデルを超えています。 0.73
We attribute the poor performance of the straightforward attention model (translation model) to its contextualized word representation. 我々は,直観的注意モデル(翻訳モデル)の性能の低さを文脈化された単語表現と比較した。 0.64
For instance, when translating a verb, contextual information will be paid attention to determine the form (e.g., tense) of the word, that may interfere the word alignment. 例えば、動詞を翻訳する場合、文脈情報は、単語のアライメントを妨げる可能性のある単語の形式(例えば、テンソル)を決定するために注意が払われる。 0.74
Experiment results in different alignment directions can be found in Table 1. 異なるアライメント方向の実験結果は、表1に示されています。 0.76
The grow-diag symmetrization benifits all the models. 成長ダイアグシンメトリゼーションはすべてのモデルに相応しい。 0.66
3https://github.com/ lilt/alignment-scrip ts 3https://github.com/ lilt/alignment-scrip ts 0.31
英語(論文から抽出)日本語訳スコア
Setup Losss→t Losst→s Losss↔t SLUA セットアップロス→tロス→sロススワ 0.38
P 74.9 71.9 81.5 91.8 P 74.9 71.9 81.5 91.8 0.50
R 86.0 85.3 90.1 89.1 R 86.0 85.3 90.1 89.1 0.50
F1 80.4 77.3 86.1 90.8 F1 80.4 77.3 86.1 90.8 0.47
AER 20.9 23.3 14.1 9.2 AER 20.9 23.3 14.1 9.2 0.50
Table 3: Ablation results on EN-FR dataset. 表3: EN-FRデータセットのアブレーション結果。 0.67
EN china chinese china’s republic china’ EN China China China’s Republic China’s Republic China’ 0.77
EN cat dog toys cats dogs china 猫犬のおもちゃ猫犬 中国 0.72
DE chinas china chinesische chinesischer chinesischem cat 中華民国 chinesische chinesischer chinesischem cat 0.63
DE hundefelle katzenfell hundefellen DE hundefelle katzenfell hundefellen 0.85
kuchen schlafen Kuchen schlafen 0.74
EN distinctive distinct peculiar differences EN 独特な独特な違い 0.79
diverse EN love affection 多種多様 EN愛 愛情 0.65
loved loves passion distinctive DE 愛の情熱 特色 DE 0.70
unverwechselbaren unverwechselbaren 0.85
besonderheiten besonderheiten 0.85
markante charakteristische マーカンテ charakteristische 0.68
einzelnen love エインツェルネン 愛 0.42
DE liebe liebt liebe lieben lieb 嘘つき、嘘つき、嘘つき、嘘つき 0.10
Table 4: Top 5 nearest English (EN) and German (DE) words for each of the following words: china, distinctive, easily, cat, love and January. 表4: 次の単語のそれぞれのための5つの最も近い英語(EN)およびドイツ語(DE)の言葉:陶磁器、独特な、容易に、猫、愛および1月。 0.77
4.5 Speed Comparison Take the experiment on EN-FR dataset as an example, SLUA converges to the best performance after running 3 epochs and taking 14 minutes totally, where FastAlign and GIZA++ cost 21 and 230 minutes, respectively, to achieve the best results. 4.5 Speed Comparison EN-FRデータセットの実験を例にとると、SLUAは3回のエポックを実行して14分を要し、FastAlign と GIZA++ はそれぞれ21分と230分で最高の結果が得られる。 0.78
Notably, the time consumption will rise dozens of times in neural translation fashion. 特に、神経翻訳の方法では、時間消費が何十倍も増加する。 0.70
All experiments of SLUA are run on a single Nvidia P40 GPU. SLUAのすべての実験は単一のNvidia P40 GPU上で実行される。 0.81
4.6 Ablation Study To further explore the effects of several components (i.e., bidirectional symmetric attention, agreement loss) in our SLUA, we conduct an ablation study. 4.6 アブレーション研究 SLUA における複数の成分(双方向対称的注意,合意喪失など)の効果をさらに検討するため,アブレーション研究を実施している。 0.80
Table 3 shows the results on EN-FR dataset. 表3はEN-FRデータセットの結果です。 0.70
When the model is trained using only Losss→t or Losst→s as loss functions, the AER of them are quite high (20.9 and 23.3). モデルが損失関数としてLosss→tまたはLosst→sのみを使用して訓練されると、それらのAERはかなり高い(20.9および23.3)。 0.64
As expected, combined loss function improves the alignment quality significantly (14.1 AER). 予想通り、複合損失関数はアライメント品質を著しく向上させる(14.1 AER)。 0.76
It is noteworthy that with the rectification of agreement mechanism, the final combination achieves the best result (9.2 AER), indicating that the agreement mechanism is the most important component in SLUA. 合意メカニズムの修正により、最終的な組み合わせが最良の結果(9.2 AER)を達成し、合意メカニズムがSLUAの最も重要なコンポーネントであることを示します。 0.77
To better present the improvements brought by adding each component, we visualize the alignment case in Figure-3. 各コンポーネントを追加することで得られる改善をより良く示すために、図3のアライメントケースを視覚化します。 0.67
As we can see, each component is complementary to others, that is, the attention map becomes more diagonally concentrated after adding the bidirectional symmetric attention and the agreement constraint. ご覧の通り、各コンポーネントは他のコンポーネントと相補的である。すなわち、双方向対称注意と合意制約を加えた後、アテンションマップはより対角集中する。 0.69
Table-4 Figure 4: Example of the DE-EN alignment. 表4 図4: DE-ENアライメントの例。 0.74
(a) is the result of FastAlign, and (b) shows result of our model, which is closer to the gold alignment. a)はFastAlignの結果であり、(b)はゴールドアライメントに近い私たちのモデルの結果を示しています。 0.73
The horizontal axis shows German sentence “wir glauben nicht , da wir nur rosinen herauspicken sollten .”, and the vertical axis shows English sentence “we do not believe that we should cherry-pick .”. 水平軸はドイツ語の「wir glauben nicht , da wir nur rosinen herauspicken sollten .」であり、垂直軸は「我々はチェリーピックをすべきではない」という英語の文を示している。 0.80
5 Analysis Alignment Case Study We analyze an alignment example in Figure- 4. 5 分析アライメントケーススタディ 図 4 でアライメントの例を解析します。 0.86
Compared to FastAlign, our model correctly aligns “do not believe” in English to “glauben nicht” in German. fastalignと比較して、私たちのモデルは英語の“do not believe”とドイツ語の“glauben nicht”と正しく一致しています。
訳抜け防止モード: fastalignと比較して、私たちのモデルは英語で“do not believe ”を正しく一致させる ドイツ語で「glauben nicht」。
0.75
Our model, based on word representation, makes better use of semantics to accomplish alignment such that inverted phrase like “glauben nicht” can be well handled. 私たちのモデルは、単語表現に基づいて、”glauben nicht”のような逆句をうまく処理できるように、意味論をうまく利用しています。 0.69
Instead, FastAlign, relied on the positional assumption4, fails here. 代わりに、位置仮定4に依存したFastAlignはここで失敗します。 0.66
Word Embedding Clustering To further investigate the effectiveness of our model, we also analyze the word embedIn particular, following [Coldings learned by our model. 単語埋め込みクラスタリング(word embedded clustering) モデルの有効性をさらに調査するために,本モデルで学習した単語埋め込み(embeding)についても分析した。 0.68
lobert et al., 2011], we show some words together with its nearest neighbors using the Euclidean distance between their embeddings. lobert et al., 2011] は、それらの埋め込み間のユークリッド距離を用いて、近接する隣人と一緒にいくつかの単語を示す。 0.66
Table- 4 shows some examples to demonstrates that our learned representations possess a clearly clustering structure bilingually and monolingually. 表4は、学習した表現がバイリンガルとモノリンガルに明確にクラスタリング構造を持っていることを示す例を示しています。 0.58
We attribute the better alignment results to the ability of より良いアライメントの結果は、その能力に起因します。 0.58
our model that could learn bilingual word representation. バイリンガルの単語表現を学習できるモデルです 0.57
6 Conclusion and Future Work In this paper, we presented a super lightweight neural alignment model, named SLUA, that has achieved better alignment performance compared to FastAlign and other existing neural alignment models while preserving training efficiency. 6 結論と今後の作業 この論文では、トレーニング効率を維持しながら、FastAlignや他の既存のニューラルアライメントモデルよりも優れたアライメント性能を達成した超軽量ニューラルアライメントモデル、SLUAを紹介します。 0.76
We empirically and theoretical show its effectiveness and reasonableness over several language pairs. 複数の言語対に対する有効性と妥当性を実証的かつ理論的に示す。 0.65
In future works, we would further explore the relationship between CLWEs and word alignments. 今後の研究で、私たちは、clwesとwordアライメントの関係をさらに探ります。 0.60
A promising attempt is using our model as a bridge to unify cross-lingual embeddings and word alignment tasks. 有望な試みは、私たちのモデルをブリッジとして、クロス言語の埋め込みと単語アライメントタスクを統一することです。 0.61
Also, it will be interesting to design alignment model in an non-autoregressive fashion [Gu et al., 2018; Wu et al., 2020] to achieve efficient inference. また、効率的な推論を実現するために非自己回帰的なアライメントモデル(Gu et al., 2018; Wu et al., 2020)を設計することも興味深いだろう。 0.76
−(cid:12)(cid:12) i -(cid:12)(cid:12) i 0.82
4A feature h of position is introduced in FastAlign to encourage alignments to occur around the diagonal. 4FastAlignに位置の特徴hを導入し、対角線の周りのアライメントを奨励します。
訳抜け防止モード: 4A feature h of position is introduced in FastAlign 対角線の周りにアライメントを 起こすことを奨励します
0.80
h(i, j, m, n) = m − j h(i, j, m, n) = m − j 0.85
(cid:12)(cid:12), i and j are source and target indices and m and n are (cid:12)(cid:12)iとjはソースとターゲットのインデックスであり、mとnは 0.77
n the length of sentences pair. n 文の長さはペアです 0.75
英語(論文から抽出)日本語訳スコア
References [Alkhouli et al., 2018] Tamer Alkhouli, Gabriel Bretschner, and Hermann Ney. 参考文献 [Alkhouli et al., 2018] Tamer Alkhouli, Gabriel Bretschner, Hermann Ney。 0.79
On the alignment problem in multihead attention-based neural machine translation. 多頭注意型ニューラルマシン翻訳におけるアライメント問題について 0.67
In WMT, 2018. 2018年、WMTに入社。 0.59
[Bahdanau et al., 2015] Dzmitry Bahdanau, KyungHyun Cho, and Yoshua Bengio. [Bahdanau et al., 2015]Dzmitry Bahdanau,kyungHyun Cho,Yoshua Bengio 0.69
Neural machine translation by jointly learning to align and translate. 整列と翻訳を共同で学習することで、ニューラルマシン翻訳を行う。 0.60
In ICLR, 2015. 2015年、ICLR。 0.69
[Brown et al., 1993] Peter F Brown, Vincent J Della Pietra, Stephen A Della Pietra, and Robert L Mercer. (brown et al., 1993) peter f brown、vincent j della pietra、stephen a della pietra、robert l mercer。
訳抜け防止モード: [Brown et al ., 1993 ] Peter F Brown, Vincent J Della Pietra、Stephen A Della Pietra、Robert L Mercer。
0.79
The mathematics of statistical machine translation: Parameter estimation. 統計機械翻訳の数学:パラメータ推定。 0.68
Computational linguistics, 1993. 1993年の計算言語学。 0.67
[Collobert et al., 2011] Ronan Collobert, [Collobert et al., 2011] Ronan Collobert, 0.85
Jason Weston, L´eon Bottou, Michael Karlen, Koray Kavukcuoglu, and Pavel Kuksa. Jason Weston、L ́eon Bottou、Michael Karlen、Koray Kavukcuoglu、Pavel Kuksa。 0.80
Natural language processing (almost) from scratch. 自然言語処理(ほぼ)をスクラッチから行う。 0.79
Journal of machine learning research, 2011. journal of machine learning research、2011年。 0.72
[Dagan et al., 1993] Ido Dagan, Kenneth Church, [Dagan et al., 1993] Ido Dagan, Kenneth Church, 0.85
and Willian Gale. そしてウィリアン・ゲイル 0.51
Robust bilingual word alignment for machine aided translation. 機械翻訳のためのロバストバイリンガル単語アライメント。 0.65
In Very Large Corpora: Academic and Industrial Perspectives, 1993. In Very Large Corpora: Academic and Industrial Perspectives, 1993年。 0.87
[Ding et al., 2019] Shuoyang Ding, Hainan Xu, and Philipp Koehn. [Ding et al., 2019] Shuoyang Ding, Hainan Xu, Philipp Koehn。 0.77
Saliency-driven word alignment interpretation for neural machine translation. ニューラルマシン翻訳のためのサリエンス駆動ワードアライメント解釈 0.69
WMT, 2019. 2019年、WMT。 0.84
[Ding et al., 2020] Liang Ding, Longyue Wang, [Ding et al., 2020]Liang Ding, Longyue Wang, 0.83
and Dacheng Tao. そしてDacheng Tao。 0.71
Self-attention with cross-lingual position representation. 言語間位置表現による自己認識 0.58
In ACL, 2020. ACL、2020年。 0.74
[Dyer et al., 2013] Chris Dyer, Victor Chahuneau, and Noah A Smith. Dyer et al., 2013] Chris Dyer、Victor Chahuneau、Noah A Smith。 0.68
A simple, fast, and effective reparameterization of ibm model 2. ibmモデル2の単純かつ高速かつ効果的な再パラメータ化 0.82
In NAACL, 2013. 2013年、NAACL。 0.55
[Garg et al., 2019] Sarthak Garg, Stephan Peitz, Udhyakumar Nallasamy, and Matthias Paulik. [Garg et al., 2019]Sarthak Garg、Stephan Peitz、Udhyakumar Nallasamy、Matthias Paulik。 0.72
Jointly learning to align and translate with transformer models. トランスフォーマーモデルとの整合と翻訳を共同学習する。 0.75
In EMNLP, 2019. EMNLP、2019年。 0.63
[Ghader and Monz, 2017] Hamidreza Ghader and Christof Monz. [Ghader and Monz, 2017] Hamidreza Ghader氏とChristof Monz氏。 0.92
What does attention in neural machine translation pay attention to? ニューラルマシン翻訳における注意点は何か? 0.68
In IJCNLP, 2017. 2017年IJCNLPに参加。 0.69
[Glorot and Bengio, 2010] Xavier Glorot and Yoshua Bengio. [Glorot and Bengio, 2010]Xavier GlorotとYoshua Bengio。 0.78
Understanding the difficulty of training deep feedforward neural networks. ディープフィードフォワードニューラルネットワークの訓練の難しさを理解する。 0.70
In ICML, 2010. 2010年、ICML。 0.70
[Gu et al., 2018] Jiatao Gu, [Gu et al., 2018]Jiatao Gu, 0.80
James Bradbury, Caiming Xiong, Victor OK Li, and Richard Socher. James Bradbury、Caiming Xiong、Victor OK Li、Richard Socher。 0.72
Nonautoregressive neural machine translation. 非自己回帰型ニューラルマシン翻訳 0.65
In ICLR, 2018. 2018年、ICLR。 0.62
[Koehn and Knowles, 2017] Philipp Koehn and Rebecca Knowles. [Koehn and Knowles, 2017] Philipp Koehn氏とRebecca Knowles氏。 0.93
Six challenges for neural machine translation. ニューラルマシン翻訳の6つの課題。 0.69
In WNMT, 2017. 2017年、WNMT。 0.71
[Kozhevnikov and Titov, 2013] Mikhail Kozhevnikov and Ivan Titov. [Kozhevnikov and Titov, 2013]Mikhail KozhevnikovとIvan Titov。 0.76
Cross-lingual transfer of semantic role labeling models. 意味的役割ラベルモデルの言語間移動 0.71
In ACL, 2013. 2013年、ACL。 0.75
[Legrand et al., 2016] Jo¨el Legrand, Michael Auli, and Ronan Collobert. [Legrand et al., 2016] ジョエル・レグランド、マイケル・オーリ、ロナン・コロバート。 0.76
Neural network-based word alignment through score aggregation. スコアアグリゲーションによるニューラルネットワークに基づく単語アライメント 0.74
In WMT, 2016. 2016年、WMT。 0.67
[Levinboim et al., 2015] Tomer [Levinboim et al., 2015]Tomer 0.80
Vaswani, and David Chiang. Vaswani そしてデヴィッド・チェン。 0.51
Levinboim, Model Levinboim, Model 0.85
Ashish invertibility regularization: parallel data. アシッシュ可逆性 正規化:並列データ。 0.73
In NAACL, 2015. 2015年、NAACL。 0.56
Sequence alignment with or without 配列の一致または欠如 0.75
[Li et al., 2019] Xintong Li, Guanlin Li, Lemao Liu, Max Meng, and Shuming Shi. [Li et al., 2019]Xintong Li, Guanlin Li, Lemao Liu, Max Meng, Shuming Shi。 0.79
On the word alignment from neural machine translation. ニューラルマシン翻訳からの単語アライメントについて。 0.68
In ACL, 2019. 2019年、ACL。 0.76
[Liang et al., 2006] Percy Liang, Ben Taskar, and Dan Klein. [Liang et al., 2006] Percy Liang、Ben Taskar、Dan Klein。 0.74
Alignment by agreement. In NAACL, 2006. 合意による一致。 2006年、NAACL。 0.58
[Luong et al., 2015] Thang Luong, Hieu Pham, and Christopher D Manning. [Luong et al., 2015] Thang Luong、Hieu Pham、Christopher D Manning。 0.73
Bilingual word representations with monolingual quality in mind. 単言語性を考慮した二言語表現 0.63
In NAACL Workshop, 2015. 2015年NAACLワークショップに参加。 0.69
[Mihalcea and Pedersen, 2003] Rada Mihalcea and Ted PedIn [Mihalcea and Pedersen, 2003]Rada Mihalcea and Ted PedIn 0.78
ersen. An evaluation exercise for word alignment. エルセン 単語アライメントのための評価演習。 0.49
NAACL, 2003. NAACL、2003年。 0.87
[Mikolov et al., 2013] Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Mikolov et al., 2013] Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg S Corrado、Jeff Dean。
訳抜け防止モード: [Mikolov et al , 2013 ] Tomas Mikolov, Ilya Sutskever, Kai Chen氏、Greg S Corrado氏、Jeff Dean氏。
0.87
Distributed representations of words and phrases and their compositionality. 単語とフレーズの分散表現とその構成性。 0.70
In NIPS, 2013. 2013年、NIPS。 0.73
[Och and Ney, 2000] Franz Josef Och and Hermann Ney. Och and Ney, 2000]Franz Josef Och氏とHermann Ney氏。 0.75
Improved statistical alignment models. 統計アライメントモデルの改良。 0.83
In ACL, 2000. 2000年、ACLに入社。 0.67
[Och and Ney, 2003] Franz Josef Och and Hermann Ney. [Och and Ney, 2003]Franz Josef Och氏とHermann Ney氏。 0.84
A systematic comparison of various statistical alignment models. 各種統計的アライメントモデルの体系的比較。 0.74
Computational linguistics, 2003. 言語学、2003年。 0.74
[Oord et al., 2018] Aaron van den Oord, Yazhe Li, and Oriol Vinyals. Aaron van den Oord, Yazhe Li, Oriol Vinyals. [Oord et al., 2018] 0.76
Representation learning with contrastive predictive coding. コントラスト型予測符号化による表現学習 0.76
arXiv, 2018. arXiv、2018。 0.78
[Saunshi et al., 2019] Nikunj Saunshi, Orestis Plevrakis, Sanjeev Arora, Mikhail Khodak, and Hrishikesh Khandeparkar. [Saunshi et al., 2019]Nikunj Saunshi、Orestis Plevrakis、Sanjeev Arora、Mikhail Khodak、Hrishikesh Khandeparkar。 0.70
A theoretical analysis of contrastive unsupervised representation learning. 対照的非教師付き表現学習の理論的解析 0.76
In ICML, 2019. 2019年、ICML入社。 0.80
[Stengel-Eskin et al., 2019] Elias Stengel-Eskin, Tzu-Ray Su, Matt Post, and Benjamin Van Durme. Stengel-Eskin et al., 2019] Elias Stengel-Eskin, Tzu-Ray Su, Matt Post, Benjamin Van Durme。 0.95
A discriminative neural model for cross-lingual word alignment. 言語間単語アライメントのための識別型ニューラルモデル 0.68
In EMNLP, 2019. EMNLP、2019年。 0.63
[Vaswani et al., 2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. [Vaswani et al., 2017] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, Illia Polosukhin。 0.80
Attention is all you need. 注意はあなたが必要とするすべてです。 0.63
In NIPS, 2017. 2017年、NIPS。 0.73
[Vogel et al., 1996] Stephan Vogel, Hermann Ney, [Vogel et al., 1996]Stephan Vogel, Hermann Ney, 0.81
and Christoph Tillmann. そしてクリストフ・ティルマン。 0.60
HMM-based word alignment in statistical translation. 統計翻訳におけるHMMに基づく単語アライメント 0.72
In COLING, 1996. 1996年、コリング。 0.61
[Wu et al., 2020] Di Wu, Liang Ding, Fan Lu, and Jian Xie. [Wu et al., 2020] Di Wu, Liang Ding, Fan Lu, and Jian Xie。 0.84
Slotrefine: A fast non-autoregressive model for joint intent detection and slot filling. Slotrefine:ジョイントインテント検出とスロット充填のための高速非自動回帰モデル。 0.72
In EMNLP, 2020. EMNLP、2020年。 0.71
[Yarowsky et al., 2001] David Yarowsky, Grace Ngai, and Richard Wicentowski. [Yarowsky et al., 2001]David Yarowsky, Grace Ngai, Richard Wicentowski。 0.78
Inducing multilingual text analysis tools via robust projection across aligned corpora. コーパス間の頑健なプロジェクションによる多言語テキスト解析ツールの導入 0.74
In HLT, 2001. 2001年、HLT。 0.66
[Zenkel et al., 2019] Thomas Zenkel, Joern Wuebker, and John DeNero. [Zenkel et al., 2019]Thomas Zenkel、Joern Wuebker、John DeNero。 0.74
Adding interpretable attention to neural In arXiv, translation models improves word alignment. Neural In arXivに解釈可能な注意を加えることで、翻訳モデルは単語アライメントを改善する。 0.62
2019. [Zenkel et al., 2020] Thomas Zenkel, Joern Wuebker, and John DeNero. 2019. (Zenkel et al., 2020)Thomas Zenkel、Joern Wuebker、John DeNero。 0.79
End-to-end neural word alignment outperforms GIZA++. エンドツーエンドのニューラルワードアライメントはGIZA++より優れている。 0.31
In ACL, 2020. ACL、2020年。 0.74
               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。