論文の概要: Leveraging Neural Machine Translation for Word Alignment
- arxiv url: http://arxiv.org/abs/2103.17250v1
- Date: Wed, 31 Mar 2021 17:51:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 16:25:00.308376
- Title: Leveraging Neural Machine Translation for Word Alignment
- Title(参考訳): 単語アライメントのためのニューラルマシン翻訳の活用
- Authors: Vil\'em Zouhar and Daria Pylypenko
- Abstract要約: 機械翻訳(MT)システムは、訓練された注意頭を用いて単語アライメントを生成することができる。
単語アライメントは理論上、いかなる注意に基づくNMTの副産物であるため、これは便利である。
アライメントスコアから単語アライメントを抽出する方法に関するさまざまなアプローチを要約し、NMTからスコアを抽出する方法を探ります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The most common tools for word-alignment rely on a large amount of parallel
sentences, which are then usually processed according to one of the IBM model
algorithms. The training data is, however, the same as for machine translation
(MT) systems, especially for neural MT (NMT), which itself is able to produce
word-alignments using the trained attention heads. This is convenient because
word-alignment is theoretically a viable byproduct of any attention-based NMT,
which is also able to provide decoder scores for a translated sentence pair.
We summarize different approaches on how word-alignment can be extracted from
alignment scores and then explore ways in which scores can be extracted from
NMT, focusing on inferring the word-alignment scores based on output sentence
and token probabilities. We compare this to the extraction of alignment scores
from attention. We conclude with aggregating all of the sources of alignment
scores into a simple feed-forward network which achieves the best results when
combined alignment extractors are used.
- Abstract(参考訳): ワードアライメントの最も一般的なツールは、大量の並列文に依存しており、通常はIBMモデルアルゴリズムの1つに従って処理される。
しかし、トレーニングデータは機械翻訳(MT)システムと同じであり、特にニューラルMT(NMT)は、訓練された注意頭を用いて単語アライメントを生成できる。
これは、単語アライメントが理論的にはどの注意に基づくNMTの副産物であり、翻訳された文対に対してデコーダスコアを提供することができるため便利である。
単語アライメントをアライメントスコアから抽出する方法をまとめた上で,出力文とトークン確率に基づいて単語アライメントスコアを推定することに着目し,NMTからスコアを抽出する方法を探る。
これを注意からのアライメントスコアの抽出と比較する。
その結果,全てのアライメントスコアを単純なフィードフォワードネットワークに集約し,アライメント抽出器を併用した場合に最適な結果が得られることがわかった。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - Graph Neural Networks for Multiparallel Word Alignment [0.27998963147546146]
我々は、複数の言語ペア間の高品質な単語アライメントを、すべての言語ペアを一緒に考えることによって計算する。
グラフ構造を利用するためにグラフニューラルネットワーク(GNN)を用いる。
提案手法は,3つの単語アライメントデータセットと下流タスクにおいて,過去の作業よりも優れていた。
論文 参考訳(メタデータ) (2022-03-16T14:41:35Z) - Graph Algorithms for Multiparallel Word Alignment [2.5200727733264663]
本研究では,最初のバイリンガルアライメントの集合をグラフとして表現することにより,コーパスの多重並列性を利用する。
エッジ予測のためのグラフアルゴリズムを2つ提案する。1つは推薦システムにインスパイアされたもので、もう1つはネットワークリンク予測に基づくものである。
論文 参考訳(メタデータ) (2021-09-13T19:40:29Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Adaptive Nearest Neighbor Machine Translation [60.97183408140499]
kNN-MTは、事前訓練されたニューラルネットワーク翻訳とトークンレベルのk-nearest-neighbor検索を組み合わせる。
従来のkNNアルゴリズムは、ターゲットトークンごとに同じ数の近傍を検索する。
ターゲットトークン毎のk個数を動的に決定する適応的kNN-MTを提案する。
論文 参考訳(メタデータ) (2021-05-27T09:27:42Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Rationalizing Text Matching: Learning Sparse Alignments via Optimal
Transport [14.86310501896212]
本研究では,この選択的合理化アプローチをテキストマッチングに拡張する。
目標は、下流の予測の正当化として、トークンや文などのテキストを共同で選択し、調整することである。
我々のアプローチでは、入力間の最小コストアライメントを見つけるために最適なトランスポート(OT)を採用している。
論文 参考訳(メタデータ) (2020-05-27T01:20:49Z) - Accurate Word Alignment Induction from Neural Machine Translation [33.21196289328584]
本稿では2つの単語アライメント誘導手法 Shift-Att と Shift-AET を提案する。
主なアイデアは、to-be-alignedターゲットトークンがデコーダ入力であるときに、ステップでアライメントを誘導することである。
3つの公開データセットの実験では、両方のメソッドが対応する神経ベースラインよりも優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2020-04-30T14:47:05Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。