論文の概要: Word Alignment by Fine-tuning Embeddings on Parallel Corpora
- arxiv url: http://arxiv.org/abs/2101.08231v2
- Date: Sun, 24 Jan 2021 23:24:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 04:51:06.715359
- Title: Word Alignment by Fine-tuning Embeddings on Parallel Corpora
- Title(参考訳): 並列コーパス上の微調整埋め込みによる単語アライメント
- Authors: Zi-Yi Dou, Graham Neubig
- Abstract要約: 並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
- 参考スコア(独自算出の注目度): 96.28608163701055
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Word alignment over parallel corpora has a wide variety of applications,
including learning translation lexicons, cross-lingual transfer of language
processing tools, and automatic evaluation or analysis of translation outputs.
The great majority of past work on word alignment has worked by performing
unsupervised learning on parallel texts. Recently, however, other work has
demonstrated that pre-trained contextualized word embeddings derived from
multilingually trained language models (LMs) prove an attractive alternative,
achieving competitive results on the word alignment task even in the absence of
explicit training on parallel data. In this paper, we examine methods to marry
the two approaches: leveraging pre-trained LMs but fine-tuning them on parallel
text with objectives designed to improve alignment quality, and proposing
methods to effectively extract alignments from these fine-tuned models. We
perform experiments on five language pairs and demonstrate that our model can
consistently outperform previous state-of-the-art models of all varieties. In
addition, we demonstrate that we are able to train multilingual word aligners
that can obtain robust performance on different language pairs. Our aligner,
AWESOME (Aligning Word Embedding Spaces of Multilingual Encoders), with
pre-trained models is available at https://github.com/neulab/awesome-align
- Abstract(参考訳): 並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
単語アライメントに関する過去の研究の大部分は、並列テキストで教師なしの学習を行うことで行われている。
しかし,近年,多言語学習言語モデル (LM) に基づく事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したlmsを並列テキストに微調整し,アライメント品質を向上させるための目標と,これらの微調整モデルからアライメントを効果的に抽出する手法を提案する。
我々は5つの言語対の実験を行い、我々のモデルはすべての多様体の過去の最先端モデルより一貫して優れていることを示した。
さらに、異なる言語対上で堅牢な性能が得られる多言語単語整合器を訓練できることを実証した。
AWESOME (Aligning Word Embedding Spaces of Multilingual Encoders)と事前トレーニング済みのモデルはhttps://github.com/neulab/awesome-alignで利用可能です。
関連論文リスト
- VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Graph Algorithms for Multiparallel Word Alignment [2.5200727733264663]
本研究では,最初のバイリンガルアライメントの集合をグラフとして表現することにより,コーパスの多重並列性を利用する。
エッジ予測のためのグラフアルゴリズムを2つ提案する。1つは推薦システムにインスパイアされたもので、もう1つはネットワークリンク予測に基づくものである。
論文 参考訳(メタデータ) (2021-09-13T19:40:29Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Alignment Methods for Multilingual BERT: A Comparative
Study [2.101267270902429]
ゼロショット設定におけるmBERTの転送能力に異なる言語間監督形態と様々なアライメント手法がどう影響するかを解析する。
並列コーパスの監督は概ね辞書アライメントよりも優れている。
論文 参考訳(メタデータ) (2020-09-29T20:56:57Z) - SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings [3.8424737607413153]
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
論文 参考訳(メタデータ) (2020-04-18T23:10:36Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。