論文の概要: SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings
- arxiv url: http://arxiv.org/abs/2004.08728v4
- Date: Fri, 16 Apr 2021 10:18:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:29:06.815012
- Title: SimAlign: High Quality Word Alignments without Parallel Training Data
using Static and Contextualized Embeddings
- Title(参考訳): simalign: 静的および文脈的埋め込みを用いた並列トレーニングデータのない高品質単語アライメント
- Authors: Masoud Jalili Sabet, Philipp Dufter, Fran\c{c}ois Yvon, Hinrich
Sch\"utze
- Abstract要約: 並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
埋め込みから生成されるアライメントは,従来の統計手法よりも2つの言語ペアの方が優れていることがわかった。
- 参考スコア(独自算出の注目度): 3.8424737607413153
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Word alignments are useful for tasks like statistical and neural machine
translation (NMT) and cross-lingual annotation projection. Statistical word
aligners perform well, as do methods that extract alignments jointly with
translations in NMT. However, most approaches require parallel training data,
and quality decreases as less training data is available. We propose word
alignment methods that require no parallel data. The key idea is to leverage
multilingual word embeddings, both static and contextualized, for word
alignment. Our multilingual embeddings are created from monolingual data only
without relying on any parallel data or dictionaries. We find that alignments
created from embeddings are superior for four and comparable for two language
pairs compared to those produced by traditional statistical aligners, even with
abundant parallel data; e.g., contextualized embeddings achieve a word
alignment F1 for English-German that is 5 percentage points higher than
eflomal, a high-quality statistical aligner, trained on 100k parallel
sentences.
- Abstract(参考訳): 単語アライメントは統計およびニューラルマシン翻訳(NMT)や言語間アノテーション投影といったタスクに有用である。
統計的単語アライメントは、NTTの翻訳と共同でアライメントを抽出する手法と同様に、よく機能する。
しかし、ほとんどのアプローチは並列トレーニングデータを必要とし、トレーニングデータが少ないほど品質が低下する。
並列データを必要としない単語アライメント手法を提案する。
鍵となる考え方は、単語アライメントに静的および文脈化された多言語単語埋め込みを活用することである。
私たちの多言語埋め込みは、並列データや辞書に頼ることなく、モノリンガルデータから作成されます。
埋め込みから生成されるアライメントは,従来の統計アライメントよりも4つに優れ,2つの言語対に比較して優れていることがわかった。例えば,100kの並列文で訓練された,高品質な統計アライメントであるエフロマルよりも5ポイント高い英語-ドイツ語の単語アライメントF1が得られる。
関連論文リスト
- How Transliterations Improve Crosslingual Alignment [48.929677368744606]
近年の研究では、アライメント目的を用いた多言語事前学習言語モデル(mPLM)が言語横断アライメントを改善することが示されている。
本稿では, 言語間のアライメントを明示的に評価し, 翻訳に基づくアプローチにおける重要な要素を同定し, 性能向上に寄与する。
論文 参考訳(メタデータ) (2024-09-25T20:05:45Z) - WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised
Span Prediction [31.96433679860807]
既存の単語アライメント手法の多くは、手動アライメントデータセットやパラレルコーパスに依存している。
我々は正しい、完全に整合した、平行した文の要求を緩和する。
次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。
論文 参考訳(メタデータ) (2023-06-09T03:11:42Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Graph Neural Networks for Multiparallel Word Alignment [0.27998963147546146]
我々は、複数の言語ペア間の高品質な単語アライメントを、すべての言語ペアを一緒に考えることによって計算する。
グラフ構造を利用するためにグラフニューラルネットワーク(GNN)を用いる。
提案手法は,3つの単語アライメントデータセットと下流タスクにおいて,過去の作業よりも優れていた。
論文 参考訳(メタデータ) (2022-03-16T14:41:35Z) - Constrained Density Matching and Modeling for Cross-lingual Alignment of
Contextualized Representations [27.74320705109685]
我々は,正規化フローによって駆動されるReal-NVPとGAN-Real-NVPという,教師付きおよび教師なしの密度ベースアプローチを導入し,アライメントを行う。
実験では、6つの言語対、合成データ、4つのNLPタスクで評価された16のアライメントについて検討した。
論文 参考訳(メタデータ) (2022-01-31T18:41:28Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Graph Algorithms for Multiparallel Word Alignment [2.5200727733264663]
本研究では,最初のバイリンガルアライメントの集合をグラフとして表現することにより,コーパスの多重並列性を利用する。
エッジ予測のためのグラフアルゴリズムを2つ提案する。1つは推薦システムにインスパイアされたもので、もう1つはネットワークリンク予測に基づくものである。
論文 参考訳(メタデータ) (2021-09-13T19:40:29Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。