論文の概要: A Supervised Word Alignment Method based on Cross-Language Span
Prediction using Multilingual BERT
- arxiv url: http://arxiv.org/abs/2004.14516v1
- Date: Wed, 29 Apr 2020 23:40:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 14:01:06.500387
- Title: A Supervised Word Alignment Method based on Cross-Language Span
Prediction using Multilingual BERT
- Title(参考訳): 多言語BERTを用いたクロスランゲージスパン予測に基づく単語アライメント法
- Authors: Masaaki Nagata, Chousa Katsuki, Masaaki Nishino
- Abstract要約: まず、単語アライメント問題を、原文のトークンから対象文のスパンへの独立予測の集合として定式化する。
次に、手作業で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いて、この問題を解決する。
提案手法は,事前学習にビットクストを用いることなく,従来の教師付き単語アライメント法と教師なし単語アライメント法を著しく上回ることを示す。
- 参考スコア(独自算出の注目度): 22.701728185474195
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel supervised word alignment method based on cross-language
span prediction. We first formalize a word alignment problem as a collection of
independent predictions from a token in the source sentence to a span in the
target sentence. As this is equivalent to a SQuAD v2.0 style question answering
task, we then solve this problem by using multilingual BERT, which is
fine-tuned on a manually created gold word alignment data. We greatly improved
the word alignment accuracy by adding the context of the token to the question.
In the experiments using five word alignment datasets among Chinese, Japanese,
German, Romanian, French, and English, we show that the proposed method
significantly outperformed previous supervised and unsupervised word alignment
methods without using any bitexts for pretraining. For example, we achieved an
F1 score of 86.7 for the Chinese-English data, which is 13.3 points higher than
the previous state-of-the-art supervised methods.
- Abstract(参考訳): 本稿では,クロスランゲージスパン予測に基づく単語アライメント手法を提案する。
まず、単語アライメント問題を、ソース文のトークンからターゲット文のスパンまでの独立した予測の集合として定式化する。
これはSQuAD v2.0スタイルの質問応答タスクに相当するので、手動で作成したゴールドワードアライメントデータに基づいて微調整された多言語BERTを用いてこの問題を解決する。
質問にトークンのコンテキストを追加することにより,単語アライメントの精度を大幅に向上した。
中国語,日本語,ドイツ語,ルーマニア語,フランス語,英語の5つの単語アライメントデータセットを用いて実験したところ,提案手法は事前学習にビットックスを用いることなく,従来の教師付き単語アライメント手法と教師なし単語アライメント手法を著しく上回った。
例えば、中国英語データに対するf1スコアは86.7で、これは以前の最先端の教師付きメソッドよりも13.3ポイント高い。
関連論文リスト
- How Transliterations Improve Crosslingual Alignment [48.929677368744606]
近年の研究では、アライメント目的を用いた多言語事前学習言語モデル(mPLM)が言語横断アライメントを改善することが示されている。
本稿では, 言語間のアライメントを明示的に評価し, 翻訳に基づくアプローチにおける重要な要素を同定し, 性能向上に寄与する。
論文 参考訳(メタデータ) (2024-09-25T20:05:45Z) - WSPAlign: Word Alignment Pre-training via Large-Scale Weakly Supervised
Span Prediction [31.96433679860807]
既存の単語アライメント手法の多くは、手動アライメントデータセットやパラレルコーパスに依存している。
我々は正しい、完全に整合した、平行した文の要求を緩和する。
次に、このような大規模弱教師付きデータセットを用いて、スパン予測による単語アライメント事前学習を行う。
論文 参考訳(メタデータ) (2023-06-09T03:11:42Z) - Third-Party Aligner for Neural Word Alignments [18.745852103348845]
本稿では,ニューラルネットワークによる単語アライメントトレーニングの監督のために,サードパーティ製単語アライメント器によって生成された単語アライメントを提案する。
実験により、我々のアプローチは第三者の監督に対して驚くほど自己補正が可能であることが示された。
我々は最先端の単語アライメント性能を達成し、最高のサードパーティアライメントよりも平均2ポイント以上低いアライメント誤り率を持つ。
論文 参考訳(メタデータ) (2022-11-08T12:30:08Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Fake it Till You Make it: Self-Supervised Semantic Shifts for
Monolingual Word Embedding Tasks [58.87961226278285]
語彙意味変化をモデル化するための自己教師付きアプローチを提案する。
本手法は,任意のアライメント法を用いて意味変化の検出に利用できることを示す。
3つの異なるデータセットに対する実験結果を用いて,本手法の有用性について述べる。
論文 参考訳(メタデータ) (2021-01-30T18:59:43Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Subword Sampling for Low Resource Word Alignment [4.663577299263155]
テキスト単位のサブワードサンプリングに基づくアライメントを提案する。
サブワードサンプリング法が6つの言語ペアの単語レベルアライメントを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2020-12-21T19:47:04Z) - Cross-lingual Alignment Methods for Multilingual BERT: A Comparative
Study [2.101267270902429]
ゼロショット設定におけるmBERTの転送能力に異なる言語間監督形態と様々なアライメント手法がどう影響するかを解析する。
並列コーパスの監督は概ね辞書アライメントよりも優れている。
論文 参考訳(メタデータ) (2020-09-29T20:56:57Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Multilingual Alignment of Contextual Word Representations [49.42244463346612]
BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
論文 参考訳(メタデータ) (2020-02-10T03:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。