論文の概要: Multilingual Alignment of Contextual Word Representations
- arxiv url: http://arxiv.org/abs/2002.03518v2
- Date: Wed, 12 Feb 2020 23:28:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 07:32:44.047973
- Title: Multilingual Alignment of Contextual Word Representations
- Title(参考訳): 文脈表現の多言語アライメント
- Authors: Steven Cao, Nikita Kitaev, Dan Klein
- Abstract要約: BERTはXNLIのゼロショット性能をベースモデルに比べて大幅に改善した。
単語検索の文脈バージョンを導入し、下流のゼロショット転送とよく相関していることを示す。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
- 参考スコア(独自算出の注目度): 49.42244463346612
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose procedures for evaluating and strengthening contextual embedding
alignment and show that they are useful in analyzing and improving multilingual
BERT. In particular, after our proposed alignment procedure, BERT exhibits
significantly improved zero-shot performance on XNLI compared to the base
model, remarkably matching pseudo-fully-supervised translate-train models for
Bulgarian and Greek. Further, to measure the degree of alignment, we introduce
a contextual version of word retrieval and show that it correlates well with
downstream zero-shot transfer. Using this word retrieval task, we also analyze
BERT and find that it exhibits systematic deficiencies, e.g. worse alignment
for open-class parts-of-speech and word pairs written in different scripts,
that are corrected by the alignment procedure. These results support contextual
alignment as a useful concept for understanding large multilingual pre-trained
models.
- Abstract(参考訳): 文脈埋め込みアライメントの評価・強化手法を提案し,多言語BERTの分析・改善に有用であることを示す。
特に,提案したアライメント手順の後に,BERTはベースモデルと比較してXNLIのゼロショット性能を著しく改善し,ブルガリア語とギリシャ語の擬似教師付き翻訳訓練モデルに顕著に適合した。
さらに,アライメントの程度を測定するために,単語検索の文脈版を導入し,下流ゼロショット転送とよく相関することを示す。
また, この単語検索タスクを用いて, bertを解析し, 体系的な欠陥,例えば, 異なるスクリプトで記述されたオープンクラスの部分のアライメントや単語ペアのアライメントが, アライメント手順によって修正されることを見出した。
これらの結果は、大規模多言語事前学習モデルの理解に有用な概念としてコンテキストアライメントをサポートする。
関連論文リスト
- Decomposed Prompting for Machine Translation Between Related Languages
using Large Language Models [55.35106713257871]
DecoMTは、単語チャンク翻訳のシーケンスに翻訳プロセスを分解する、数発のプロンプトの新しいアプローチである。
DecoMTはBLOOMモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-22T14:52:47Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Utilizing Language-Image Pretraining for Efficient and Robust Bilingual
Word Alignment [27.405171616881322]
We developed a novel UWT method called Word Alignment using Language- Image Pretraining (WALIP)。
WALIPは、CLIPモデルが提供する画像とテキストの共有埋め込み空間を介して視覚的観察を使用する。
実験の結果,WALIPは言語対のバイリンガル単語アライメントの最先端性能を改善していることがわかった。
論文 参考訳(メタデータ) (2022-05-23T20:29:26Z) - Improving Contextual Representation with Gloss Regularized Pre-training [9.589252392388758]
本稿では,単語の意味的類似性を高めるため,BERT事前学習(GR-BERT)に補助的なグロース正規化モジュールを提案する。
マスクされた単語を予測し、コンテキスト埋め込みを対応するグルースに同時にアライメントすることにより、単語の類似性を明示的にモデル化することができる。
実験結果から,単語レベルおよび文レベルの意味表現において,Gloss regularizerはBERTの恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2022-05-13T12:50:32Z) - SLUA: A Super Lightweight Unsupervised Word Alignment Model via
Cross-Lingual Contrastive Learning [79.91678610678885]
超軽量非教師付き単語アライメントモデル(SLUA)を提案する。
いくつかの公開ベンチマークによる実験結果から,我々のモデルは性能が向上しても競争力を発揮することが示された。
特に、我々のモデルはバイリンガル単語の埋め込みと単語のアライメントを統一する先駆的な試みであると認識している。
論文 参考訳(メタデータ) (2021-02-08T05:54:11Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Unsupervised Word Translation Pairing using Refinement based Point Set
Registration [8.568050813210823]
単語埋め込みの言語間アライメントは、言語間の知識伝達において重要な役割を果たす。
現在の教師なしのアプローチは、言語にまたがる単語埋め込み空間の幾何学的構造における類似性に依存している。
本稿では,バイリンガル単語の共有ベクトル空間への埋め込みを教師なしでマッピングするBioSpereを提案する。
論文 参考訳(メタデータ) (2020-11-26T09:51:29Z) - Cross-lingual Alignment Methods for Multilingual BERT: A Comparative
Study [2.101267270902429]
ゼロショット設定におけるmBERTの転送能力に異なる言語間監督形態と様々なアライメント手法がどう影響するかを解析する。
並列コーパスの監督は概ね辞書アライメントよりも優れている。
論文 参考訳(メタデータ) (2020-09-29T20:56:57Z) - Self-Attention with Cross-Lingual Position Representation [112.05807284056337]
位置符号化(PE)は、自然言語処理タスクの単語順序情報を保存し、入力シーケンスの固定位置インデックスを生成する。
語順が異なるため、言語間の位置関係をモデル化することは、SANがこの問題に取り組むのに役立つ。
我々は、入力文のバイリンガル認識潜在構造をモデル化するために、言語間位置表現によるSANを拡大する。
論文 参考訳(メタデータ) (2020-04-28T05:23:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。